Հաճախականության տեքստի վերլուծություն. առանձնահատկություններ և օրինակներ

Բովանդակություն:

Հաճախականության տեքստի վերլուծություն. առանձնահատկություններ և օրինակներ
Հաճախականության տեքստի վերլուծություն. առանձնահատկություններ և օրինակներ
Anonim

Դուք կյանքում մեկ անգամ չէ, որ հանդիպել եք այս հայեցակարգին, եթե ստիպված լինեք աշխատել տեքստերի հետ: Մասնավորապես, դուք կարող եք դիմել առցանց հաշվիչներ, որոնք իրականացնում են տեքստի հաճախականության ճշգրիտ վերլուծություն: Այս հարմար գործիքները ցույց են տալիս, թե քանի անգամ է որոշակի նիշ կամ տառ հանդիպում տեքստի ցանկացած հատվածում: Հաճախ ցույց է տրվում նաև տոկոս: Ինչու է սա անհրաժեշտ: Ինչպե՞ս է տեքստի հաճախականության վերլուծությունը նպաստում պարզ ծածկագրերի «ճեղքմանը»: Ո՞րն է դրա էությունը, ո՞վ է այն հորինել։ Թեմայի վերաբերյալ այս և այլ կարևոր հարցերի կպատասխանենք հոդվածի ընթացքում։

Սահմանում

Հաճախականության վերլուծությունը կրիպտովերլուծության տեսակներից մեկն է: Այն հիմնված է գիտնականների ենթադրության վրա առանձին նիշերի և դրանց կանոնավոր հաջորդականությունների վիճակագրական ոչ տրիվիալ բաշխման առկայության մասին ինչպես պարզ, այնպես էլ գաղտնագրված տեքստում:

Ենթադրվում է, որ նման բաշխումը, ընդհուպ մինչև առանձին նիշերի փոխարինումը, կպահպանվի նաև կոդավորման/վերծանման գործընթացներում։

համակարգերի հաճախականության վերլուծություն
համակարգերի հաճախականության վերլուծություն

Գործընթացի բնութագրիչ

Այժմ եկեք նայենք հաճախականության վերլուծությանը պարզ բառերով: Սա ենթադրում է, որ բավականաչափ երկարությամբ տեքստերում նույն այբբենական նիշերի թիվը նույնն է նույն լեզվով գրված տարբեր տեքստերում:

Իսկ հիմա ինչ վերաբերում է միաայբբենական ծածկագրմանը: Ենթադրվում է, որ եթե գաղտնագրված հատվածում նման նմանատիպ հավանականությամբ կերպար կա, ապա իրատեսական է ենթադրել, որ դա հենց այդ գաղտնագրված տառն է։

Հաճախականության տեքստի վերլուծության հետևորդները նույն պատճառաբանությունը կիրառում են դիգրամների նկատմամբ (երկու տառերի հաջորդականություն): Եռագիր - սա արդեն բազմայբբենական ծածկագրերի դեպքում է:

Մեթոդի պատմություն

Բառերի հաճախականության վերլուծությունը արդիականության բացահայտում չէ: Գիտական աշխարհին հայտնի է 9-րդ դարից։ Դրա ստեղծումը կապված է Ալ-Կինդի անվան հետ։

Բայց հաճախականության վերլուծության մեթոդի կիրառման հայտնի դեպքերը պատկանում են շատ ավելի ուշ շրջանի։ Այստեղ ամենավառ օրինակը եգիպտական հիերոգլիֆների վերծանումն է, որն արտադրվել է 1822 թվականին Ջ.-Ֆ. Շամպոլիոն.

Եթե դիմենք գեղարվեստական գրականությանը, ապա կարող ենք գտնել բազմաթիվ հետաքրքիր հղումներ վերծանման այս մեթոդի վերաբերյալ.

  • Քոնան Դոյլ - «Պարող տղամարդիկ».
  • Ժյուլ Վեռն - «Կապիտան Գրանտի երեխաները»:
  • Էդգար Պո - «Ոսկե վրիպակ».

Սակայն անցյալ դարի կեսերից գաղտնագրման մեջ օգտագործվող ալգորիթմների մեծ մասը մշակվել է՝ հաշվի առնելով դրանց դիմադրությունը նման հաճախականության կրիպտովերլուծության: Հետևաբար այնայսօր դրանք ամենից հաճախ օգտագործվում են միայն ապագա կրիպտոգրաֆներ պատրաստելու համար:

տեքստի հաճախականության վերլուծություն
տեքստի հաճախականության վերլուծություն

Հիմնական մեթոդ

Հիմա մանրամասն ներկայացնենք հաճախականության արձագանքման վերլուծությունը։ Այս տեսակի վերլուծությունը ուղղակիորեն հիմնված է այն փաստի վրա, որ թեստը բաղկացած է բառերից, իսկ դրանք, իրենց հերթին, տառերից: Ազգային այբուբենները լրացնող տառերի թիվը սահմանափակ է։ Նամակները պարզապես կարելի է թվարկել այստեղ։

Նման տեքստի ամենակարևոր բնութագրիչները կլինեն ինչպես տառերի կրկնությունը, զանազան բիգրամները, եռագրերը և ն-գրամները, ինչպես նաև տարբեր տառերի համատեղելիությունը միմյանց հետ, բաղաձայնների/ձայնավորների փոփոխումը և այլն։ այս խորհրդանիշների տարատեսակները։

Մեթոդների հիմնական գաղափարն է հաշվել հնարավոր n-գրամների (նշված nm-ով) դեպքերը վերլուծության համար բավական երկար տեքստերում (նշվում է T=t1t2…tl), որը կազմված է ազգային այբուբենի տառերից (նշվում է {a1, a2, …, an}-ով): Վերոհիշյալ բոլորը առաջացնում են տեքստի մի քանի հաջորդական մ-գրամներ՝

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Եթե սա m-gram ai1ai2…նպատակի դեպքերի թիվն է որոշակի տեքստում T, իսկ L-ն հետազոտողի կողմից վերլուծված մ-գրամների ընդհանուր թիվն է, ապա հնարավոր է էմպիրիկորեն հաստատել, որ բավականաչափ մեծ L, նման մ-գրամի հաճախականությունները մի փոքր տարբեր կլինեն միմյանցից:

հաճախականության վերլուծություն
հաճախականության վերլուծություն

Ռուսական այբուբենի հաճախ հանդիպող տառեր

Բայց ժամանակային հաճախականության վերլուծությունը, չնայած նման անվանմանը, կապ չունի մեր զրույցի թեմայի հետ։ Այս տեսակի վերլուծությունը կատարվում էազդանշաններ ցածր դիտելի ռադիոտեղորոշիչ կայաններից՝ օգտագործելով հատուկ ալիքային փոխակերպում:

Հիմա վերադառնանք բուն թեմային։ Հաճախականության վերլուծություն կատարելիս կարող եք պարզել, թե ռուսերեն այբուբենի որ տառերն են առավել հաճախ հանդիպում բավականին ծավալուն տեքստերում (տոկոսը 0,062-ից մինչև 0,018).

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • Օ.
  • R.
  • T.
  • F.
  • T.
  • Շ.
  • բ.
  • E.
  • I.

Նույնիսկ հատուկ մնեմոնիկ կանոն է ներդրվել, որն օգնում է սովորել ռուսերեն այբուբենի ամենատարածված տառերը։ Դա անելու համար բավական է հիշել ընդամենը մեկ բառ՝ «հեյլոֆթ»:

Ընդհանուր դեպքերում տառերի օգտագործման հաճախականությունը տոկոսային արտահայտությամբ սահմանվում է պարզապես. մասնագետը հաշվում է, թե քանի անգամ է տառը հայտնվում տեքստում, այնուհետև ստացված արժեքը բաժանում է տեքստի նիշերի ընդհանուր թվին: Իսկ այս արժեքը տոկոսով արտահայտելու համար բավական է այն բազմապատկել 100-ով։

Կարևոր է հաշվի առնել, որ հաճախականությունը կախված կլինի ոչ միայն տեքստի ծավալից, այլև դրա բնույթից: Օրինակ, տեխնիկական աղբյուրներում «F» տառը շատ ավելի հաճախ է հայտնվում, քան գեղարվեստական գրականության մեջ։ Հետևաբար, օբյեկտիվ արդյունքների համար մասնագետը պետք է հետազոտության համար տպի տարբեր բնույթի և ոճի տեքստեր։

տեքստի հաճախականության վերլուծության ծրագրեր
տեքստի հաճախականության վերլուծության ծրագրեր

Bi-, tri-, չորս գրամ

Իմաստալից տեքստերում կարող եք գտնել նաև ամենատարածվածը (համապատասխանաբար՝ ամենաշատըկրկնվող) երկու կամ ավելի տառերի համակցություններ. Մասնագետները կազմել են նաև մի քանի աղյուսակներ, որոնք ցույց են տալիս տարբեր այբուբենների նմանատիպ դիգրամների հաճախականությունը։

Ինչ վերաբերում է ռուսերենին, ապա ծավալուն իմաստալից տեքստերի համակարգերի հաճախականության վերլուծությունը հնարավորություն է տվել սահմանել ամենատարածված բիգրամներն ու եռագրամները.

  • EN.
  • ST.
  • ԲԱՅՑ.
  • NOT.
  • ՄԻԱՑ։
  • ՀՀ.
  • OV.
  • KO.
  • VO.
  • STO.
  • ՆՈՐ
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Տառերի նախընտրելի փոխհարաբերությունները միմյանց հետ

Եվ սա այն բոլոր հնարավորությունները չէ, որ հաճախականության վերլուծությունը կարող է տալ տեքստի հետազոտողներին: Բիգրամների և եռագրամների նմանատիպ աղյուսակներից տեղեկատվության համակարգման միջոցով հնարավոր է ստանալ տվյալներ տառերի ամենատարածված համակցությունների վերաբերյալ: Կամ, այլ կերպ ասած, նրանց նախընտրած հարաբերությունները միմյանց հետ։

Նման ծավալուն ուսումնասիրություն արդեն իսկ իրականացվել է մասնագետների կողմից։ Դրա արդյունքը եղավ աղյուսակ, որտեղ այբուբենի յուրաքանչյուր տառի հետ նշվում էին նրա հարևանները: Ընդ որում, այն կերպարները, որոնք հաճախ հանդիպում են թե՛ դրանից անմիջապես առաջ, թե՛ դրանից հետո։ Աղյուսակի տառերը պատահական չեն գրված։ Խորհրդանիշին ավելի մոտ նշվում են ամենահաճախակի հարևանները, ավելի հազվադեպ՝ ավելի հազվադեպ։

Դիտարկենք օրինակներ՝

  • Տառ «Ա». Այստեղ առանձնանում են հետևյալ նախընտրելի կապերը՝ l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m: Այստեղից տեսնում ենք, որ ամենից հաճախ «Ա»-ից առաջ տեքստերում կա «Հ» («NA»): Իսկ «Ա»-ից հետո ռուսերեն տեքստերում ամենից հաճախ կարող ենք հանդիպել «L»-ին.(«ԱԼ»).
  • Տառ «M». Փորձագետները հայտնաբերել են այնպիսի նախընտրելի կապեր. «I-s-a-i-e-o-M-i-e-o-u-a-n-p-s»:
  • «բ» տառ. Նախընտրելի կապերը հետևյալն են. «n-s-t-l-b-n-k-v-p-s-e-o-i»:
  • Տառ «Շ». Նախընտրելի կապեր՝ «e-b-a-i-u-Sch-e-i-a».
  • Տառ «P». Նախընտրելի կապեր ռուսերեն այբուբենի այս խորհրդանիշի հետ՝ «v-s-u-a-i-e-o-P-o-r-e-a-u-i-l»:
ժամանակի հաճախականության վերլուծություն
ժամանակի հաճախականության վերլուծություն

Ի՞նչն է սահմանում վերլուծությունը:

Հաճախականության տեքստի վերլուծության ժամանակակից ծրագրերն օգնում են ուսումնասիրել հոդվածների, էսսեների, հատվածների և այլնի մեծ ծավալները: Հետևյալ տեղեկատվությունը տրամադրվում է հետազոտողին որպես ստանդարտ՝

  • Տեքստում նիշերի ընդհանուր թիվը։
  • Հեղինակի կողմից օգտագործված բացատների քանակը։
  • Նիշերի քանակը։
  • Տեղեկություններ օգտագործված կետադրական նշանների մասին՝ կետ, ստորակետ և այլն:
  • Հասանելի այբուբեններից յուրաքանչյուրի տառերի քանակը՝ կիրիլիցա, լատիներեն և այլն:
  • Տեղեկություն տեքստում յուրաքանչյուր տառի և նշանի օգտագործման հաճախականության մասին՝ հիշատակումների քանակն ու տոկոսը՝ ամբողջ տեքստի համեմատ։

Պայքար գերօպտիմիզացիայի և գերհագեցվածության դեմ

Ինչու է կատարվում տեքստի հաճախականության վերլուծությունը: Արդյո՞ք դա պարզապես հետաքրքրասիրության նպատակով է. պարզել, թե գրավոր տեքստում որ կերպարներն են հաճախակի հանդիպում: Ոչ, վերլուծության հիմնական կիրառումը գործնական է, և այն այլ տեղ է:

N-գրամները ներառում են ոչ միայն կայուն բիգրամներ և եռագրամներ: Նույնինկատեգորիաները ներառում են հիմնաբառեր (պիտակներ), համադրություններ: Այսինքն՝ երկու կամ ավելի բառերից բաղկացած կայուն համակցություններ։ Նրանք առանձնանում են նրանով, որ նման կոմպոզիցիաները տեքստում հանդիպում են միասին և միևնույն ժամանակ կրում են որոշակի իմաստային բեռ։

Սա խաղում է SEO-ի անբարեխիղճ մասնագետների ձեռքում: Իրենց աշխատանքում նրանք երբեմն չարաշահում են տեքստում պիտակների և հիմնաբառերի կրկնությունը, որպեսզի արհեստականորեն մեծացնեն որոշակի վեբ էջի համապատասխանությունը: Համակարգին փորձում են խաբել այսպիսի «հնարքով»՝ բնական համակցությունը ռուսաց լեզվի համար ավանդական բառերի սովորական համադրությամբ («գնիր ջրաքիս») վերածել անհամապատասխանի։ Այսինքն, ստացվել է բառերը վերադասավորելով նման բնական N-գրամով («գնել ջրաքիս վերարկու»):

Բայց այսօր որոնման ալգորիթմները սովորել են հայտնաբերել գերօպտիմիզացումը նույնքան արդյունավետ, որքան գերսպամը՝ տեքստի գերհագեցվածությունը հիմնաբառերով, թեգեր, որոնք ազդում են որոնման էջում արդյունքների վարկանիշի վրա: Չափից շատ օպտիմիզացված էջերն այժմ, ընդհակառակը, ավելի ցածր են դասվում օգտատիրոջ հարցումով: Եվ մարդիկ իրենք հակված չեն կարդալու անիմաստ, պիտակներով գերհագեցած տեքստը՝ նախընտրելով այլ ռեսուրսի օգտակար տեղեկատվություն:

հաճախականության վերլուծության մեթոդ
հաճախականության վերլուծության մեթոդ

Օգնում ենք մասնավոր վերլուծություններին SEO մասնագետների համար

Այսպիսով, ժամանակակից որոնման համակարգերի տեքստային զտիչներն այսօր նախապատվությունը տալիս են այն ինտերնետային էջերին, որոնց մասին տեղեկատվությունը ոչ միայն հեշտ է կարդալ, այլև օգտակար է այցելուներին։ Օպտիմալացնել իրենց աշխատանքը նոր ստանդարտների համար, SEO մասնագետներըև դիմել տեքստի հաճախականության վերլուծությանը: Շատ հայտնի ծառայություններ մատուցում են այն այսօր:

Հաճախականության վերլուծությունը օգնում է վերանայել հրապարակման պատրաստվող տեքստը՝ տեղեկատվական լինելու համար: Վերացրեք պիտակների և հիմնական արտահայտությունների ավելորդ ավելորդությունը: Այն նաև թույլ է տալիս հեղինակի ուշադրությունը հրավիրել բառերի անբնական համակցությունների վրա, որոնք կասկածներ են առաջացնում որոնման համակարգերի տեքստային զտիչներում։

հաճախականության արձագանքման վերլուծություն
հաճախականության արձագանքման վերլուծություն

Տեքստի հաճախականության վերլուծությունն այսպիսով օգնում է որոշել սկզբնաղբյուրում որոշակի կերպարի հիշատակման հաճախականությունը: Մեթոդն այսօր օգտագործվում է տեքստի գերբեռնվածությունը պիտակներով, բառերի անբնական փոխարկումներով գնահատելու համար:

Խորհուրդ ենք տալիս: