Ի՞նչ է կորպուսի լեզվաբանությունը:

Բովանդակություն:

Ի՞նչ է կորպուսի լեզվաբանությունը:
Ի՞նչ է կորպուսի լեզվաբանությունը:
Anonim

Մի քանի տասնամյակ առաջ գիտնականները կարող էին միայն երազել լեզվաբանական հետազոտությունների ավտոմատացման մասին: Աշխատանքը ձեռքով էր արված, դրանում ներգրավված էին մեծ թվով ուսանողներ, կար «անուշադրության» սխալի զգալի հավանականություն, և որ ամենակարեւորն է՝ այդ ամենը շատ, շատ ժամանակ խլեց։

Համակարգչային տեխնոլոգիաների զարգացմամբ հնարավոր դարձավ հետազոտություններ իրականացնել շատ ավելի արագ, և այսօր լեզվի ուսումնասիրության հեռանկարային ուղղություններից մեկը կորպուսային լեզվաբանությունն է։ Դրա հիմնական առանձնահատկությունը մեծ քանակությամբ տեքստային տեղեկատվության օգտագործումն է, որը համախմբված է մեկ տվյալների բազայում, նշվում է հատուկ ձևով և կոչվում է կորպուս:

Այսօր կան բազմաթիվ կորպուսներ, որոնք ստեղծվել են տարբեր նպատակների համար՝ հիմնված տարբեր լեզվական նյութերի վրա, որոնք ընդգրկում են միլիոնավորից մինչև տասնյակ միլիարդավոր բառային միավորներ: Այս ուղղությունը ճանաչվում է որպես խոստումնալից և զգալի առաջընթաց է ցույց տալիս կիրառական և հետազոտական նպատակներին հասնելու գործում: Պրոֆեսիոնալները, այսպես թե այնպես, գործ ունենբնական լեզվով, խորհուրդ է տրվում ծանոթանալ տեքստային կորպուսներին առնվազն հիմնական մակարդակով:

Կորպուսի լեզվաբանության պատմություն

Այս ուղղության ձևավորումը կապված է անցյալ դարի 60-ականների սկզբին ԱՄՆ-ում Բրաուն կորպուսի ստեղծման հետ։ Տեքստերի հավաքածուն բաղկացած էր ընդամենը 1 միլիոն բառաձևից, և այսօր նման ծավալի կորպուսը լիովին անմրցունակ կլիներ։ Սա մեծապես պայմանավորված է համակարգչային տեխնոլոգիաների զարգացման տեմպերով, ինչպես նաև նոր հետազոտական ռեսուրսների աճող պահանջարկով։

90-ականներին կորպուսի լեզվաբանությունը ձևավորվեց լիարժեք և անկախ գիտակարգի, կազմվեցին տեքստերի ժողովածուներ և նշվեցին մի քանի տասնյակ լեզուներով։ Այս ժամանակահատվածում, օրինակ, բրիտանական ազգային կորպուսը ստեղծվել է 100 միլիոն բառի օգտագործման համար:

կորպուսի լեզվաբանություն
կորպուսի լեզվաբանություն

Լեզվաբանության այս ուղղության զարգացմանը զուգընթաց, տեքստերի ծավալը դառնում է ավելի մեծ (և հասնում է միլիարդավոր բառապաշարի միավորների), իսկ նշագրումը դառնում է ավելի ու ավելի բազմազան: Այսօր համացանցային տարածքում դուք կարող եք գտնել գրավոր և բանավոր խոսքի կորպուսներ՝ բազմալեզու և կրթական, կենտրոնացած գեղարվեստական կամ ակադեմիական գրականության վրա, ինչպես նաև բազմաթիվ այլ տարատեսակներ:

Ինչ դեպքեր կան

Կորպուսի տեսակները կորպուսի լեզվաբանության մեջ կարող են ներկայացվել մի քանի ձևով: Ինտուիտիվորեն պարզ է, որ դասակարգման հիմք կարող է լինել տեքստերի լեզուն (ռուսերեն, գերմաներեն), մուտքի ռեժիմը (բաց կոդով, փակ աղբյուր, առևտրային), սկզբնաղբյուր նյութի ժանրը (գեղարվեստական գրականություն):գրականություն, վավերագրական, ակադեմիական, լրագրություն).

կորպուսի լեզվաբանության մեթոդներ
կորպուսի լեզվաբանության մեթոդներ

Հետաքրքիր կերպով իրականացվում է բանավոր խոսքը ներկայացնող նյութերի գեներացում։ Քանի որ նման խոսքի կանխամտածված ձայնագրումը հարցվողների համար արհեստական պայմաններ կստեղծեր, և արդյունքում ստացված նյութը չէր կարող «ինքնաբուխ» անվանվել, ժամանակակից կորպուս լեզվաբանությունը գնաց այլ ճանապարհով։ Կամավորը հագեցած է խոսափողով, իսկ օրվա ընթացքում ձայնագրվում են բոլոր խոսակցությունները, որոնց նա մասնակցում է։ Շրջապատող մարդիկ, իհարկե, չեն կարող իմանալ, որ ամենօրյա զրույցի ընթացքում նրանք նպաստում են գիտության զարգացմանը։

Հետագայում ստացված ձայնագրությունները պահվում են տվյալների բանկում և ուղեկցվում են տպագիր տեքստով, ինչպես արտագրումը: Այս կերպ հնարավոր է դառնում առօրյա խոսքի կորպուս ստեղծելու համար անհրաժեշտ նշումը։

Դիմում

Որտեղ հնարավոր է օգտագործել լեզուն, հնարավոր է նաև օգտագործել տեքստային կորպուսներ: Լեզվաբանության մեջ կորպուսային մեթոդների կիրառման նպատակը կարող է լինել՝

  • Ստեղծում են տրամադրությունների ծրագրեր, որոնք լայնորեն օգտագործվում են քաղաքականության և բիզնեսի մեջ՝ հետևելու ընտրողների և հաճախորդների դրական և բացասական արձագանքներին համապատասխանաբար:
  • Տեղեկատվական համակարգի միացում բառարաններին և թարգմանիչներին՝ բարելավելու նրանց աշխատանքը:
  • Տարբեր հետազոտական առաջադրանքներ, որոնք նպաստում են լեզվի կառուցվածքի ըմբռնմանը, զարգացման պատմությանը և մոտ ապագայում դրա փոփոխության կանխատեսմանը:
  • Տեղեկատվության արդյունահանման համակարգերի մշակում՝ հիմնված մորֆոլոգիական,շարահյուսական, իմաստային և այլ հատկանիշներ։
  • Լեզվաբանական տարբեր համակարգերի աշխատանքի օպտիմիզացում և այլն։

Օգտագործելով պատյաններ

Ռեսուրսների ինտերֆեյսը նման է սովորական որոնման համակարգին և օգտատիրոջը հուշում է մուտքագրել որևէ բառ կամ բառերի համակցություն տեղեկատվական բազան որոնելու համար: Բացի ճշգրիտ հարցման ձևից, կարող եք օգտագործել ընդլայնված տարբերակը, որը թույլ է տալիս գտնել տեքստային տեղեկատվություն գրեթե ցանկացած լեզվական չափանիշներով:

համակարգչային և կորպուսային լեզվաբանություն
համակարգչային և կորպուսային լեզվաբանություն

Որոնման հիմք կարող է լինել՝

  • պատկանում է խոսքի մասերի որոշակի խմբին;
  • քերականական հատկանիշներ;
  • իմաստաբանություն;
  • ոճական և զգացմունքային գունավորում.

Նաև կարող եք համատեղել բառերի հաջորդականության որոնման չափանիշները. օրինակ՝ գտնել բայի բոլոր երևույթները ներկա ժամանակով, առաջին դեմքով, եզակի, որին հաջորդում է «in» նախադասությունը և գոյականը մեղադրական դեպքում:. Նման պարզ առաջադրանքի լուծումը օգտատերից պահանջում է մի քանի վայրկյան և պահանջում է ընդամենը մի քանի մկնիկի սեղմում տվյալ դաշտերում։

Ստեղծման գործընթաց

Որոնումն ինքնին կարող է իրականացվել ինչպես բոլոր ենթամարմիններում, այնպես էլ մեկում, հատուկ ընտրված, կախված կոնկրետ նպատակին հասնելու կարիքներից:

  1. Առաջին հերթին որոշվում է, թե որ տեքստերն են կազմելու կորպուսի հիմքը։ Գործնական նպատակներով հաճախ օգտագործվում են լրագրողական, թերթային նյութեր, ինտերնետային մեկնաբանություններ։ Հետազոտական նախագծերում՝ ամենաշատըտարբեր տեսակի կորպուսներ, բայց տեքստերը պետք է ընտրվեն ընդհանուր հիմունքներով:
  2. Ստացված տեքստերի հավաքածուն նախապես մշակվում է, սխալները ուղղվում են, եթե այդպիսիք կան, պատրաստվում է տեքստի մատենագիտական և արտալեզվական նկարագրություն:
  3. Ողջ ոչ տեքստային տեղեկատվությունը զտված է. գրաֆիկները, նկարները, աղյուսակները ջնջված են:
  4. Նշանները, սովորաբար բառերը, հատկացվում են հետագա մշակման համար:
  5. Վերջապես կատարվում է ստացված տարրերի ձևաբանական, շարահյուսական և այլ նշումներ։

Բոլոր կատարվող գործողությունների արդյունքը շարահյուսական կառուցվածքն է՝ իր վրա բաշխված տարրերի մի շարք, որոնցից յուրաքանչյուրի համար սահմանվում են խոսքի մի հատված, քերականական և որոշ դեպքերում՝ իմաստային հատկանիշներ։

Դժվարություններ ստեղծելու գործեր

Կարևոր է հասկանալ, որ կորպուս ստանալու համար բավական չէ շատ բառեր կամ նախադասություններ հավաքել: Մի կողմից՝ տեքստերի հավաքածուն պետք է հավասարակշռված լինի, այսինքն՝ որոշակի համամասնություններով ներկայացնի տարբեր տեսակի տեքստեր։ Մյուս կողմից, գործի բովանդակությունը պետք է նշվի հատուկ ձևով։

Զախարովի կորպուսի լեզվաբանություն
Զախարովի կորպուսի լեզվաբանություն

Առաջին հարցը լուծվում է պայմանագրով. օրինակ՝ ժողովածուն ներառում է գեղարվեստական տեքստերի 60%, վավերագրական ֆիլմերի 20%-ը, որոշակի համամասնություն է տրվում բանավոր խոսքի գրավոր ներկայացմանը, օրենսդրական ակտերին, գիտական աշխատություններին և այլն։ Հավասարակշռված կորպուսի իդեալական բաղադրատոմս այսօր գոյություն չունի:

Բովանդակության նշագրման հետ կապված երկրորդ հարցը ավելի դժվար է լուծել: Կան հատուկ ծրագրեր և ալգորիթմներ, որոնք օգտագործվում են տեքստերի ավտոմատ նշագրման համար, բայց դրանք 100% արդյունք չեն տալիս, կարող են ձախողումներ առաջացնել և պահանջել ձեռքով կատարելագործում: Այս խնդրի լուծման հնարավորություններն ու խնդիրները մանրամասն նկարագրված են Վ. Պ. Զախարովի աշխատությունում կորպուսի լեզվաբանության վերաբերյալ:

Տեքստի նշագրումն իրականացվում է մի քանի մակարդակներով, որոնք մենք կթվարկենք ստորև:

Մորֆոլոգիական նշում

Դպրոցական նստարանից հիշում ենք, որ ռուսաց լեզվում խոսքի տարբեր մասեր կան, և դրանցից յուրաքանչյուրն ունի իր առանձնահատկությունները։ Օրինակ, բայը ունի տրամադրության և ժամանակի կատեգորիաներ, որոնք գոյականը չունի: Մայրենի խոսողը առանց վարանելու մերժում է գոյականները և բայերը խոնարհում, սակայն ձեռքի աշխատանքը հարմար չէ 100 միլիոն բառի գործածության կորպուսը նշելու համար: Բոլոր անհրաժեշտ գործողությունները կարող են կատարվել համակարգչի միջոցով, սակայն դրա համար անհրաժեշտ է սովորեցնել։

Ձևաբանական նշումն անհրաժեշտ է, որպեսզի համակարգիչը «հասկանա» յուրաքանչյուր բառ որպես խոսքի որոշ հատված, որն ունի որոշակի քերականական առանձնահատկություններ: Քանի որ մի շարք կանոնավոր կանոններ գործում են ռուսերեն (ինչպես ցանկացած այլ) լեզվով, հնարավոր է ստեղծել ձևաբանական վերլուծության ավտոմատ ընթացակարգ՝ մի շարք ալգորիթմներ տեղադրելով մեքենայի մեջ: Այնուամենայնիվ, կան կանոններից բացառություններ, ինչպես նաև տարբեր բարդացնող գործոններ: Արդյունքում, այսօր մաքուր համակարգչային վերլուծությունը հեռու է իդեալական լինելուց, և նույնիսկ 4% սխալները տալիս են 4 միլիոն բառի արժեք 100 միլիոն միավորից բաղկացած կորպուսում, որոնք պահանջում են ձեռքով ճշգրտում:

Այս խնդիրը մանրամասն նկարագրված է Վ. Պ. Զախարովի «Կորպուս լեզվաբանություն» գրքում։

շարահյուսական նշում

Սինտակտիկ վերլուծությունը կամ վերլուծությունը ընթացակարգ է, որը որոշում է նախադասության մեջ բառերի փոխհարաբերությունները: Մի շարք ալգորիթմների օգնությամբ հնարավոր է դառնում տեքստում որոշել առարկան, պրեդիկատը, լրացումները, խոսքի տարբեր շրջադարձերը։ Պարզելով, թե հաջորդականության որ բառերն են հիմնական և որոնք են՝ կախված, մենք կարող ենք արդյունավետ կերպով տեղեկատվություն հանել տեքստից և վարժեցնել մեքենային վերադարձնել միայն այն տեղեկատվությունը, որը մեզ հետաքրքրում է որոնման հարցում:

կորպուսային լեզվաբանության լաբորատորիաներ Ռուսաստանի բուհերում
կորպուսային լեզվաբանության լաբորատորիաներ Ռուսաստանի բուհերում

Ի դեպ, ժամանակակից որոնողական համակարգերն օգտագործում են սա՝ երկար տեքստերի փոխարեն կոնկրետ թվեր տալու համար՝ պատասխանելով համապատասխան հարցումներին, ինչպիսիք են՝ «քանի՞ կալորիա կա խնձորում» կամ «Մոսկվայից Սանկտ Պետերբուրգ հեռավորությունը»։ Այնուամենայնիվ, նկարագրված գործընթացի նույնիսկ հիմունքները հասկանալու համար դուք պետք է ծանոթանաք «Կորպուս լեզվաբանության ներածություն» կամ մեկ այլ հիմնական դասագրքին:

Իմաստային նշում

Բառի իմաստաբանությունը, պարզ ասած, դրա իմաստն է: Իմաստային վերլուծության մեջ լայնորեն կիրառելի մոտեցում է պիտակների վերագրումը բառին, որն արտացոլում է նրա պատկանելությունը մի շարք իմաստային կատեգորիաների և ենթակատեգորիաների: Նման տեղեկատվությունը արժեքավոր է տեքստային տրամադրությունների վերլուծության ալգորիթմների օպտիմալացման, ավտոմատ հղումների և այլ առաջադրանքների կատարման համար՝ օգտագործելով կորպուսի լեզվաբանական մեթոդները:

Ծառի մի շարք «արմատներ» կան, որոնք վերացական բառեր են, որոնք ունեն.շատ լայն իմաստաբանություն: Երբ այս ծառը ճյուղավորվում է, ձևավորվում են հանգույցներ, որոնք պարունակում են ավելի ու ավելի կոնկրետ բառային տարրեր: Օրինակ, «արարած» բառը կարող է կապված լինել այնպիսի հասկացությունների հետ, ինչպիսիք են «մարդ» և «կենդանի»: Առաջին խոսքը կշարունակի ճյուղավորվել տարբեր մասնագիտությունների, ազգակցական, ազգության, իսկ երկրորդը՝ կենդանիների դասերի ու տեսակների մեջ։

Տեղեկատվության որոնման համակարգերի օգտագործում

Կորպուս լեզվաբանության կիրառման ոլորտներն ընդգրկում են գործունեության լայն շրջանակ։ Կորպորաներն օգտագործվում են բառարաններ կազմելու և ուղղելու, ավտոմատ թարգմանության համակարգեր ստեղծելու, ամփոփելու, փաստերի արդյունահանման, տրամադրությունները որոշելու և տեքստի այլ մշակման համար:

կորպուսի լեզվաբանություն կորպուսի տեսակները
կորպուսի լեզվաբանություն կորպուսի տեսակները

Բացի այդ, նման ռեսուրսները ակտիվորեն օգտագործվում են աշխարհի լեզուների ուսումնասիրության և լեզվի ընդհանուր գործունեության մեխանիզմների ուսումնասիրության մեջ: Նախապես պատրաստված տեղեկատվության մեծ ծավալների հասանելիությունը նպաստում է լեզուների զարգացման միտումների արագ և համապարփակ ուսումնասիրությանը, նորաբանությունների և խոսքի կայուն շրջադարձերի ձևավորմանը, բառային միավորների իմաստների փոփոխությանը և այլն:

Քանի որ տվյալների նման մեծ ծավալի հետ աշխատելը պահանջում է ավտոմատացում, այսօր սերտ փոխազդեցություն կա համակարգչային և կորպուսային լեզվաբանության միջև:

Ռուսաց լեզվի ազգային կորպուս

Այս կորպուսը (կրճատ՝ NKRC) ներառում է մի շարք ենթակորպուսներ, որոնք թույլ են տալիս օգտագործել ռեսուրսը խնդիրների լայն տեսականի լուծելու համար:

Նյութերը NCRA տվյալների բազայում բաժանված են՝

  • 90-ականների և 2000-ականների ԶԼՄ-ների հրապարակումների մասինտարիներ, ինչպես ներքին, այնպես էլ արտասահմանյան;
  • բանավոր խոսքի ձայնագրություններ;
  • ակցենտոլոգիապես նշված տեքստեր (այսինքն՝ շեշտադրման նշաններով);
  • բարբառային խոսք;
  • բանաստեղծական ստեղծագործություններ;
  • նյութեր շարահյուսական նշումով և այլն։

Տեղեկատվական համակարգը ներառում է նաև ենթամարմիններ՝ ռուսերենից անգլերեն, գերմաներեն, ֆրանսերեն և շատ այլ լեզուներով ստեղծագործությունների զուգահեռ թարգմանություններով (և հակառակը):

Նաև տվյալների բազան ունի պատմական տեքստերի բաժին, որը ներկայացնում է ռուսերեն գրավոր խոսքը իր զարգացման տարբեր ժամանակաշրջաններում: Կա նաև ուսումնական կորպուս, որը կարող է օգտակար լինել օտարերկրյա քաղաքացիների համար ռուսաց լեզվին տիրապետելու հարցում։

Ռուսաց լեզվի ազգային կորպուսը ներառում է 400 միլիոն բառային միավոր և շատ առումներով առաջ է անցնում եվրոպական լեզուների կորպուսի զգալի մասից:

Հեռանկարներ

Այս ոլորտը խոստումնալից ճանաչելու օգտին փաստ է ռուսական, ինչպես նաև արտասահմանյան բուհերում կորպուսային լեզվաբանական լաբորատորիաների առկայությունը։ Դիտարկված տեղեկատվության որոնման ռեսուրսների կիրառման և հետազոտության հետ կապված է բարձր տեխնոլոգիաների, հարցուպատասխան համակարգերի որոշ ոլորտների զարգացումը, սակայն դա խոսվեց վերևում։

կորպուսի լեզվաբանության պատմություն
կորպուսի լեզվաբանության պատմություն

Կորպուսի լեզվաբանության հետագա զարգացումը կանխատեսվում է բոլոր մակարդակներում՝ տեխնիկականից, նոր ալգորիթմների ներդրման առումով, որոնք օպտիմալացնում են տեղեկատվության որոնման և մշակման գործընթացները, ընդլայնում են համակարգիչների հնարավորությունները, մեծացնում գործառնականությունը։հիշողությունը և վերջացրած կենցաղայիններով, քանի որ օգտվողներն ավելի ու ավելի շատ եղանակներ են գտնում օգտագործելու այս տեսակի ռեսուրսները առօրյա կյանքում և աշխատանքում:

Եզրակացություն

Անցյալ դարի կեսերին 2017 թվականը թվում էր հեռավոր ապագա, որտեղ տիեզերանավերը ճամփորդում են Տիեզերքի տարածություններում, իսկ ռոբոտներն անում են ամբողջ աշխատանքը մարդկանց համար: Իրականում, սակայն, գիտությունը լի է «դատարկ կետերով» և հուսահատ փորձեր է անում պատասխանելու այն հարցերին, որոնք դարեր շարունակ անհանգստացրել են մարդկությանը։ Լեզվի գործառության հարցերը հպարտանում են այստեղ, և կորպուսը և հաշվողական լեզվաբանությունը կարող են օգնել մեզ պատասխանել դրանց:

Մեծ քանակությամբ տվյալների մշակումը թույլ է տալիս հայտնաբերել նախշեր, որոնք նախկինում անհասանելի էին, կանխատեսել որոշակի լեզվական առանձնահատկությունների զարգացումը, հետևել բառերի ձևավորմանը գրեթե իրական ժամանակում:

Գլոբալ գործնական մակարդակում կորպորացիաները կարելի է համարել, օրինակ, որպես հանրային տրամադրությունների գնահատման պոտենցիալ գործիք. համացանցը իրական օգտատերերի կողմից ստեղծված տարբեր տեքստերի անընդհատ թարմացվող տվյալների բազա է., և շատ այլ խոսքի ձևեր.

Բացի այդ, կորպորացիաների հետ աշխատանքը նպաստում է նույն տեխնիկական միջոցների զարգացմանը, որոնք ներգրավված են տեղեկատվության որոնման մեջ, որոնք մեզ ծանոթ են Google-ի կամ Yandex-ի ծառայություններից, մեքենայական թարգմանությունից, էլեկտրոնային բառարաններից:

Կարելի է վստահորեն ասել, որ կորպուսային լեզվաբանությունը միայն իր առաջին քայլերն է անում և մոտ ապագայում արագ կզարգանա:

Խորհուրդ ենք տալիս: