Կլաստերի մեթոդ. նկարագրություն, հիմնական հասկացություններ, կիրառման առանձնահատկություններ

Բովանդակություն:

Կլաստերի մեթոդ. նկարագրություն, հիմնական հասկացություններ, կիրառման առանձնահատկություններ
Կլաստերի մեթոդ. նկարագրություն, հիմնական հասկացություններ, կիրառման առանձնահատկություններ
Anonim

Կլաստերավորման մեթոդը մի խումբ օբյեկտների խմբավորման խնդիրն է այնպես, որ նրանք նույն խմբում ավելի նման լինեն միմյանց, քան այլ ոլորտների օբյեկտներին: Դա տվյալների արդյունահանման հիմնական խնդիրն է և ընդհանուր վիճակագրական վերլուծության տեխնիկան, որն օգտագործվում է բազմաթիվ ոլորտներում, ներառյալ մեքենայական ուսուցումը, օրինաչափությունների ճանաչումը, պատկերների ճանաչումը, տեղեկատվության որոնումը, տվյալների սեղմումը և համակարգչային գրաֆիկան:

Օպտիմալացման խնդիր

օգտագործելով կլաստերի մեթոդը
օգտագործելով կլաստերի մեթոդը

Կլաստերավորման մեթոդն ինքնին մեկ կոնկրետ ալգորիթմ չէ, այլ ընդհանուր խնդիր, որը պետք է լուծվի: Դրան կարելի է հասնել տարբեր ալգորիթմների միջոցով, որոնք էապես տարբերվում են՝ հասկանալով, թե ինչ է կազմում խումբը և ինչպես գտնել այն արդյունավետ: Կլաստերավորման մեթոդի օգտագործումը մետաառարկաների ձևավորման համար ներառում է խմբի օգտագործումըանդամների միջև փոքր հեռավորություններ, տարածության խիտ շրջաններ, միջակայքներ կամ որոշակի վիճակագրական բաշխումներ: Հետևաբար, կլաստերավորումը կարող է ձևակերպվել որպես բազմաբնույթ օպտիմալացման խնդիր:

Համապատասխան մեթոդի և պարամետրի կարգավորումները (ներառյալ տարրերը, ինչպիսիք են օգտագործելու հեռավորության ֆունկցիան, խտության շեմը կամ սպասվող կլաստերների քանակը) կախված են անհատական տվյալների հավաքածուից և արդյունքների նախատեսված կիրառությունից: Վերլուծությունը որպես այդպիսին ավտոմատ առաջադրանք չէ, այլ գիտելիքների հայտնաբերման կամ ինտերակտիվ բազմաբնույթ օպտիմալացման կրկնվող գործընթաց: Կլաստերավորման այս մեթոդը ներառում է փորձարկման և սխալի փորձեր: Հաճախ անհրաժեշտ է փոփոխել տվյալների նախնական մշակումը և մոդելի պարամետրերը, մինչև արդյունքը հասնի ցանկալի հատկություններին:

Բացի «կլաստերավորում» տերմինից, կան մի շարք նմանատիպ նշանակություն ունեցող բառեր, այդ թվում՝ ավտոմատ դասակարգում, թվային տաքսոնոմիա, բորիոլոգիա և տիպաբանական վերլուծություն։ Նուրբ տարբերությունները հաճախ կայանում են խմբավորման մեթոդի օգտագործման մեջ՝ մետաառարկայական հարաբերություններ ձևավորելու համար: Թեև տվյալների արդյունահանման ժամանակ ստացված խմբերը հետաքրքրություն են ներկայացնում, ավտոմատ դասակարգման մեջ արդեն խտրական ուժն է, որը կատարում է այդ գործառույթները:

Կլաստերային վերլուծությունը հիմնված է 1932 թվականին Քրոբերի բազմաթիվ աշխատանքների վրա: Այն մտցվել է հոգեբանության մեջ 1938 թվականին Զուբինի և 1939 թվականին Ռոբերտ Թրիոնի կողմից։ Եվ այս աշխատանքները Քեթելն օգտագործել է 1943 թվականից ի վեր՝ տեսականորեն կլաստերիզացման մեթոդների դասակարգումը ցույց տալու համար:

Ժամկետ

օգտագործումըմեթոդ
օգտագործումըմեթոդ

«Կլաստեր» հասկացությունը չի կարող ճշգրիտ սահմանվել: Սա է պատճառներից մեկը, թե ինչու են այդքան շատ կլաստերի մեթոդները: Կա ընդհանուր հայտարար՝ տվյալների օբյեկտների խումբ: Այնուամենայնիվ, տարբեր հետազոտողներ օգտագործում են տարբեր մոդելներ: Եվ կլաստերավորման մեթոդներից յուրաքանչյուրը ներառում է տարբեր տվյալներ: Տարբեր ալգորիթմների կողմից հայտնաբերված հասկացությունը զգալիորեն տարբերվում է իր հատկություններով:

Կլաստերավորման մեթոդի օգտագործումը հրահանգների միջև տարբերությունները հասկանալու բանալին է: Տիպիկ կլաստերային օրինաչափությունները ներառում են՝

  • Centroid s. Սա, օրինակ, երբ k-means կլաստերավորումը ներկայացնում է յուրաքանչյուր կլաստեր մեկ միջին վեկտորով:
  • Միացման մոդել s. Սա, օրինակ, հիերարխիկ կլաստերավորումն է, որը մոդելներ է կառուցում՝ հիմնված հեռավորության վրա կապակցվելու վրա:
  • Բաշխման մոդել s. Այս դեպքում կլաստերները մոդելավորվում են՝ օգտագործելով կլաստերավորման մեթոդը՝ մետաառարկայական վիճակագրական բաշխումներ ձևավորելու համար: Օրինակ՝ բազմաչափ նորմալ տարանջատումը, որը կիրառելի է ակնկալիքների մաքսիմալացման ալգորիթմի համար:
  • Խտության մոդել s. Սրանք են, օրինակ, DBSCAN (Տարածական կլաստերավորման ալգորիթմ աղմուկով) և OPTICS (Կառուցվածքի հայտնաբերման կարգի կետեր), որոնք կլաստերները սահմանում են որպես տվյալների տարածության միացված խիտ շրջաններ:
  • Ենթատարածության մոդել գ. Երկկլաստերի (նաև հայտնի է որպես համակլաստերավորում կամ երկու եղանակ) խմբերը մոդելավորվում են երկու տարրերով և համապատասխան հատկանիշներով:
  • Մոդել s. Որոշ ալգորիթմներ չեն անումկատարելագործված հարաբերություններ իրենց կլաստերավորման մեթոդի համար՝ մետա-առարկայական արդյունքներ ստեղծելու և պարզապես տեղեկատվության խմբավորում ապահովելու համար:
  • Մոդել՝ հիմնված գրաֆիկի վրա: Կլիք, այսինքն՝ հանգույցների ենթաբազմություն, այնպիսին, որ եզրային մասի յուրաքանչյուր երկու միացում կարելի է համարել որպես կլաստերի ձևի նախատիպ։ Ընդհանուր պահանջարկի թուլացումը հայտնի է որպես քվազի-կլիկաներ։ Հենց նույն անունը ներկայացված է HCS կլաստերավորման ալգորիթմում։
  • Նյարդային մոդելներ s. Ամենահայտնի չվերահսկվող ցանցը ինքնակազմակերպվող քարտեզն է: Եվ հենց այս մոդելներն են, որոնք սովորաբար կարող են բնութագրվել որպես մետա-առարկայական արդյունքների ձևավորման վերը նշված կլաստերավորման մեթոդներից մեկի կամ մի քանիսի նման: Այն ներառում է ենթատարածական համակարգեր, երբ նեյրոնային ցանցերն իրականացնում են հիմնական կամ անկախ բաղադրիչի վերլուծության անհրաժեշտ ձևը:

Այս տերմինը, ըստ էության, նման խմբերի մի շարք է, որոնք սովորաբար պարունակում են տվյալների կլաստերավորման մեթոդների հավաքածուի բոլոր օբյեկտները։ Բացի այդ, այն կարող է ցույց տալ կլաստերների փոխհարաբերությունները միմյանց հետ, ինչպիսիք են միմյանց մեջ ներկառուցված համակարգերի հիերարխիան: Խմբավորումը կարելի է բաժանել հետևյալ ասպեկտների՝

  • Կոշտ կենտրոնաձև կլաստերիզման մեթոդ: Այստեղ յուրաքանչյուր օբյեկտ պատկանում է մի խմբի կամ գտնվում է դրանից դուրս:
  • Փափուկ կամ մշուշոտ համակարգ: Այս պահին յուրաքանչյուր օբյեկտ արդեն որոշակի չափով պատկանում է ցանկացած կլաստերի: Այն նաև կոչվում է c-means fuzzy clustering մեթոդ:

Եվ հնարավոր են նաև ավելի նուրբ տարբերություններ: Օրինակ՝

  • Խիստ բաժանման կլաստերավորում: Այստեղյուրաքանչյուր օբյեկտ պատկանում է ճիշտ մեկ խմբի։
  • Խիստ միջնորմային կլաստերավորում՝ ծայրամասերով: Այս դեպքում օբյեկտները նույնպես կարող են չպատկանել որևէ կլաստերի և համարվել ոչ անհրաժեշտ։
  • Ընդհանուր կլաստերավորում (նաև այլընտրանքային՝ բազմաթիվ դիտումներով): Այստեղ օբյեկտները կարող են պատկանել մեկից ավելի ճյուղերի: Սովորաբար ներառում են ամուր կլաստերներ։
  • Հիերարխիկ կլաստերավորման մեթոդներ. Երեխաների խմբին պատկանող օբյեկտները նույնպես պատկանում են մայր ենթահամակարգին:
  • Ենթատարածության ձևավորում. Թեև նման են համընկնող կլաստերներին, եզակիորեն սահմանված համակարգում, փոխադարձ խմբերը չպետք է համընկնեն:

հրահանգներ

օգտագործելով կլաստերի մեթոդը ձևավորելու համար
օգտագործելով կլաստերի մեթոդը ձևավորելու համար

Ինչպես նշվեց վերևում, կլաստերավորման ալգորիթմները կարելի է դասակարգել՝ ելնելով իրենց կլաստերային մոդելից: Հետևյալ ակնարկը ցույց կտա այս հրահանգների միայն ամենաակնառու օրինակները: Քանի որ կարող են լինել ավելի քան 100 հրապարակված ալգորիթմներ, ոչ բոլորն են մոդելներ տրամադրում իրենց կլաստերների համար և, հետևաբար, չեն կարող հեշտությամբ դասակարգվել:

Չկա օբյեկտիվորեն ճիշտ կլաստերավորման ալգորիթմ: Բայց, ինչպես նշվեց վերևում, հրահանգը միշտ դիտորդի տեսադաշտում է: Կլաստերավորման ամենահարմար ալգորիթմը որոշակի խնդրի համար հաճախ պետք է ընտրվի փորձարարական եղանակով, եթե չկա մաթեմատիկական պատճառ՝ մեկ մոդելը մյուսից նախընտրելու համար: Պետք է նշել, որ մեկ տեսակի համար նախատեսված ալգորիթմը սովորաբար չի աշխատումտվյալների բազա, որը պարունակում է արմատապես տարբեր թեմա: Օրինակ, k-միջինը չի կարող գտնել ոչ ուռուցիկ խմբեր:

Կապի վրա հիմնված կլաստերավորում

խմբավորման մեթոդ
խմբավորման մեթոդ

Այս միությունը հայտնի է նաև իր անունով՝ հիերարխիկ մոդել։ Այն հիմնված է բնորոշ գաղափարի վրա, որ առարկաները ավելի շատ կապված են հարևան մասերի հետ, քան նրանց, որոնք շատ ավելի հեռու են: Այս ալգորիթմները կապում են առարկաները՝ կազմելով տարբեր կլաստերներ՝ կախված դրանց հեռավորությունից։ Խումբը կարելի է նկարագրել հիմնականում առավելագույն հեռավորությամբ, որն անհրաժեշտ է կլաստերի տարբեր մասերը միացնելու համար: Բոլոր հնարավոր հեռավորությունների վրա կձևավորվեն այլ խմբեր, որոնք կարելի է ներկայացնել դենդրոգրամի միջոցով։ Սա բացատրում է, թե որտեղից է առաջացել «հիերարխիկ կլաստերավորում» ընդհանուր անվանումը: Այսինքն, այս ալգորիթմները չեն ապահովում տվյալների շտեմարանի մեկ բաժանումը, փոխարենը տալիս են լիազորությունների լայն կարգ: Նրա շնորհիվ է, որ որոշակի հեռավորությունների վրա միմյանց հետ արտահոսք է լինում։ Դենդրոգրամում y առանցքը նշանակում է այն հեռավորությունը, որով կլաստերները միանում են: Իսկ առարկաները դասավորված են X գծի երկայնքով այնպես, որ խմբերը չխառնվեն։

Կապի վրա հիմնված կլաստերավորումը մեթոդների մի ամբողջ ընտանիք է, որոնք տարբերվում են հեռավորությունները հաշվարկելու ձևով: Բացի հեռավորության գործառույթների սովորական ընտրությունից, օգտագործողը պետք է որոշի նաև կապի չափանիշը: Քանի որ կլաստերը բաղկացած է մի քանի օբյեկտներից, կան բազմաթիվ տարբերակներ այն հաշվարկելու համար: Հանրաճանաչ ընտրությունը հայտնի է որպես մեկ լծակով խմբավորում, սա է մեթոդըամբողջական հղում, որը պարունակում է UPGMA կամ WPGMA (թվաբանական միջին ունեցող զույգերի չկշռված կամ կշռված համույթ, որը նաև հայտնի է որպես միջին հղումների կլաստերավորում)։ Բացի այդ, հիերարխիկ համակարգը կարող է լինել ագլոմերատիվ (սկսած առանձին տարրերից և միավորելով դրանք խմբերի) կամ բաժանող (սկսած տվյալների ամբողջական հավաքածուից և բաժանելով այն հատվածների):

Բաշխված կլաստերավորում

Կլաստերի ձևավորման մեթոդ
Կլաստերի ձևավորման մեթոդ

Այս մոդելներն առավել սերտորեն կապված են վիճակագրության հետ, որը հիմնված է բաժանումների վրա: Կլաստերները հեշտությամբ կարող են սահմանվել որպես օբյեկտներ, որոնք, ամենայն հավանականությամբ, պատկանում են նույն բաշխմանը: Այս մոտեցման հարմար առանձնահատկությունն այն է, որ այն շատ նման է արհեստական տվյալների շտեմարանների ստեղծման եղանակին: Բաշխումից պատահական օբյեկտներ ընտրելու միջոցով:

Չնայած այս մեթոդների տեսական հիմքը գերազանց է, նրանք տառապում են մեկ հիմնական խնդրից, որը հայտնի է որպես գերհարմարեցում, եթե մոդելի բարդության սահմանափակումներ չկիրառվեն: Ավելի մեծ ասոցիացիան սովորաբար ավելի լավ կբացատրի տվյալները՝ դժվարացնելով ճիշտ մեթոդի ընտրությունը:

Գաուսական խառնուրդի մոդել

Այս մեթոդը օգտագործում է բոլոր տեսակի ակնկալիքների մաքսիմիզացման ալգորիթմներ: Այստեղ տվյալների բազան սովորաբար մոդելավորվում է Գաուսի բաշխումների ֆիքսված (գերակայողներից խուսափելու համար) թվով, որոնք սկզբնավորվում են պատահականորեն և որոնց պարամետրերը կրկնվող կերպով օպտիմիզացված են տվյալների հավաքածուին ավելի լավ տեղավորելու համար: Այս համակարգը կմիանա տեղական օպտիմալին: Այդ իսկ պատճառով մի քանի վազք կարող է տալտարբեր արդյունքներ: Առավել խիտ կլաստերավորում ստանալու համար հատկանիշները հաճախ վերագրվում են Գաուսի բաշխմանը, որին, ամենայն հավանականությամբ, պատկանում են: Իսկ ավելի մեղմ խմբերի համար դա անհրաժեշտ չէ։

Բաշխման վրա հիմնված կլաստերավորումը ստեղծում է բարդ մոդելներ, որոնք, ի վերջո, կարող են ֆիքսել ատրիբուտների միջև հարաբերակցությունը և կախվածությունը: Այնուամենայնիվ, այս ալգորիթմները լրացուցիչ բեռ են դնում օգտագործողի վրա: Իրական աշխարհի բազմաթիվ տվյալների հավաքածուների համար չի կարող լինել հակիրճ սահմանված մաթեմատիկական մոդել (օրինակ, ենթադրելով, որ Գաուսի բաշխումը բավականին ուժեղ ենթադրություն է):

խտության վրա հիմնված կլաստերավորում

clustering to form
clustering to form

Այս օրինակում խմբերը հիմնականում սահմանվում են որպես ավելի մեծ անթափանցելիությամբ տարածքներ, քան մնացած տվյալների հավաքածուն: Այս հազվագյուտ մասերի առարկաները, որոնք անհրաժեշտ են բոլոր բաղադրիչները բաժանելու համար, սովորաբար համարվում են աղմուկ և եզրային կետեր:

Խտության վրա հիմնված կլաստերավորման ամենատարածված մեթոդը DBSCAN-ն է (Spatial Noise Clustering Algorithm): Ի տարբերություն շատ ավելի նոր մեթոդների, այն ունի հստակ սահմանված կլաստերային բաղադրիչ, որը կոչվում է «խտության հասանելիություն»: Հղումների վրա հիմնված կլաստերավորման նման, այն հիմնված է միացման կետերի վրա՝ որոշակի հեռավորության շեմերի սահմաններում: Այնուամենայնիվ, այս մեթոդը հավաքում է միայն այն տարրերը, որոնք բավարարում են խտության չափանիշը: Սկզբնական տարբերակում, որը սահմանվում է որպես այս շառավղով այլ օբյեկտների նվազագույն քանակ, կլաստերը բաղկացած է բոլորից.խտության հետ կապված տարրեր (որոնք կարող են ձևավորել ազատ ձևի խումբ, ի տարբերություն շատ այլ մեթոդների), և բոլոր օբյեկտները, որոնք գտնվում են թույլատրելի տիրույթում։

DBSCAN-ի մեկ այլ հետաքրքիր հատկություն այն է, որ դրա բարդությունը բավականին ցածր է. այն պահանջում է տվյալների բազայի նկատմամբ տիրույթի հարցումների գծային քանակություն: Եվ նաև անսովոր է, որ այն կգտնի ըստ էության նույն արդյունքները (սա որոշիչ է միջուկի և աղմուկի կետերի համար, բայց ոչ սահմանային տարրերի համար) յուրաքանչյուր վազքի ընթացքում: Հետևաբար, կարիք չկա այն մի քանի անգամ գործարկել:

DBSCAN-ի և OPTICS-ի հիմնական թերությունն այն է, որ նրանք ակնկալում են խտության որոշակի անկում՝ կլաստերների սահմանները հայտնաբերելու համար: Օրինակ, համընկնող Գաուսի բաշխումներով տվյալների հավաքածուներում, որը սովորական օգտագործման դեպք է արհեստական օբյեկտների համար, այս ալգորիթմների կողմից ստեղծվող կլաստերի սահմանները հաճախ կամայական են թվում: Դա տեղի է ունենում այն պատճառով, որ խմբերի խտությունը շարունակաբար նվազում է: Եվ Գաուսի խառնուրդի տվյալների բազայում այս ալգորիթմները գրեթե միշտ գերազանցում են այնպիսի մեթոդներին, ինչպիսին է EM կլաստերավորումը, որն ի վիճակի է ճշգրիտ մոդելավորել այս տեսակի համակարգերը:

Միջին տեղաշարժը կլաստերային մոտեցում է, որտեղ յուրաքանչյուր օբյեկտ տեղափոխվում է հարևանության ամենախիտ տարածք՝ հիմնվելով ամբողջ միջուկի գնահատման վրա: Ի վերջո, օբյեկտները համընկնում են տեղական անթափանցելիության առավելագույնին: Ինչպես k-means-ի կլաստերավորումը, այս «խտության գրավիչները» կարող են ծառայել որպես տվյալների բազայի ներկայացուցիչներ: Բայց միջին տեղաշարժըկարող է հայտնաբերել կամայական ձևավորված կլաստերներ, որոնք նման են DBSCAN-ին: Թանկարժեք կրկնվող ընթացակարգի և խտության գնահատման շնորհիվ միջին տեղաշարժը սովորաբար ավելի դանդաղ է, քան DBSCAN-ը կամ k-Means-ը: Բացի այդ, տիպիկ հերթափոխի ալգորիթմի կիրառելիությունը մեծ չափերի տվյալների վրա դժվար է միջուկի խտության գնահատման ոչ միատեսակ վարքագծի պատճառով, ինչը հանգեցնում է կլաստերի պոչերի չափից ավելի մասնատմանը:

Վարկանիշ

խմբավորման մեթոդ՝ մետաառարկայի ձևավորման համար
խմբավորման մեթոդ՝ մետաառարկայի ձևավորման համար

Կլաստերավորման արդյունքների ստուգումը նույնքան դժվար է, որքան ինքնին կլաստերավորումը: Հանրաճանաչ մոտեցումները ներառում են «ներքին» գնահատումը (որտեղ համակարգը կրճատվում է մինչև որակի մեկ չափանիշ) և, իհարկե, «արտաքին» գնահատումը (որտեղ կլաստերավորումը համեմատվում է գոյություն ունեցող «հիմնական ճշմարտության» դասակարգման հետ): Եվ մարդկային փորձագետի ձեռնարկի գնահատականը և անուղղակի միավորները գտնվել են՝ ուսումնասիրելով նախատեսված ծրագրում կլաստերավորման օգտակարությունը:

Ներքին դրոշի չափումները տառապում են այն խնդրից, որ դրանք ներկայացնում են այնպիսի հատկանիշներ, որոնք իրենք կարող են համարվել կլաստերավորման թիրախներ: Օրինակ, հնարավոր է խմբավորել «Silhouette» գործակիցով տրված տվյալները, բացառությամբ, որ դրա համար հայտնի արդյունավետ ալգորիթմ չկա: Օգտագործելով նման ներքին չափումը գնահատման համար, ավելի լավ է համեմատել օպտիմալացման խնդիրների նմանությունը:

Դրսի նշանն ունի նմանատիպ խնդիրներ: Եթե կան «հիմնական ճշմարտության» նման պիտակներ, ապա կլաստերի կարիք չկա։ Իսկ գործնական կիրառություններում սովորաբար նման հասկացություններ չկան։ Մյուս կողմից, պիտակները արտացոլում են տվյալների հավաքածուի միայն մեկ հնարավոր բաժանումը, ինչը չի նշանակումոր չկա այլ (գուցե նույնիսկ ավելի լավ) կլաստերավորում։

Այսպիսով, այս մոտեցումներից և ոչ մեկը չի կարող վերջնականապես դատել իրական որակի մասին: Բայց սա պահանջում է մարդկային գնահատական, որը խիստ սուբյեկտիվ է: Այնուամենայնիվ, նման վիճակագրությունը կարող է տեղեկատվական լինել վատ կլաստերների բացահայտման համար: Բայց պետք չէ զեղչել մարդու սուբյեկտիվ գնահատականը։

Ներքին նշան

Երբ կլաստերավորման արդյունքը գնահատվում է տվյալների հիման վրա, որն ինքնին հավաքվել է, դա կոչվում է այս տերմին: Այս մեթոդները, ընդհանուր առմամբ, լավագույն արդյունքը տալիս են ալգորիթմին, որը ստեղծում է խմբերի ներսում և ցածր նմանությամբ խմբերի միջև: Կլաստերների գնահատման մեջ ներքին չափանիշների օգտագործման թերություններից մեկն այն է, որ բարձր միավորները պարտադիր չէ, որ հանգեցնեն տեղեկատվության որոնման արդյունավետ կիրառման: Բացի այդ, այս միավորը կողմնակալ է ալգորիթմների նկատմամբ, որոնք օգտագործում են նույն մոդելը: Օրինակ, k-means-ի կլաստերավորումը բնականաբար օպտիմիզացնում է հատկանիշի հեռավորությունները, և դրա վրա հիմնված ներքին չափանիշը, ամենայն հավանականությամբ, կգերագնահատի ստացված խմբավորումը:

Հետևաբար, այս գնահատման միջոցները լավագույնս համապատասխանում են իրավիճակների մասին պատկերացում կազմելու համար, որտեղ մի ալգորիթմն ավելի լավ է գործում, քան մյուսը: Բայց դա չի նշանակում, որ յուրաքանչյուր տեղեկություն տալիս է ավելի հուսալի արդյունքներ, քան մյուսները։ Նման ինդեքսով չափվող վավերականության ժամկետը կախված է տվյալների բազայում կառուցվածքի առկայության պնդումից: Որոշ տեսակների համար մշակված ալգորիթմը հնարավորություն չունի, եթե հավաքածուն արմատապես պարունակում էտարբեր կազմ, կամ եթե գնահատումը չափում է տարբեր չափանիշներ: Օրինակ, k-means կլաստերավորումը կարող է գտնել միայն ուռուցիկ կլաստերներ, և շատ միավորների ինդեքսներ ընդունում են նույն ձևաչափը: Ոչ ուռուցիկ մոդելներով տվյալների բազայում անտեղի է օգտագործել k-միջոցները և գնահատման բնորոշ չափանիշները:

Արտաքին գնահատում

Այսպիսի բալինգի դեպքում խմբավորման արդյունքները գնահատվում են տվյալների հիման վրա, որոնք չեն օգտագործվել խմբավորման համար: Այսինքն, ինչպես հայտնի դասի պիտակները և արտաքին թեստերը: Նման հարցերը բաղկացած են մի շարք նախապես դասակարգված կետերից և հաճախ ստեղծվում են փորձագետների (մարդկանց) կողմից: Որպես այդպիսին, տեղեկատու փաթեթները կարող են դիտվել որպես գնահատման ոսկե ստանդարտ: Այս տեսակի գնահատման մեթոդները չափում են, թե որքան մոտ է կլաստերավորումը տրված տեղեկատու դասերին: Այնուամենայնիվ, վերջերս քննարկվել է, թե արդյոք դա համարժեք է իրական տվյալների համար, թե միայն սինթետիկ հավաքածուների համար իրական հիմքի ճշմարտացիությամբ: Քանի որ դասերը կարող են պարունակել ներքին կառուցվածք, և առկա ատրիբուտները կարող են թույլ չտալ կլաստերների տարանջատում: Բացի այդ, գիտելիքի հայտնաբերման տեսանկյունից, հայտնի փաստերի վերարտադրումը կարող է անպայմանորեն չբերել ակնկալվող արդյունքը: Հատուկ սահմանափակված կլաստերավորման սցենարում, որտեղ մետա-տեղեկատվությունը (օրինակ՝ դասի պիտակները) արդեն օգտագործվում է խմբավորման գործընթացում, աննշան չէ ամբողջ տեղեկատվությունը պահպանել գնահատման նպատակով:

Այժմ պարզ է, թե ինչը չի վերաբերում կլաստերավորման մեթոդներին, և ինչ մոդելներ են օգտագործվում այդ նպատակների համար:

Խորհուրդ ենք տալիս: