Վարկածների թեստավորումը վիճակագրության մեջ անհրաժեշտ ընթացակարգ է: Հիպոթեզի թեստը գնահատում է երկու իրարամերժ հայտարարություններ՝ որոշելու համար, թե որ հայտարարությունն է լավագույնս ապահովվում ընտրանքի տվյալների միջոցով: Երբ ասվում է, որ բացահայտումը վիճակագրորեն նշանակալի է, դա պայմանավորված է հիպոթեզի թեստով:
Հաստատման մեթոդներ
Վիճակագրական վարկածների փորձարկման մեթոդները վիճակագրական վերլուծության մեթոդներ են: Սովորաբար, վիճակագրության երկու խումբ համեմատվում է, կամ ընտրված տվյալների հավաքածուն համեմատվում է իդեալականացված մոդելի սինթետիկ տվյալների հետ: Տվյալները պետք է մեկնաբանվեն այնպես, որ ավելացնեն նոր իմաստներ: Դուք կարող եք դրանք մեկնաբանել՝ ենթադրելով վերջնական արդյունքի որոշակի կառուցվածք և օգտագործելով վիճակագրական մեթոդներ՝ հաստատելու կամ մերժելու ենթադրությունը: Ենթադրությունը կոչվում է հիպոթեզ, իսկ այդ նպատակով օգտագործվող վիճակագրական թեստերը կոչվում են վիճակագրական հիպոթեզներ։
H0 և H1 վարկածներ
Կա երկու հիմնականհիպոթեզների վիճակագրական փորձարկման հասկացությունները՝ այսպես կոչված «հիմնական, կամ զրոյական հիպոթեզ» և «այլընտրանքային վարկած»։ Դրանք նաև կոչվում են Նեյման-Պիրսոնի վարկածներ։ Վիճակագրական թեստի ենթադրությունը կոչվում է զրոյական վարկած, հիմնական վարկած կամ կարճ՝ H0։ Այն հաճախ կոչվում է որպես լռելյայն ենթադրություն կամ ենթադրություն, որ ոչինչ չի փոխվել: Փորձարկման ենթադրության խախտումը հաճախ կոչվում է առաջին վարկած, այլընտրանքային վարկած կամ H1: H1-ը որոշ այլ վարկածի սղագրություն է, քանի որ այն ամենը, ինչ մենք գիտենք դրա մասին, այն է, որ H0-ի տվյալները կարող են անտեսվել:
Նախքան զրոյական վարկածը մերժելը կամ չմերժելը, թեստի արդյունքը պետք է մեկնաբանվի: Համեմատությունը համարվում է վիճակագրորեն նշանակալի, եթե տվյալների հավաքածուների միջև կապը դժվար թե լինի զրոյական վարկածի իրականացումը՝ ըստ շեմային հավանականության՝ նշանակալիության մակարդակի: Գոյություն ունեն նաև վիճակագրական հիպոթեզների փորձարկման լավության չափանիշներ: այսպես է կոչվում հիպոթեզի փորձարկման չափանիշը, որը կապված է անհայտ բաշխման ենթադրյալ օրենքի հետ։ Սա էմպիրիկ և տեսական բաշխումների միջև անհամապատասխանության թվային չափումն է:
Վիճակագրական վարկածների փորձարկման կարգ և չափանիշներ
Հիպոթեզի ընտրության ամենատարածված մեթոդները հիմնված են կամ Akaike տեղեկատվական չափանիշի կամ Բայեսյան գործակցի վրա: Վիճակագրական հիպոթեզների փորձարկումը և՛ եզրակացության, և՛ Բայեսյան եզրակացության հիմնական տեխնիկան է, թեև երկու տեսակներն ունեն նկատելի տարբերություններ: Վիճակագրական վարկածների թեստերսահմանել ընթացակարգ, որը վերահսկում է սխալ դեֆոլտի կամ զրոյական վարկածի վերաբերյալ սխալ որոշում կայացնելու հավանականությունը: Ընթացակարգը հիմնված է այն բանի վրա, թե որքան հավանական է, որ այն աշխատի: Սխալ որոշում կայացնելու այս հավանականությունը անհավանականությունն է, որ զրոյական վարկածը ճշմարիտ է, և որ որևէ հատուկ այլընտրանքային վարկած գոյություն չունի: Թեստը չի կարող ցույց տալ՝ ճիշտ է, թե սխալ:
Որոշումների տեսության այլընտրանքային մեթոդներ
Գոյություն ունեն որոշման տեսության այլընտրանքային մեթոդներ, որոնցում զրոյական և առաջին վարկածները դիտարկվում են ավելի հավասար հիմունքներով: Որոշումների կայացման այլ մոտեցումներ, ինչպիսին է Բայեսյան տեսությունը, փորձում են հավասարակշռել վատ որոշումների հետևանքները բոլոր հնարավորություններով, այլ ոչ թե կենտրոնանալ մեկ զրոյական վարկածի վրա: Վարկածներից որն է ճիշտ որոշելու մի շարք այլ մոտեցումներ, որոնք հիմնված են տվյալների վրա, թե դրանցից որն է ցանկալի հատկությունները: Բայց հիպոթեզների փորձարկումը տվյալների վերլուծության գերիշխող մոտեցումն է գիտության շատ ոլորտներում:
Վիճակագրական վարկածի փորձարկում
Երբ արդյունքների մի շարք տարբերվում է մյուս հավաքածուից, պետք է հիմնվել վիճակագրական հիպոթեզների կամ վիճակագրական վարկածների թեստերի վրա: Դրանց մեկնաբանությունը պահանջում է p-արժեքների և կրիտիկական արժեքների պատշաճ ըմբռնում: Կարևոր է նաև հասկանալ, որ, անկախ նշանակության մակարդակից, թեստերը դեռ կարող են սխալներ պարունակել: Հետևաբար, եզրակացությունը կարող է ճիշտ չլինել։
Թեստավորման գործընթացը բաղկացած էմի քանի քայլ՝
- Նախնական վարկած է ստեղծվում հետազոտության համար:
- Նշված են համապատասխան զրոյական և այլընտրանքային վարկածներ։
- Բացատրում է թեստի նմուշի վերաբերյալ վիճակագրական ենթադրությունները:
- Որոշել, թե որ թեստն է տեղին:
- Ընտրեք նշանակության մակարդակը և հավանականության շեմը, որից ցածր զրոյական վարկածը կմերժվի:
- Զրոյական հիպոթեզի թեստի վիճակագրության բաշխումը ցույց է տալիս այն հնարավոր արժեքները, որոնց դեպքում զրոյական վարկածը մերժվում է:
- Հաշվարկն ընթացքի մեջ է։
- Որոշում է կայացվում մերժել կամ ընդունել զրոյական վարկածը հօգուտ այլընտրանքի:
Կա այլընտրանք, որն օգտագործում է p-արժեք:
Նշանակության թեստեր
Մաքուր տվյալներն առանց մեկնաբանության գործնական կիրառություն չունեն: Վիճակագրության մեջ, երբ խոսքը վերաբերում է տվյալների վերաբերյալ հարցեր տալուն և արդյունքների մեկնաբանմանը, վիճակագրական մեթոդներն օգտագործվում են՝ ապահովելու պատասխանների ճշգրտությունը կամ հավանականությունը: Վիճակագրական վարկածները ստուգելիս մեթոդների այս դասը կոչվում է վիճակագրական թեստավորում կամ նշանակության թեստեր։ «Վարկած» տերմինը հիշեցնում է գիտական մեթոդները, որտեղ հետազոտվում են վարկածներ և տեսություններ։ Վիճակագրության մեջ հիպոթեզի թեստի արդյունքում ստացվում է տվյալ ենթադրություն տրված քանակով: Այն թույլ է տալիս մեկնաբանել՝ արդյոք ենթադրությունը ճշմարիտ է, թե խախտում է արվել:
Թեստերի վիճակագրական մեկնաբանություն
Վարկածների թեստերօգտագործվում են որոշելու համար, թե որ հետազոտության արդյունքները կհանգեցնեն զրոյական վարկածի մերժմանը կանխորոշված նշանակության մակարդակի համար: Վիճակագրական հիպոթեզի թեստի արդյունքները պետք է մեկնաբանվեն, որպեսզի աշխատանքը շարունակվի դրա վրա: Վիճակագրական հիպոթեզների փորձարկման չափանիշների երկու ընդհանուր ձև կա. Սրանք p-արժեք և կրիտիկական արժեքներ են: Կախված ընտրված չափանիշից՝ ստացված արդյունքները պետք է տարբեր կերպ մեկնաբանվեն։
Ինչ է p-արժեքը
Արդյունքը նկարագրվում է որպես վիճակագրորեն նշանակալի p-արժեքը մեկնաբանելիս: Փաստորեն, այս ցուցանիշը նշանակում է սխալի հավանականություն, եթե զրոյական վարկածը մերժվի: Այլ կերպ ասած, այն կարող է օգտագործվել արժեք անվանելու համար, որը կարող է օգտագործվել թեստի արդյունքը մեկնաբանելու կամ քանակականացնելու համար, և որոշելու համար սխալի հավանականությունը զրոյական վարկածը մերժելու համար: Օրինակ, դուք կարող եք նորմալության թեստ կատարել տվյալների նմուշի վրա և պարզել, որ ավելի քիչ հավանականություն կա: Այնուամենայնիվ, զրոյական վարկածը պետք չէ մերժել: Վիճակագրական վարկածի թեստը կարող է վերադարձնել p արժեք: Սա արվում է՝ համեմատելով p-ի արժեքը կանխորոշված շեմային արժեքի հետ, որը կոչվում է նշանակության մակարդակ:
Նշանակության մակարդակ
Նշանակության մակարդակը հաճախ գրվում է հունարեն փոքրատառ «ալֆա» տառով։ Ալֆայի համար օգտագործվող ընդհանուր արժեքը 5% է կամ 0,05: Ավելի փոքր ալֆա արժեքը ցույց է տալիս զրոյական վարկածի ավելի հուսալի մեկնաբանությունը: p-արժեքը համեմատվում էնախապես ընտրված ալֆա արժեքը: Արդյունքը վիճակագրորեն նշանակալի է, եթե p-արժեքը ալֆայից փոքր է: Նշանակության մակարդակը կարելի է շրջել՝ հանելով այն մեկից։ Սա արվում է դիտարկված ընտրանքի տվյալների հիման վրա վարկածի վստահության մակարդակը որոշելու համար: Վիճակագրական վարկածների փորձարկման այս մեթոդը կիրառելիս P-արժեքը հավանական է: Սա նշանակում է, որ վիճակագրական թեստի արդյունքը մեկնաբանելու գործընթացում մարդը չգիտի, թե որն է ճիշտ կամ սխալ:
Վիճակագրական հիպոթեզների փորձարկման տեսություն
Զրոյական վարկածի մերժումը նշանակում է, որ կա բավարար վիճակագրական ապացույց, որ այն հավանական է թվում: Հակառակ դեպքում դա նշանակում է, որ այն մերժելու համար բավարար վիճակագրություն չկա։ Կարելի է պատկերացնել վիճակագրական թեստեր՝ զրոյական վարկածը մերժելու և ընդունելու երկփեղկվածության տեսանկյունից։ Զրոյական վարկածի վիճակագրական փորձարկման վտանգը կայանում է նրանում, որ եթե ընդունվի, այն կարող է ճշմարիտ թվալ: Փոխարենը, ավելի ճիշտ կլինի ասել, որ զրոյական վարկածը չի մերժվում, քանի որ այն մերժելու համար բավարար վիճակագրական ապացույցներ չկան։
Այս պահը հաճախ շփոթեցնում է սկսնակ հավելյալներին: Նման դեպքում կարևոր է հիշեցնել ինքներդ ձեզ, որ արդյունքը հավանական է, և որ նույնիսկ զրոյական վարկածն ընդունելը դեռևս սխալվելու փոքր հնարավորություն ունի։
Ճիշտ կամ կեղծ զրոյական վարկած
P-ի արժեքի մեկնաբանումը չի նշանակում, որ զրո էվարկածը ճիշտ է, թե կեղծ: Սա նշանակում է, որ ընտրություն է կատարվել՝ մերժել կամ չմերժել զրոյական վարկածը վիճակագրական նշանակության որոշակի մակարդակի վրա՝ հիմնված էմպիրիկ տվյալների և ընտրված վիճակագրական թեստի վրա: Հետևաբար, p-արժեքը կարելի է համարել որպես վիճակագրական թեստերում ներառված կանխորոշված ենթադրության ներքո տրված տվյալների հավանականություն: P-արժեքը չափում է, թե որքան հավանական է տվյալների նմուշը դիտարկվելու, եթե զրոյական վարկածը ճիշտ է:
Կրիտիկական արժեքների մեկնաբանում
Որոշ թեստեր չեն վերադարձնում p. Փոխարենը, նրանք կարող են վերադարձնել կրիտիկական արժեքների ցանկը: Նման ուսումնասիրության արդյունքները մեկնաբանվում են նույն կերպ: Մեկ p-արժեքը կանխորոշված նշանակության մակարդակի հետ համեմատելու փոխարեն, թեստային վիճակագրությունը համեմատվում է կրիտիկական արժեքի հետ: Եթե պարզվում է, որ ավելի քիչ է, նշանակում է, որ հնարավոր չի եղել մերժել զրոյական վարկածը։ Եթե ավելի կամ հավասար է, ապա զրոյական վարկածը պետք է մերժվի: Վիճակագրական հիպոթեզի փորձարկման ալգորիթմի և դրա արդյունքի մեկնաբանման իմաստը նման է p արժեքին: Ընտրված նշանակության մակարդակը հավանական որոշում է՝ մերժելու կամ չմերժելու բազային թեստի ենթադրությունը՝ հաշվի առնելով տվյալները:
Սխալներ վիճակագրական թեստերում
Վիճակագրական հիպոթեզի թեստի մեկնաբանությունը հավանականական է: Վիճակագրական վարկածների փորձարկման խնդիրը ճշմարիտ կամ կեղծ հայտարարություն գտնելը չէ: Փորձարկման ապացույցները կարող են սխալ լինել: Օրինակ, եթե ալֆան 5% էր, դա նշանակում է, որ մեծ մասամբ 1-ը 20-իցզրոյական վարկածը սխալմամբ կմերժվի: Կամ դա չի լինի տվյալների ընտրանքի վիճակագրական աղմուկի պատճառով: Հաշվի առնելով այս կետը, փոքր p արժեքը, որի դեպքում պետք է մերժել զրոյական վարկածը, կարող է նշանակել, որ այն կեղծ է կամ սխալ է կատարվել: Այս տեսակի սխալի դեպքում արդյունքը կոչվում է կեղծ դրական: Իսկ նման սխալը վիճակագրական վարկածների փորձարկման ժամանակ առաջին տեսակի սխալ է։ Մյուս կողմից, եթե p-արժեքը բավականաչափ մեծ է, որպեսզի նշանակի զրոյական վարկածի մերժում, դա կարող է նշանակել, որ այն ճիշտ է: Կամ ճիշտ չէ, և ինչ-որ անհավանական իրադարձություն է տեղի ունեցել, որի պատճառով սխալ է տեղի ունեցել: Այս տեսակի սխալը կոչվում է կեղծ բացասական:
Սխալների հավանականություն
Վիճակագրական վարկածները ստուգելիս դեռևս կա այս տեսակի սխալներից որևէ մեկը կատարելու հնարավորություն: Կեղծ տվյալներ կամ կեղծ եզրակացություններ բավականին հավանական են: Իդեալում, պետք է ընտրվի նշանակության մակարդակ, որը նվազագույնի կհասցնի այս սխալներից մեկի հավանականությունը: Օրինակ, զրոյական վարկածների վիճակագրական փորձարկումը կարող է ունենալ շատ ցածր նշանակության մակարդակ: Թեև նշանակության մակարդակները, ինչպիսիք են 0,05 և 0,01, տարածված են գիտության շատ ոլորտներում, առավել հաճախ օգտագործվող նշանակության մակարդակը 310^-7 է կամ 0,0000003: Այն հաճախ կոչվում է «5-սիգմա»: Սա նշանակում է, որ եզրակացությունը պատահական է եղել՝ փորձերի 3,5 միլիոնից 1-ի հավանականությամբ: Վիճակագրական վարկածների փորձարկման օրինակները հաճախ նման սխալներ են պարունակում: Սա է նաև պատճառը, որ կարևոր է ունենալ անկախ արդյունքներ։հաստատում։
Վիճակագրական ստուգման օգտագործման օրինակներ
Գոյություն ունեն հիպոթեզների փորձարկման մի քանի ընդհանուր օրինակներ գործնականում: Ամենահայտնիներից մեկը հայտնի է որպես «Tea Tasting»: Բժիշկ Մյուրիել Բրիստոլը, կենսաչափության հիմնադիր Ռոբերտ Ֆիշերի գործընկերը, պնդում էր, որ կարողացել է հստակ ասել՝ այն նախ ավելացվել է մի բաժակ թեյի կամ կաթի մեջ: Ֆիշերն առաջարկեց նրան պատահականորեն տալ ութ բաժակ (յուրաքանչյուր սորտից չորսը): Թեստի վիճակագրությունը պարզ էր՝ հաշվել գավաթի ընտրության հաջողությունների թիվը: Կրիտիկական շրջանը միակ հաջողությունն էր 4-ից, հնարավոր է` հիմնված սովորական հավանականության չափանիշի վրա (< 5%; 1-ը 70-ից ≈ 1.4%): Ֆիշերը պնդում էր, որ այլընտրանքային վարկած չի պահանջվում: Տիկինը ճիշտ է նույնացրել յուրաքանչյուր գավաթը, որը համարվել է վիճակագրորեն նշանակալի արդյունք։ Այս փորձառությունը հանգեցրեց Ֆիշերի «Վիճակագրական մեթոդներ հետազոտողների համար» գրքին:
Ամբաստանյալի օրինակ
Վիճակագրական դատավարության ընթացակարգը համեմատելի է քրեական դատարանի հետ, որտեղ մեղադրյալը համարվում է անմեղ, քանի դեռ նրա մեղավորությունն ապացուցված չէ: Դատախազը փորձում է ապացուցել ամբաստանյալի մեղքը. Միայն մեղադրանք առաջադրելու համար բավարար ապացույցների առկայության դեպքում ամբաստանյալը կարող է մեղավոր ճանաչվել։ Գործընթացի սկզբում երկու վարկած կա՝ «Ամբաստանյալը մեղավոր չէ» և «Ամբաստանյալը մեղավոր է»։ Անմեղության վարկածը կարող է մերժվել միայն այն դեպքում, երբ սխալը շատ քիչ հավանական է, քանի որ չի ցանկանում դատապարտել անմեղ մեղադրյալին: Նման սխալը կոչվում է I տիպի սխալ և դրա առաջացումըհազվադեպ է վերահսկվում: Այս ասիմետրիկ վարքագծի հետևանքով ավելի տարածված է տիպի II սխալը, այսինքն՝ հանցագործին արդարացնելը։
Վիճակագրությունը օգտակար է մեծ քանակությամբ տվյալների վերլուծության ժամանակ: Սա հավասարապես վերաբերում է վարկածների փորձարկմանը, որը կարող է արդարացնել եզրակացությունները, նույնիսկ եթե գիտական տեսություն չկա: Թեյի համտեսման օրինակում «ակնհայտ էր», որ տարբերություն չկա թեյի մեջ կաթ լցնելու կամ թեյ կաթի մեջ լցնելու միջև։
Հիպոթեզների թեստավորման իրական գործնական կիրառումը ներառում է՝
- փորձարկում, թե արդյոք տղամարդիկ ավելի շատ մղձավանջներ են տեսնում, քան կանայք;
- փաստաթղթի վերագրում;
- Գնահատում է լիալուսնի ազդեցությունը վարքի վրա;
- որոշում այն տիրույթը, որով չղջիկը կարող է միջատ հայտնաբերել արձագանքի միջոցով;
- ընտրելով ծխելը թողնելու լավագույն միջոցը;
- Ստուգում, արդյոք բամպերի կպչուկները արտացոլում են մեքենայի տիրոջ պահվածքը։
Վիճակագրական հիպոթեզների փորձարկումը կարևոր դեր է խաղում ընդհանուր վիճակագրության և վիճակագրական եզրակացության մեջ: Արժեքի փորձարկումն օգտագործվում է որպես գիտական մեթոդի հիմքում կանխատեսված արժեքի և փորձարարական արդյունքի ավանդական համեմատության փոխարինում: Երբ տեսությունը կարող է կանխատեսել միայն հարաբերությունների նշանը, ուղղորդված հիպոթեզային թեստերը կարող են կազմաձևվել այնպես, որ միայն վիճակագրորեն նշանակալի արդյունքը հաստատի տեսությունը: Գնահատման տեսության այս ձևը ամենակոշտն էհիպոթեզների թեստավորման կիրառման քննադատություն։