Տեղեկատվական էնտրոպիայի հայեցակարգը ենթադրում է արժեքի հավանականության զանգվածի ֆունկցիայի բացասական լոգարիթմը: Այսպիսով, երբ տվյալների աղբյուրն ունի ավելի ցածր հավանականությամբ արժեք (այսինքն, երբ տեղի է ունենում փոքր հավանականություն ունեցող իրադարձություն), իրադարձությունն ավելի շատ «տեղեկատվություն» է կրում («անակնկալ»), քան այն դեպքում, երբ աղբյուրի տվյալները ավելի մեծ հավանականությամբ արժեք ունեն։.
Այս ձևով սահմանված յուրաքանչյուր իրադարձության կողմից փոխանցվող տեղեկատվության քանակը դառնում է պատահական փոփոխական, որի ակնկալվող արժեքը տեղեկատվական էնտրոպիան է: Ընդհանրապես, էնտրոպիան վերաբերում է անկարգությանը կամ անորոշությանը, և դրա սահմանումը, որն օգտագործվում է տեղեկատվության տեսության մեջ, ուղղակիորեն նման է վիճակագրական թերմոդինամիկայի մեջ օգտագործվող սահմանմանը: IE-ի հայեցակարգը ներկայացվել է Կլոդ Շենոնի կողմից 1948 թվականին իր «Հաղորդակցության մաթեմատիկական տեսություն» աշխատության մեջ։ Այստեղից էլ առաջացել է «Շենոնի տեղեկատվական էնտրոպիա» տերմինը։
Սահմանում և համակարգ
Տվյալների փոխանցման համակարգի հիմնական մոդելը բաղկացած է երեք տարրերից՝ տվյալների աղբյուր, կապի ալիք և ստացող,և, ինչպես Շենոնն է ասում, «հաղորդակցման հիմնական խնդիրն» այն է, որ ստացողը կարողանա նույնականացնել, թե ինչ տվյալներ է գեներացվել աղբյուրի կողմից՝ ելնելով այն ազդանշանից, որը նա ստանում է ալիքով: Էնտրոպիան բացարձակ սահմանափակում է ապահովում սեղմված աղբյուրի տվյալների ամենակարճ միջին առանց կորուստների կոդավորման երկարության վրա: Եթե աղբյուրի էնտրոպիան ավելի քիչ է, քան կապի ալիքի թողունակությունը, ապա դրա ստեղծած տվյալները կարող են հուսալիորեն փոխանցվել ստացողին (գոնե տեսականորեն՝ գուցե անտեսելով որոշ գործնական նկատառումներ, ինչպիսիք են տվյալների փոխանցման համար պահանջվող համակարգի բարդությունը։ և տվյալների փոխանցման համար անհրաժեշտ ժամանակի քանակը):
Տեղեկատվության էնտրոպիան սովորաբար չափվում է բիթերով (այլընտրանքով կոչվում է «շաննոններ») կամ երբեմն «բնական միավորներով» (nats) կամ տասնորդական վայրերով (կոչվում են «dits», «bans» կամ «hartleys»): Չափման միավորը կախված է լոգարիթմի հիմքից, որն օգտագործվում է էնտրոպիան որոշելու համար։
Հատկություններ և լոգարիթմ
Լոգերի հավանականության բաշխումը օգտակար է որպես էնտրոպիայի չափում, քանի որ այն հավելում է անկախ աղբյուրների համար: Օրինակ, մետաղադրամի արդար խաղադրույքի էնտրոպիան 1 բիթ է, մինչդեռ m-ծավալների էնտրոպիան m բիթ է: Պարզ ներկայացման մեջ log2(n) բիթերը անհրաժեշտ են փոփոխական ներկայացնելու համար, որը կարող է ընդունել n արժեքներից մեկը, եթե n-ը 2-ի հզորություն է: Եթե այս արժեքները հավասարապես հավանական են, էնտրոպիան (բիթներով) հավասար է այդ թվին։ Եթե արժեքներից մեկն ավելի հավանական է, քան մյուսները, ապա դիտարկումը, որ դա այդպես էիմաստը տեղի է ունենում, ավելի քիչ տեղեկատվական է, քան եթե ավելի քիչ ընդհանուր արդյունք հայտնվեր: Ընդհակառակը, ավելի հազվադեպ իրադարձությունները լրացուցիչ տեղեկություններ են տալիս հետևելու մասին:
Քանի որ ավելի քիչ հավանական իրադարձությունների դիտարկումն ավելի հազվադեպ է, ընդհանուր ոչինչ չկա, որ անհավասար բաշխված տվյալներից ստացված էնտրոպիան (համարվում է միջին տեղեկատվություն) միշտ փոքր է կամ հավասար է log2(n-ին): Էնտրոպիան զրո է, երբ սահմանվում է մեկ արդյունք:
Շենոնի տեղեկատվական էնտրոպիան քանակականացնում է այս նկատառումները, երբ հայտնի է հիմքում ընկած տվյալների հավանականության բաշխումը: Դիտարկվող իրադարձությունների իմաստը (հաղորդագրությունների իմաստը) անտեղի է էնտրոպիայի սահմանման մեջ: Վերջինս հաշվի է առնում միայն որոշակի իրադարձություն տեսնելու հավանականությունը, ուստի այն պարունակող տեղեկատվությունը հնարավորությունների հիմքում ընկած բաշխվածության մասին է, այլ ոչ թե բուն իրադարձությունների իմաստին: Տեղեկատվական էնտրոպիայի հատկությունները մնում են նույնը, ինչ նկարագրված է վերևում։
Տեղեկատվության տեսություն
Տեղեկատվական տեսության հիմնական գաղափարն այն է, որ ինչքան շատ մարդ իմանա թեմայի մասին, այնքան քիչ տեղեկատվություն կարող է ստանալ դրա մասին: Եթե իրադարձությունը շատ հավանական է, դա զարմանալի չէ, երբ այն տեղի է ունենում, և, հետևաբար, քիչ նոր տեղեկատվություն է տալիս: Եվ հակառակը, եթե իրադարձությունն անհավանական էր, ապա շատ ավելի տեղեկատվական էր, որ դեպքը տեղի ունեցավ: Հետևաբար, օգտակար բեռը իրադարձության հակադարձ հավանականության աճող ֆունկցիա է (1 / p):
Այժմ, եթե ավելի շատ իրադարձություններ տեղի ունենան, էնտրոպիաչափում է միջին տեղեկատվական բովանդակությունը, որը կարող եք ակնկալել, եթե իրադարձություններից մեկը տեղի ունենա: Սա նշանակում է, որ ձուլելն ունի ավելի շատ էնտրոպիա, քան մետաղադրամ նետելը, քանի որ յուրաքանչյուր բյուրեղային արդյունք ավելի ցածր հավանականություն ունի, քան յուրաքանչյուր մետաղադրամի արդյունքը:
Հատկություններ
Այսպիսով, էնտրոպիան մի վիճակի անկանխատեսելիության կամ, նույնն է, նրա միջին տեղեկատվական բովանդակության չափումն է: Այս տերմինների ինտուիտիվ ըմբռնման համար դիտարկենք քաղաքական հարցման օրինակը: Սովորաբար նման հարցումներ տեղի են ունենում, քանի որ, օրինակ, ընտրությունների արդյունքները դեռ հայտնի չեն։
Այսինքն՝ հարցման արդյունքները համեմատաբար անկանխատեսելի են, և իրականում դրա անցկացումը և տվյալների ուսումնասիրությունը որոշակի նոր տեղեկություններ են տալիս. դրանք պարզապես տարբեր եղանակներ են ասելու, որ հարցման արդյունքների նախորդ էնտրոպիան մեծ է:
Այժմ դիտարկենք այն դեպքը, երբ նույն հարցումը երկրորդ անգամ է կատարվում առաջինից անմիջապես հետո: Քանի որ առաջին հարցման արդյունքն արդեն հայտնի է, երկրորդ հարցման արդյունքները կարելի է լավ կանխատեսել, և արդյունքները չպետք է պարունակեն շատ նոր տեղեկություններ. այս դեպքում երկրորդ հարցման արդյունքի a priori էնտրոպիան փոքր է առաջինի համեմատ։
Մետաղադրամների նետում
Այժմ դիտարկենք մետաղադրամը շրջելու օրինակը: Ենթադրելով, որ պոչերի հավանականությունը նույնն է, ինչ գլուխների հավանականությունը, ապա մետաղադրամի նետման էնտրոպիան շատ բարձր է, քանի որ դա համակարգի տեղեկատվական էնտրոպիայի յուրօրինակ օրինակ է։
Սա այն պատճառով, որոր անհնար է կանխատեսել, որ մետաղադրամի արդյունքը ժամանակից շուտ է նետվել. եթե մենք պետք է ընտրենք, ապա լավագույնը, որ կարող ենք անել, կանխատեսելն է, որ մետաղադրամը կհայտնվի պոչերի վրա, և այս կանխատեսումը ճիշտ կլինի՝ հավանականությամբ: 1/2. Մետաղադրամի նման նետումն ունի մեկ բիթ էնտրոպիա, քանի որ կան երկու հնարավոր արդյունք, որոնք տեղի են ունենում հավասար հավանականությամբ, և իրական արդյունքի ուսումնասիրությունը պարունակում է մեկ բիթ տեղեկատվություն:
Ընդհակառակը, մետաղադրամը երկու կողմերից պոչերով և առանց գլխի շրջելը զրո էնտրոպիա ունի, քանի որ մետաղադրամը միշտ կանգնում է այս նշանի վրա, և արդյունքը կարելի է կատարելապես կանխատեսել:
Եզրակացություն
Եթե սեղմման սխեման անկորուստ է, ինչը նշանակում է, որ դուք միշտ կարող եք վերականգնել ամբողջ սկզբնական հաղորդագրությունը ապակոմպրեսինգի միջոցով, ապա սեղմված հաղորդագրությունն ունի նույն քանակությամբ տեղեկատվություն, ինչ բնօրինակը, բայց փոխանցվում է ավելի քիչ նիշերով: Այսինքն, այն ունի ավելի շատ տեղեկատվություն կամ ավելի բարձր էնտրոպիա մեկ նիշի համար: Սա նշանակում է, որ սեղմված հաղորդագրությունն ավելի քիչ ավելորդություն ունի:
Կոպիտ ասած, Շենոնի ելակետային կոդի կոդավորման թեորեմը նշում է, որ անկորուստ սեղմման սխեման չի կարող միջինում նվազեցնել հաղորդագրությունները, որպեսզի յուրաքանչյուր հաղորդագրության բիթում լինի ավելի քան մեկ բիթ տեղեկատվություն, սակայն կարելի է ստանալ մեկ բիթից մեկ բիթից պակաս տեղեկատվություն։ հաղորդագրություններ՝ օգտագործելով համապատասխան կոդավորման սխեմա: Հաղորդագրության էնտրոպիան բիթերի երկարության չափը չափում է այն ընդհանուր տեղեկատվության պարունակությունը: