Неактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зірка
 
  1. Елементи теорії інформації в лінґвістиці

План викладення матеріалу

1.4.1. Кількісні міри інформації

1.4.2. Інформаційні виміри кодування інформації

1.4.3. Умовна ентропія та ентропія об’єднання

1.4.4. Розрахунок швидкості передавання інформації та пропускної здатності інформаційних каналів зв’язку

1.4.5. Визначення надлишковості повідомлень. Оптимальне кодування

1.4.6. Контрольні питання

1.4.7. Тести для самоконтролю

1.4.8. Задачі для самостійної роботи

Розглянемо розділ математики, що досліджує процеси зберігання, перетворення та передавання інформації – теорію інформації [21, 31, 51, 57, 62, 78, 134], в основі якої лежить певний метод вимірювання кількості інформації. Для опису характерних властивостей інформації вводиться поняття ентропії [1, 5, 7, 51, 56, 74, 95, 99, 107, 129, 132]. Обчислення формально-структурних характеристик інформації, таких як обсяг даних, кількість інформації та коефіцієнт інформативності, вимагає, крім володіння основами теорії інформації, ще й знань комбінаторики та засад теорії ймовірностей [10, 17, 31]. Оперування цими методами дозволяє охарактеризувати «гнучкість мови», оцінити ступінь інформативності, який застосовується для оцінювання обсягів роботи з перетворення інформації [51, 78, 82, 100-102, 116, 118, 122, 123]. Із збільшенням коефіцієнта інформованості обсяги роботи з перетворення інформації в системі зменшуються, тому для підвищення інформативності розробляються спеціальні методи оптимального кодування інформації [17, 21, 78, 138]. Визначення надлишковості текстів використовується у розділі «Лінґвістика тексту» комбінаторної лінґвістики. Загальна схема взаємозв’язку між темою і розділом квантитативної лінґвістики відображена на рис. 1.18.

 

  1.  Кількісні міри інформації

Ентропія як міра невизначеності лінґвістичної події. Кількісні виміри інформації здійснюють, спираючись на два поняття – ймовірність випадкової лінґвістичної події та невизначеність перед виконанням експерименту, результатом якого є вказана подія. Поняття невизначеності та її міри вимагає спеціального роз’яснення (табл. 1.67-1.68).

Таблиця 1.67

Залежність між кількістю елементів множини та невизначеністю

Випадок Кількість елементів множини Невизначеність
1. Множина елементів, з яких здійснюється вибір, складається з одного єдиного елемента вибір елемента приречений, тобто жодної невизначеності вибору немає.
2. Множина складається з двох елементів невизначеність вибору існує, але її значення мінімальне.
3. Із збільшенням кількості елементів у множині збільшується невизначеність вибору.

Таблиця 1.68

Залежність між кількістю елементів множини та невизначеністю

Випадок Кількість елементів множини Кількість інформації
1. Вибрано єдиний елемент не отримуємо ніякої нової інформації, тобто отримуємо нульову кількість інформації.
2. Множина з двох елементів мінімальна кількість інформації, яку одержуємо, дізнавшись про вибір одного з елементів.
3. Множина більше, ніж з двох елементів отримуємо більшу кількість інформації, дізнавшись про те, який елемент був вибраний.

Кожний лінґвістичний експеримент (дослід) має деяку невизначеність результату. Якщо наш дослід полягає в послідовному вгадуванні літер невідомого слова, то вгадування кожної літери від початку слова має свою невизначеність [95]. Чим більше альтернатив при виборі можливого результату експерименту, тим більша його невизначеність у результаті досліду (табл. 1.69).

Таблиця 1.69

Залежності між невизначеністю досліду і кількістю рівноможливих результатів

Залежність Результат
1. Кількість результатів S=1 f(S) = 0.
2. Два досліди S1 > S2 f(S1)f(S2).

Задача 1.62. Щоб остаточно означити функцію f(S), яка характеризує міру невизначеності, розглянемо ще один лінґвістичний експеримент [95]. Будуватимемо випадковим чином речення із трьох слів (рис. 1.19). Нехай перша позиція зайнята власною назвою Сашко. Другу позицію треба зайняти однією з двох дієслівних словоформ готує або їсть (S1=2), які навмання витягають із урни. Кінцева позиція займається однією з словоформ – борщ, вареники, печеню, пампушки (S2= 4), які навмання витягають з урни.

Розв’язок. Невизначеність досліду, який полягає у виборі дієслівної форми, дорівнює f(S1)=f(2); невизначеність випробування, яке полягає у виборі власної назви, характеризується величиною f(S2)=f(4).

Задача 1.63. Розглянемо складний дослід: комбінований вибір з двох урн однієї з S1×S2 = 2×4 = 8 послідовностей з двох слів для початкової словоформи Сашко.

Розв’язок. Нехай перший крок полягає в утворенні словосполучення з власної назви Сашко та однієї з двох дієслівних форм готує або їсть, що навмання витягаються з урни. Тоді кількість результатів такого досліду S1 = 2. Наступний крок – доповнити утворене вже словосполучення прямим додатком – кінцева позиція речення з трьох слів займається однією з чотирьох словоформ, S2 = 4; ці слова також навмання витягаються з урни. Невизначеність цього складного досліду є сумою невизначеностей двох простих дослідів і характеризується рівністю f(S1×S2) = f(S1) + f(S2). Ця рівність є третьою залежністю, яка характеризує співвідношення між невизначеністю досліду і кількістю його рівноможливих результатів (табл. 1.70).

Таблиця 1.70

Залежності між функцією арґумента S та умовою настання досліду

Умова Функція арґумента S
1. S = 1 f(1) = 0;
2. S1>S2 f(S1>f(S2);
3. S1×S2 f(S1×S2) = f(S1) + f(S2).

Функцією f(Si) є логарифмічна залежність (1.60) за допомогою якої оцінюють міру невизначеності (ентропію) досліду [31]. Особливістю формули є відстороненість від семантичних, якісних, індивідуальних властивостей інформації. Основа логарифма впливає лише на зручність обчислення (табл. 1.71).

Таблиця 1.71

Види оцінювання ентропії

Одиниці Ентропія
1. Двійкові H = log2Sбіт/символ;
2. Десяткові H= lg Sдіт/символ, де H= log2S=3,321lg S, 1 біт»0,3 діт.

У лінґвістичних застосуваннях ентропії, здебільшого, використовують логарифми за основою 2, у зв’язку з чим вираз (1.60) набуває вигляду (1.61)

Одиницею вимірювання ентропії є невизначеність, яку містить дослід з двома рівноймовірними результатами. Це двійкова одиниця, або біт: 1біт= log22.

Задача 1.64. Повернемося до лінґвістичного експерименту (задача 1.62-1.63) з вибором продовжень для власної назви Сашко й обчислимо невизначеність вибору дієслівної форми мови, ентропію вибору власної назви в третій позиції та невизначеність одночасного вибору присудка і прямого додатка.

Розв’язок. Результати обчислення невизначеностей подані в табл. 1.72.

Таблиця 1.72

Обчислення невизначеностей

Невизначеність Результат, біт
1. Невизначеність вибору дієслівної форми мови log22 = 1;
2. Ентропія вибору власної назви в третій позиції log24 = 2;
3.

Невизначеність складного досліду, який полягає

в одночасному виборі присудка і прямого додатка

log22+ log24=1+2=3.

Справді, log2(2×4)= log28=3 біт.

Уведення поняття ентропії дає змогу здійснювати кількісне вимірювання інформації. Справді, як результат виконання досліду A ми одержимо нові відомості, тобто деяку інформацію. Одночасно знання результату досліду знімає повністю або частково ту невизначеність, яка була до його виконання. Тому буде вірним припущення, що визначена при досліді A ентропія дорівнює кількості одержаної інформації, тобто (1.62)

Існує класифікація підходів до визначення кількості інформації (табл. 1.73).

Таблиця 1.73

Класифікація підходів до визначення кількості інформації

Назва підходу Закінчення досліду
1. Комбінаторний рівноймовірне.
2. Ймовірнісний нерівноймовірне.

Комбінаторний підхід до визначення кількості інформації. Із (1.61) та (1.62) випливає, що кількість інформації, отриманої від випробування із S рівноможливими результатами, визначається рівністю (1.63)

Стосовно задач мовознавства, множину M (де |M|= S) називають лінґвістичним алфавітом, а величини I0 та H0 – відповідно інформацією та ентропією алфавіту.

Кількість рівноможливих результатів визначають зазвичай шляхом дослідження комбінаторики елементів і зв’язків, які характеризують певне лінґвістичне явище. Хоча комбінаторний підхід дає, як правило, завищені дані про ентропію та інформацію досліду, він може бути використаний для одержання наближених оцінок тих обмежень, які накладають на застосування лінґвістичних одиниць система і норма мови [95].

Задача 1.65. Розглянемо методику одержання наближених оцінок обмежень, які накладають на застосування лінґвістичних одиниць система і норма української мови, на прикладі ланцюжків із двох літер.

Розв’язок. Інформацію, яка одержується з українського алфавіту (33 літери) за умови, що жодних обмежень на утворення ланцюжків (із двох літер) не накладається і всі такі ланцюжки є рівноймовірними, розраховують за допомогою формул розміщення з повтореннями та (1.63). Якщо врахувати обмеження, що ланцюжки не повинні містити м’якого знаку, то інформація, що міститься в одному ланцюжку з двох літер біде іншою (табл. 1.74). Якщо ж скласти всі ланцюжки з двох літер без повторень, то інформацію розраховують за формулами розміщення та (1.63).

Таблиця 1.74

Визначення кількості інформації

Обмеження Кількість інформації, біт
1. Немає  
2. Відсутність м’якого знаку  
3. Ланцюжки з двох літер без повторень  

Зауваження. Введення тих чи інших обмежень призводить до зменшення кількості інформації при виборі одного ланцюжка. Ці обмеження, які називають структурними контекстними обмеженнями [95], можна кількісно оцінити за допомогою різниці (1.64)

де I0 – інформація алфавіту (кількість інформації), яка одержується з досліду при відсутності будь-яких обмежень у комбінаториці лінґвістичних елементів і зв’язків, I – інформація при наявності обмежень, які нас цікавлять, а K – контекстна обумовленість.

Задача 1.66. Розрахуємо величини структурних обмежень, які накладаються на алфавіт українських ланцюжків із двох літер.

Розв’язок. Використовуючи вираз (1.64), неважко оцінити величину структурних обмежень, які накладаються на алфавіт українських ланцюжків із двох літер (табл. 1.75).

Таблиця 1.75

Визначення величини структурних обмежень

Обмеження Результат, біт
1. Відсутність м’якого знаку  
2. Ланцюжки з двох літер без повторень  

Комбінаторні вимірювання інформації можуть бути з успіхом застосовані для оцінення «гнучкості мови», тобто для вимірювання розгалуженості продовження тексту при заданому словнику і заданих правилах побудови речень.

Комп’ютерний практикум. Організуємо функцію для знаходження двійкового логарифма.

function log2(N:integer):real;

var I : real;

begin

I:= ln(N)/ln(2);

Log2:=I;

end;

Ймовірнісний підхід до визначення кількості інформації. При описі комбінаторного методу для обчислення кількості інформації та ентропії ми використовували спрощення, за яким усі закінчення досліду вважалися рівноймовірними. При реальних дослідженнях така ситуація практично ніколи не зустрічається. Норма мови приписує кожному лінґвістичному елементу певну ймовірність. Якщо лінґвістичне випробування передбачає нерівноймовірні результати, то, очевидно, ентропія такого досліду й отримана від нього кількість інформації будуть відрізнятися від аналогічних величин для досліду з рівноймовірними результатами. Перехід від оцінювання невизначеності й інформації досліду з рівноймовірними закінченнями до обчислення ентропії та інформації випробування з нерівноймовірними закінченнями здійснюється на основі таких міркувань [95].  

(Для ознайомлення з повним текстом статті необхідно залогінитись)