Розділ 3. Інформація лінґвістичних подій
План викладення матеріалу
3.1. Формально-структурні характеристики інформації
3.1.1. Трактування поняття «інформація»
3.1.2. Основи теорії інформації
3.1.3. Якісні властивості інформації
3.2. Дійсні числа
3.2.1. Поняття числа
3.2.2. Множина дійсних чисел
3.3. Моделювання інформаційної побудови мови
3.3.1. Зміна синтаксичної інформації в мові
3.3.2. Розподіл інформації в слові
3.3.3. Розподіл інформації в тексті
3.3.4. Розподіл контекстної обумовленості
3.4. Інформаційні моделі слова і тексту
3.5. Інформаційні виміри в тексті
3.5.1. Кількість інформації
3.5.2. Приклади вимірювання кількості інформації
3.6. Синтаксична інформація в тексті і словах
3.6.1. Особливості синтаксичної інформації
3.6.2. Максимальний обсяг інформації в слові
3.6.3. Оцінювання максимального обсягу інформації слова
3.6.4. Ряд та діахронічний процес
3.7. Приріст та накопичення інформації в тексті
3.8. Контекстна обумовленість та надлишковість тексту
3.9. Вимірювання змістовної інформації в тексті
3.9.1. Кількісні оцінки змістовної інформації
3.9.2. Застосування методів аналізу побудови текту
3.9.3. Організація пам’яті для інформаційного пошуку
3.9.4. Методи визначення емоціної тональності тексту
3.10. Контрольні питання
3.11. Задачі для самостійної роботи
Інформація лінґвістичних подій спирається на моделі та методи комбінаторики, теорії ймовірностей, теорії інформації та кодування. Теорія інформації тісно пов’язана з такими розділами математики, як теорія ймовірностей, математична статистика, прикладна алґебра, які є для неї математичним фундаментом, й історично та практично являє собою математичний фундамент теорії зв’язку. Часто теорію інформації взагалі розглядають як одну з гілок теорії ймовірностей або як частину теорії зв’язку. Цей розділ досить вузький, оскільки затиснений між математикою та прикладними (технічними) аспектами дослідження інформації, наприклад, інформативності тексту або пошук інформації за змістом, за аналізом лексикографічної та семантико-прагматичної побудови тексту.
У розділі розглядаються формально-структурні характеристики інформації: обсяг даних, кількість інформації та коефіцієнт інформативності. Інформація лінґвістичних подій – це математична теорія вимірів формально-структурних характеристик інформації, її потоку, контекстної обумовленості інформації, синтаксичної інформації та особливості її розподілу в тексті і словах, обсягу інформації, тексту і слова, приросту, накопиченню та надлишковості інформації. Інформація лінґвістичних подій вивчає методи побудови мови, текстів і слів. Обсяг даних у повідомленні – це кількість символів у цьому повідомленні; в різних системах числення один розряд має різну вагу, що, відповідно, змінює й одиниці вимірювання даних. Поняття ентропії як міри невизначеності лінґвістичного досліду дозволяє вимірювати кількість інформації як зміну (зменшення) невизначеності стану системи, а також приріст інформації. Для визначення кількості інформації застосовуються комбінаторний та ймовірнісний підходи. Відношення кількості інформації до обсягу даних називається коефіцієнтом або ступенем інформативності (лаконічності) повідомлення, ця величина визначається в межах від 0 до 1. У загальній схемі квантитативної лінґвістики зв’язки між математичними викладками та цим розділом відображені на рис. 3.1.
Комбінаторні оцінки інформації застосовують для оцінки «гнучкості мови», тобто дають змогу вимірювати розгалуженість продовження тексту для заданого словника та заданих правилах побудови речень. Обчислення кількості інформації дозволяє приблизно оцінити виміри обмежень, що накладаються на використання лінґвістичних одиниць системою та нормою мови. Із збільшенням коефіцієнту інформованості зменшуються обсяги роботи з перетворення інформації в системі, тому природним є прагнення підвищити інформативність, для чого розробляють спеціальні методи оптимального кодування інформації. Інформація лінґвістичних подій як математична теорія спочатку була присвячена каналу зв’язку, що визначається довжиною хвилі та частотою, реалізація якого була пов’язана із коливаннями повітря або електромагнітним випромінюванням. Відповідний процес був неперервним або дискретним під час кодування/декодування інформації. Теорія інформації вивчає методи побудови кодів з корисними властивостями. Зацікавленим студентам пропонується опрацювати додаткові розділи, що стосуються інформаційних вимірів кодування інформації в частині інформаційних втрат у каналах із шумом, розрахунку швидкості передавання інформації та пропускної здатності інформаційних каналів зв’язку. Процес обчислення інформації лінґвістичних подій демонструється таким прикладом. Необхідно визначити триграму (Триграма), з якої починається прізвище студента, транслітероване англійською мовою. За допомогою словника обчислюють відносні частоти появи голосних літер після ланцюжка ПропускТриграма в англійській мові. Необхідно обчислити кількість інформації для кожного з ланцюжків ПропускТриграмаГолосна та її середнє значення. Також треба обчислити величину інформації, яка одержується від досліду з п’ятьма рівноймовірними результатами і порівняти отримане значення зі значенням середньої кількості інформації; проаналізувати результати і зробити висновок.
- Формально-структурні характеристики інформації
- 1.1.Трактування поняття «інформація»
Методична складність формування такого важливого розділу «інформація лінґвістичних подій» зумовлена наявністю багатьох трактувань поняття «інформація» та відсутністю загальноприйнятого означення (табл. 3.1).
Таблиця 3.1
Відомі означення інформації
№ | Автор/книга | «Інформація» – означення |
1. | Енциклопедичний словник | це відомості, передані усним, письмовим або іншим способом за допомогою умовних знаків, сигналів [138]. |
2. | Гельфанд І.М. | сукупність знань про фактичні дані й залежності між ними, є одним із видів ресурсів, які використовують в трудовій діяльності та побуті [35]. |
3. | Н. Вінер | це інформація, а не матерія і не енергія; це позначення змісту, який черпають із зовнішнього світу у процесі нашого пристосування до нього і приведення у відповідність до нього нашого мислення [8]. |
4. | Згуровський М.З., Панкратова Н.Д. | «інформація – це упорядкована послідовність змістовно взаємно узгоджених і структурно взаємопов’язаних слів, малюнків, діаграм, таблиць і/або інших засобів письмового, усного, наочного, технічного відображення станів, дій, розміщень та інших властивостей і/або процесів досліджуваного об’єкту будь-якої природи» [51]. |
Перше означення дано через поняття «відомості» та «зміст», але вони характеризуються неоднозначністю трактування у практичних застосуваннях і тому не дають змоги одержувати обґрунтовані оцінки кількості інформації [51, 60]. Друге означення не пояснює неоднозначний термін «фактичні дані» та обмеженість поняття тільки «знаннями про фактичні дані» [51]. На практиці під час формування і прийняття рішень використовують широкий спектр знань, зокрема знання, одержані на основі інтуїції та передбачення [51]. В теорії інформації подано математично обґрунтоване визначення кількості інформації, але дотепер немає однозначного визначення самої інформації.
(Для ознайомлення з повним текстом статті необхідно залогінитись)