ОСНОВИ МАТЕМАТИЧНОЇ СТАТИСТИКИ
МЕТОДИЧНІ ВКАЗІВКИ
до лабораторної роботи № 10
з дисципліни «Методи опрацювання природної мови»
для магістрів галузі знань 12 «Інформаційні технології»
спеціальності 122 «Комп’ютерні науки та інформаційні технології»
спеціалізації «Системи штучного інтелекту»
Затверджено
на засіданні кафедри інформаційних систем та мереж
Протокол №01 від25.08.2016 р.
Львів-2016
Основи математичної статистики: Методичні вказівки до лабораторної роботи № 10 / Укл.: В.А. Висоцька, Т.В. Шестакевич. – Львів: Видавництво Національного університету ”Львівська політехніка”, 2016. – 38 с.
Укладачі Висоцька В.А., к.т.н., доцент
Шестакевич Т.В., асистент
Відповідальний за випуск Литвин В.В., д.т.н., професор.
Рецензенти Берко А.Ю., д.т.н., професор.
Чирун Л.В., к.т.н, доцент.
ЗМІСТ
Вступ
1 ТЕОРЕТИЧНІ ВІДОМОСТІ
1.1.1 Первинне статистичне опрацювання тексту
1.1.2 Методи організації статистичного спостереження над текстом
1.1.3 Варіаційні ряди лінґвістичних ознак
1.1.4 Порядкова ознака в лінґвістичних одиницях
1.1.5 Якісна ознака в лінґвістичних одиницях
1.1.6 Графічне зображення лінґвістичних варіаційних рядів
1.1.7 Статистичні характеристики лінґвістичних варіаційних рядів
1.1.8 Середнє арифметичне і дисперсія для декількох сукупностей
1.1.9 Довжина слововживання як статистично-стилістичний параметр
1.1.10 Статистична однорідність тексту
1.1.11 Двовимірний статистичний розподіл вибірки і його числові характеристики
2 ЗАВДАННЯ
2.1.1 Контрольні питання
2.1.2 Тести для самоконтролю
2.1.3 Задачі для самостійної роботи
3 ЛІТЕРАТУРА
4 ВИМОГИ ДО ЛАБОРАТОРНОЇ РОБОТИ
НАВЧАЛЬНЕ ВИДАННЯ
Мета роботи: В даній роботі зроблений огляд типових задач математичної статистики для аналізу текстів в лінгвістичних задачах.
Вступ
Схема зв’язків математичної статистики та розділів квантитативної лінґвістики в межах цього видання відображена на рис. 1.10.
Рис. 1.10. Зв’язки математичної статистики та розділів квантитативної лінґвістики
Основним змістом математичної статистики є систематизація, опрацювання і використання статистичної інформації для виявлення статистичних закономірностей ознаки або ознак певної сукупності елементів [43, 44]. Результати лінґвостатистичних досліджень [21, 32, 43, 44, 92, 95] застосовуються, зокрема, у лінґвометрії, стилеметрії, глоттохронології, а також у криптолінґвістиці (табл. 1.11). Мета стилеметрії – типологія, атрибуція (авторська, часова, стилева – для застосування, наприклад, у судовій та кримінальній лінґвістиці), діагностика, реконструкція і т. ін. текстів та їх частин [44]. Дослідження тексту за допомогою описаних ймовірнісних моделей може бути здійснене за умови, що було виконане первинне статистичне опрацювання тексту і до його результатів застосовані спеціальні критерії переходу до ймовірнісної моделі. Ознайомимося із прийомами первинного статистичного опрацювання текстів.
Таблиця 1.11
Підрозділи статистичної лінґвістики
Назва | Завдання |
Лінґвометрія | створення та порівняння словників (наприклад, частотних та статистичних), створення автоматичних словників, тезаурусів, створення систем стенографії, автоматичне визначення мови, інформаційний пошук тощо. |
Стилеметрія | підрозділ прикладної лінґвістики, що виявляє та аналізує кількісні характеристики функціонального стилю мови та мовлення авторів. |
Глоттохронологія | підрозділ порівняльно-історичного мовознавства, який досліджує швидкість мовних змін і визначає на цій основі час розділення споріднених мов та ступінь близькості між ними. |
Криптолінґвістика | дослідження характеристик мов (частота появи певних літер, комбінація літер, загальні шаблони) для застосування отриманих знань у криптології. |
1 ТЕОРЕТИЧНІ ВІДОМОСТІ
- Первинне статистичне опрацювання тексту
Будь-яке статистичне дослідження передбачає спостереження над множиною об’єктів (табл. 1.12). Ці об’єкти характеризуються багатьма ознаками, кожна із яких варіюється при переході від об’єкта до об’єкта. Кількісні ознаки лінґвістичних об’єктів – це, на приклад, довжина словоформи в літерах або фонемах, складах, морфемах або кількість слововживань в реченні тощо. Проте, розглядання усіх ознак одночасно може призвести до зниження точності даних (накопичуватимуться помилки реєстрації через великі об’єми даних) та до значних матеріальних, трудових, фінансових та часових затрат [43, с.214]. Тому мовознавець повинен зосередити свою увагу на одній визначеній ознаці, припускаючи, що стосовно інших ознак об’єкти такої лінґвістичної множини рівноправні, а розглянута множина – однорідна. Побудована вказаним чином множина є статистичною сукупністю, а об’єкти, що складають її, – одиницями сукупності [43, с.20].
Таблиця 1.12
Класифікація сукупностей
Назва сукупності | Характеристика |
Ґенеральна лінґвістична (або ґенеральна) | статистична сукупність, яка поєднує всі однорідні лінґвістичні об’єкти з однаковою якісною або кількісною ознакою (ознаками); сукупність може мати скінченну або нескінченну кількість одиниць, наприклад, якщо досліджують особливості стилю І Франка, то ґенеральна сукупність – усі його твори; якщо досліджують українську мову XX ст., то ґенеральна сукупність – усі тексти (мовлені та писані) XX ст.; межі останньої важко визначити точно, а все усне мовлення просто неможливо дослідити. |
Вибіркова лінґвістична (вибірка) | Обмежена частина генеральної лінгвістичної сукупності. Для досліджуваної творчості І.Франка вибірковою сукупністю буде, на приклад, збірка «Зів’яле листя». |
В табл. 1.13 подані основні вимоги до вибірки [21, с. 19; 43, с.218].
Таблиця 1.13
Основні вимоги до вибірки
Назва | Характеристика |
репрезентативність | вибірка повинна рівномірно розподілятися по ґенеральній сукупності та мати достатньо великий обсяг, якого вистачає для правильних висновків про ґенеральну сукупність; |
однорідність | вибірка повинна складатися із однорідних лінґвістичних об’єктів з однаковою якісною або кількісною ознакою (ознаками). |
Розрізняють два типи однорідності вибірки: лінґвістична та статистична. У межах лінґвістичної однорідності виділяють типи [21, с.19], подані в табл. 1.14.
Таблиця 1.14
Вибірки у межах лінґвістичної однорідності
Назва | Характеристика |
хронологічна | тексти вибірки повинні мати хронологічні межі; |
жанрова | тексти вибірки мають бути жанрово обмежені; |
тематична | тексти мають бути тематично обмежені. |
Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку, яка суттєво між собою не відрізняється. Якщо середня частота явища (літери, морфеми, слова, довжини слова, довжини речення і т. ін.) в одній вибірці суттєво не відрізняється від його частоти в інших вибірках, то ці вибірки статистично однорідні стосовно цього явища.
- Методи організації статистичного спостереження над текстом
Достовірність лінґвістичного дослідження залежить від організації статистичного спостереження (табл. 1.15).
Таблиця 1.15
Етапи організації спостереження
Назва | Пояснення |
Початковий | вибір лінґвістичної ознаки та встановлення одиниці сукупності; |
Основний | визначення способу спостереження. |
В лінґвостатистиці використовують якісні критерії, при яких часто межа переходів від одного стану до іншого є невизначеною, наприклад, поділ слів тексту на повнозначні та службові. Але якою б не була мета для групування, кожен лінґвістичний об’єкт має бути визначений таким, що має або не має певну якісну ознаку. Статистичне спостереження передбачає суцільне (табл. 1.16) або вибіркове дослідження ґенеральної сукупності.
Таблиця 1.16
Використання суцільного дослідження ґенеральної сукупності в лінґвостатистиці
Параметри | Властивосты |
розмірсукупності | сукупність хоч і велика, але все ж скінченна |
врахування всіх вживаних мовних об’єктів (слів, літер) | статистичний опис мови письменника (частотні словники творів І. Франка, Т. Шевченка, М. Гоголя, Ю. Лермонтова) або дослідження мови окремого художнього твору (частотні словники повісті І. Франка «Перехресні стежки» або роману Л. М. Толстого «Війна і мир») [21]. |
Зазвичай ґенеральна сукупність настільки велика, що виконати суцільне обстеження неможливо навіть при умові застосування обчислювальної техніки, тому використовують частину одиниць ґенеральної сукупності. Таке спостереження здійснюють за допомогою повторної або безповторної вибірки, якщо середня величина ознаки та її відносна частота (доля) у вибірковому спостереженні достатньо добре відтворює середню величину та долю (частину) ознаки в ґенеральній сукупності. Лінґвостатистика пропонує подані в табл. 1.17 прийоми вибіркового спостереження [21, с. 20; 32; 43, с. 214; 45; 92, с.214].
Таблиця 1.17
Прийоми вибіркового спостереження
Назва | Властивість |
Випадковий відбір | вибір окремих одиниць здійснюють жеребкуванням (шляхом підкидання монет, гральної кості тощо) або шляхом використання таблиць випадкових чисел чи генерування випадкової величини, при цьому кожна одиниця сукупності має рівну можливість потрапити у вибірку; забезпечує достатнє наближення середньої вибіркової величини до середньої ґенеральної величини; недолік – громіздкість. |
Механічний відбір | одиниці сукупності обирають у визначеному, формально встановленому порядку (наприклад, при дослідженні розподілу голосних нумерують всі фонеми тексту, фіксують присутність/відсутність голосної у фонемах, номери кратні 5, 10 тощо). |
Серійний відбір | в попередніх прийомах кожну одиницю вибирають в індивідуальному порядку, а тут відбір серіями у випадковому порядку, частіше безповторним способом. |
Типовий відбір |
попередні прийоми не враховують змістовні та жанрово-стилістичні особливості окремих частин тексту, який виступає в ролі ґенеральної сукупності, що помітно впливає на статистику знаків – слів, словоформ і словосполучень (відносні частоти появи іменників «лис» чи «вовк» у творі І. Франка “Лис Микита” значно вищі, ніж у всій сукупності текстів Франка). Етапи типового відбору.
|
- Варіаційні ряди лінґвістичних ознак
Дискретні варіаційні ряди. При лінґвоспостереженні отримують відомості про кількісні та якісні зміни ознаки кожної одиниці ґенеральної сукупності.
Задача 1.23. Для визначення довжини словоформи із твору І. Франка “Перехресні стежки” взято підряд 107 слововживань. Знайдемо послідовність чисел, кожне з яких характеризує довжину слововживань у літерах.
Розв’язок. Як результат одержимо таку послідовність чисел, кожне з яких характеризує довжину слововживань у літерах (значення розташовано в стовпчик):
3 | 1 | 3 | 3 | 10 | 4 | 1 | 1 | 1 | 5 | 1 |
4 | 5 | 5 | 9 | 2 | 12 | 8 | 11 | 12 | 2 | 6 |
1 | 11 | 8 | 9 | 6 | 3 | 1 | 3 | 3 | 3 | 5 |
9 | 8 | 4 | 9 | 3 | 8 | 8 | 3 | 1 | 2 | 5 |
7 | 3 | 3 | 7 | 5 | 1 | 1 | 8 | 2 | 4 | 7 |
7 | 2 | 4 | 8 | 6 | 8 | 11 | 2 | 5 | 6 | 1 |
2 | 6 | 11 | 4 | 3 | 1 | 1 | 8 | 6 | 3 | 3 |
10 | 1 | 1 | 9 | 3 | 6 | 6 | 2 | 2 | 6 | |
7 | 11 | 5 | 10 | 7 | 1 | 1 | 11 | 5 | 3 | |
7 | 4 | 1 | 4 | 3 | 7 | 5 | 5 | 5 | 2 |
Порядок слідування чисел повторює послідовність довжин слововживань у тексті. Завдання лінґвостатистичного спостереження – вивчення варіації ознаки в ґенеральній сукупності. Роль ознаки, що варіюється, виконує довжина слововживання, для кожного зі 107 слововживань ця ознака приймає своє значення (від 1 до 12 літер). Можливі значення ознаки у лінґвостатистиці називають варіантами. Відмінності між варіантами бувають кількісними (дискретними або неперервними) та якісними.
Відсортуємо отримані чисельні значення довжин словоформ за спаданням.
1 | 1 | 2 | 3 | 3 | 4 | 5 | 6 | 7 | 8 | 11 |
1 | 1 | 2 | 3 | 3 | 4 | 5 | 6 | 7 | 9 | 11 |
1 | 1 | 2 | 3 | 3 | 4 | 5 | 6 | 8 | 9 | 11 |
1 | 1 | 2 | 3 | 3 | 5 | 5 | 6 | 8 | 9 | 11 |
1 | 1 | 2 | 3 | 3 | 5 | 5 | 7 | 8 | 9 | 11 |
1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 12 |
1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 10 | 12 |
1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 10 | |
1 | 2 | 3 | 3 | 4 | 5 | 6 | 7 | 8 | 10 | |
1 | 2 | 3 | 3 | 4 | 5 | 6 | 7 | 8 | 11 |
Компактніше та більш наглядно зобразити варіювання ознаки у вигляді таблиці, у верхньому рядку якої вказують значення ознаки (варіанти), а в нижньому – кількість повторень цього значення. Отриману в результаті такого повторного впорядкування таблицю називають варіаційним рядом (рядом розподілу або емпіричним розподілом ознаки) [43, с. 142]. Варіаційний ряд довжини українських словоформ за текстом з повісті І. Франка “Перехресні стежки” показаний в табл. 1.18.
Таблиця 1.18
Варіаційний ряд довжини українських словоформ за текстом із твору “Перехресні стежки”
Довжина словоформи | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | Всього |
Кількість повторень словоформи | 18 | 10 | 17 | 8 | 12 | 9 | 8 | 9 | 5 | 3 | 6 | 2 | 107 |
(Для ознайомлення з повним текстом статті необхідно залогінитись)