7. Розділ 1. Методи квантитативної лінґвістики. Тема 3. Основи математичної статистики (2012 р.)

Основи математичної статистики

План викладення матеріалу

1.3.1. Первинне статистичне опрацювання тексту

1.3.2. Методи організації статистичного спостереження над текстом

1.3.3. Варіаційні ряди лінґвістичних ознак

1.3.4. Порядкова ознака в лінґвістичних одиницях

1.3.5. Якісна ознака в лінґвістичних одиницях

1.3.6. Графічне зображення лінґвістичних варіаційних рядів

1.3.7. Статистичні характеристики лінґвістичних варіаційних рядів

1.3.8. Середнє арифметичне і дисперсія для декількох сукупностей

1.3.9. Довжина слововживання як статистично-стилістичний параметр

1.3.10. Статистична однорідність тексту

1.3.11. Двовимірний статистичний розподіл вибірки і його числові характеристики

1.3.12. Контрольні питання

1.3.13. Тести для самоконтрлю

1.3.14. Задачі для самостійної роботи

Схема зв’язків математичної статистики та розділів квантитативної лінґвістики в межах цього видання відображена на рис. 1.11.

Основним змістом математичної статистики є систематизація, опрацювання і використання статистичної інформації для виявлення статистичних закономірностей ознаки або ознак певної сукупності елементів [46, 47]. Результати лінґвостатистичних досліджень [23, 34, 46, 47, 95, 958] застосовуються, зокрема, у лінґвометрії, стилеметрії, глоттохронології, а також у криптолінґвістиці (табл. 1.17). Мета стилеметрії – типологія, атрибуція (авторська, часова, стилева – для застосування, наприклад, у судовій та кримінальній лінґвістиці), діагностика, реконструкція і т. ін. текстів та їх частин [47]. Дослідження тексту за допомогою описаних ймовірних моделей може бути здійснене за умови, що було виконане первинне статистичне опрацювання тексту і до його результатів застосовані спеціальні критерії переходу до ймовірної моделі. Ознайомимося із прийомами первинного статистичного опрацювання текстів.

Таблиця 1.17

Підрозділи статистичної лінґвістики

Назва	Завдання
Лінґвометрія	створення та порівняння словників (наприклад, частотних та статистичних), створення автоматичних словників, тезаурусів, створення систем стенографії, автоматичне визначення мови, інформаційний пошук тощо.
Стилеметрія	підрозділ прикладної лінґвістики, що виявляє та аналізує кількісні характеристики функціонального стилю мови та мовлення авторів.
Глоттохронологія	підрозділ порівняльно-історичного мовознавства, який досліджує швидкість мовних змін і визначає на цій основі час розділення споріднених мов та ступінь близькості між ними.

3.1.Первинне статистичне опрацювання тексту

Будь-яке статистичне дослідження передбачає спостереження над множиною об’єктів (табл. 1.18). Ці об’єкти характеризуються багатьма ознаками, кожна із яких варіюється при переході від об’єкта до об’єкта. Кількісні ознаки лінґвістичних об’єктів – це, на приклад, довжина словоформи в літерах або фонемах, складах, морфемах або кількість слововживань в реченні тощо. Проте, розглядання усіх ознак одночасно може призвести до зниження точності даних (накопичуватимуться помилки реєстрації через великі об’єми даних) та до значних матеріальних, трудових, фінансових та часових затрат [46, с.214]. Тому мовознавець повинен зосередити свою увагу на одній визначеній ознаці, припускаючи, що стосовно інших ознак об’єкти такої лінґвістичної множини рівноправні, а розглянута множина – однорідна. Побудована вказаним чином множина є статистичною сукупністю, а об’єкти, що складають її, – одиницями сукупності [46, с.20].

Таблиця 1.18

Класифікація сукупностей

Назва сукупності	Характеристика
Ґенеральна лінґвістична (або ґенеральна)	статистична сукупність, яка поєднує всі однорідні лінґвістичні об’єкти з однаковою якісною або кількісною ознакою (ознаками); сукупність може мати скінченну або нескінченну кількість одиниць, наприклад, якщо досліджують особливості стилю І Франка, то ґенеральна сукупність – усі його твори; якщо досліджують українську мову XX ст., то ґенеральна сукупність – усі тексти (мовлені та писані) XX ст.; межі останньої важко визначити точно, а все усне мовлення просто неможливо дослідити.
Вибіркова лінґвістична (вибірка)	Обмежена частина генеральної лінґвістичної сукупності. Для досліджуваної творчості І.Франка вибірковою сукупністю буде, на приклад, збірка «Зів’яле листя».

В табл. 1.19 подані основні вимоги до вибірки [23, с. 19; 46, с.218].

Таблиця 1.19

Основні вимоги до вибірки

Назва	Характеристика
репрезентативність	вибірка повинна рівномірно розподілятися по ґенеральній сукупності та мати достатньо великий обсяг, якого вистачає для правильних висновків про ґенеральну сукупність;
однорідність	вибірка повинна складатися із однорідних лінґвістичних об’єктів з однаковою якісною або кількісною ознакою (ознаками).

Розрізняють два типи однорідності вибірки: лінґвістична та статистична. У межах лінґвістичної однорідності виділяють типи [23, с.19], подані в табл. 1.20.

Таблиця 1.20

Вибірки у межах лінґвістичної однорідності

Назва	Характеристика
хронологічна	тексти вибірки повинні мати хронологічні межі;
жанрова	тексти вибірки мають бути жанрово обмежені;
тематична	тексти мають бути тематично обмежені.

Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку, яка суттєво між собою не відрізняється. Якщо середня частота явища (літери, морфеми, слова, довжини слова, довжини речення і т. ін.) в одній вибірці суттєво не відрізняється від його частоти в інших вибірках, то ці вибірки статистично однорідні стосовно цього явища.

3.2.Методи організації статистичного спостереження над текстом

Достовірність лінґвістичного дослідження залежить від організації статистичного спостереження (табл. 1.21).

Таблиця 1.21

Етапи організації спостереження

Назва	Пояснення
Початковий	вибір лінґвістичної ознаки та встановлення одиниці сукупності;
Основний	визначення способу спостереження.

В лінґвостатистиці використовують якісні критерії, при яких часто межа переходів від одного стану до іншого є невизначеною, наприклад, поділ слів тексту на повнозначні та службові. Але якою б не була мета для групування, кожен лінґвістичний об’єкт має бути визначений таким, що має або не має певну якісну ознаку. Статистичне спостереження передбачає суцільне або вибіркове дослідження ґенеральної сукупності. Суцільне дослідження використовується в лінґвостатистиці тоді, коли, по-перше, ґенеральна сукупність хоч і велика, але все ж скінченна, і по-друге, коли необхідно врахувати всі вживання мовних об’єктів, що нас цікавлять, наприклад, слів

Зазвичай ґенеральна сукупність настільки велика, що виконати суцільне обстеження неможливо навіть при умові застосування обчислювальної техніки, тому використовують частину одиниць ґенеральної сукупності. Таке спостереження здійснюють за допомогою вибірки з повтореннями або без повторень, якщо середня величина ознаки та її відносна частота (доля) у вибірковому спостереженні достатньо добре відтворює середню величину та долю (частину) ознаки в ґенеральній сукупності. Лінґвостатистика пропонує подані в табл. 1.22 прийоми вибіркового спостереження [23, с. 20; 34; 46, с. 214; 48; 95, с.214].

Таблиця 1.22

Прийоми вибіркового спостереження

Назва	Опис прийому
Випадковий відбір	вибір окремих одиниць здійснюють жеребкуванням (шляхом підкидання монет, гральної кості тощо) або шляхом використання таблиць випадкових чисел чи генерування випадкової величини, при цьому кожна одиниця сукупності має рівну можливість потрапити у вибірку; забезпечує достатнє наближення середньої вибіркової величини до середньої ґенеральної величини; недолік – громіздкість.
Механічний відбір	одиниці сукупності обирають у визначеному, формально встановленому порядку (наприклад, при дослідженні розподілу голосних нумерують всі фонеми тексту, фіксують присутність/відсутність голосної у фонемах, номери кратні 5, 10 тощо).
Серійний відбір	в попередніх прийомах кожну одиницю вибирають в індивідуальному порядку, а тут відбір серіями у випадковому порядку, частіше без повторень.
Типовий відбір	попередні прийоми не враховують змістовні та жанрово-стилістичні особливості окремих частин тексту, який виступає в ролі ґенеральної сукупності, що помітно впливає на статистику знаків – слів, словоформ і словосполучень (відносні частоти появи іменників «лис» чи «вовк» у творі І. Франка «Лис Микита» значно вищі, ніж у всій сукупності текстів Франка). Етапи типового відбору. Розбиття на групи: попереднє розбиття ґенеральної сукупності за визначеною ознакою на однорідні тематичні групи (наприклад, прозу, поезію та драму в художній літературі; твори одного автора або конкретний твір; сукупність слів певної морфемної структури, наприклад, префіксальних/одноморфемних тощо). Визначення одиниць: із груп випадковим чином відбирають відповідні лексичні чи граматичні одиниці. Визначення серій: під час складання частотних словників вибірку поєднують із серійним відбором. Розрахунок ваги: кількість серій, що вилучають із кожної тематичної групи, визначають питомою вагою цієї групи в ґенеральній сукупності.

3.3.Варіаційні ряди лінґвістичних ознак

Дискретні варіаційні ряди. При лінґвоспостереженні отримують відомості про кількісні та якісні зміни ознаки кожної одиниці ґенеральної сукупності.

Задача 1.36. Для визначення довжини словоформи із твору І. Франка «Перехресні стежки» взято підряд 107 слововживань. Знайдемо послідовність чисел, кожне з яких характеризує довжину слововживань у літерах.

Розв’язок. Як результат одержимо таку послідовність чисел, кожне з яких характеризує довжину слововживань у літерах (значення розташовано в стовпчик):

3	1	3	3	10	4	1	1	1	5	1
4	5	5	9	2	12	8	11	12	2	6
1	11	8	9	6	3	1	3	3	3	5
9	8	4	9	3	8	8	3	1	2	5
7	3	3	7	5	1	1	8	2	4	7
7	2	4	8	6	8	11	2	5	6	1
2	6	11	4	3	1	1	8	6	3	3
10	1	1	9	3	6	6	2	2	6
7	11	5	10	7	1	1	11	5	3
7	4	1	4	3	7	5	5	5	2

Порядок слідування чисел повторює послідовність довжин слововживань у тексті. Завдання лінґвостатистичного спостереження – вивчення варіації ознаки в ґенеральній сукупності. Роль ознаки, що варіюється, виконує довжина слововживання, для кожного зі 107 слововживань ця ознака приймає своє значення (від 1 до 12 літер). Можливі значення ознаки у лінґвостатистиці називають варіантами. Відмінності між варіантами бувають кількісними (дискретними або неперервними) та якісними.

Відсортуємо отримані чисельні значення довжин словоформ за спаданням.

1	1	2	3	3	4	5	6	7	8	11
1	1	2	3	3	4	5	6	7	9	11
1	1	2	3	3	4	5	6	8	9	11
1	1	2	3	3	5	5	6	8	9	11
1	1	2	3	3	5	5	7	8	9	11
1	1	2	3	4	5	6	7	8	9	12
1	1	2	3	4	5	6	7	8	10	12
1	1	2	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	11

Компактніше та більш наглядно зобразити варіювання ознаки у вигляді таблиці, у верхньому рядку якої вказують значення ознаки (варіанти), а в нижньому – кількість повторень цього значення. Отриману в результаті такого впорядкування з повтореннями таблицю називають варіаційним рядом (рядом розподілу або емпіричним розподілом ознаки) [46, с. 142]. Варіаційний ряд довжини українських словоформ за текстом з повісті І. Франка «Перехресні стежки» показаний в табл. 1.23.

Таблиця 1.23

Варіаційний ряд довжини українських словоформ за текстом із твору «Перехресні стежки»

Довжина словоформи	1	2	3	4	5	6	7	8	9	10	11	12	Всього
Кількість повторень словоформи	18	10	17	8	12	9	8	9	5	3	6	2	107

Зазвичай, ознаку позначають великими літерами латинського алфавіту X, Y,…, а варіанти – відповідними малими літерами x₁, x₂,…, x_k, y₁, y₂,…, y_k,…; кількість повторень варіант – через n₁, n₂,…, n_k. Сума всіх варіант N дорівнює .

Комп’ютерний практикум. Подамо функцію обчислення суми всіх варіант N, організовану на мові програмування Pascal.

function syma(k:integer):integer;

var N, i, x: integer;

begin

x:=0;

for i:=1 to k do N:=x+n[i];

syma:=N;

end;

Загальний вигляд варіаційного ряду показаний в табл. 1.24, де у нижньому рядку подані абсолютні частоти n_i, замість яких можна вказувати відносні частоти або у відсотках – f_i×100% (табл. 1.25). Для кожної вибірки виконується рівність å f_i =1.

Таблиця 1.24

Загальний вигляд варіаційного ряду

x₁	x₂	...	x_k	å x_i
n₁	n₂	...	n_k	N

Таблиця 1.25

Загальний вигляд варіаційного ряду

x₁	x₂	...	x_k	å x_i
f₁	f₂	...	f_k	1
f₁×100%	f₂×100%	...	f_k×100%	100%

Комп’ютерний практикум. Наведемо функцію обчислення відносної частоти, організовану на мові програмування Pascal.

function vidn(k,N:integer):real;

var i: integer;

f : array [1..k] of real;

begin

x:=0;

for i:=1 to k do f [i]:=n[i]/N;

vidn:=f;

end;

У прикладі 1.38 було порівняно невелике варіювання ознаки (12 варіант). Але дослідник часто має справу із декількома десятками/сотнями варіант, де варіаційний ряд – розтягнутий і його важко досліджувати. Для уникнення цієї незручності, у верхньому ряді таблиці вказують не всі значення ознаки, а інтервали, в межах яких розташовані ці значення. У нижньому ряді – кількість варіант, які припадають на один інтервал.

Задача 1.37. Знайдемо варіаційний ряд для розрахунку розподілу іменників у 500 випадкових вибірках із німецьких текстів з фізичної хімії по 100 слововживань кожна (приклад взято з [95, с. 224]).

Розв’язок. варіаційний ряд ознаки наведено у табл. 1.26.

Таблиця 1.26

Варіаційний ряд розподілу іменників у 500 випадкових вибірках по 100 слововживань

X (кількість іменників у одній сотні слововживань)	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27
N (кількість сотень)	1	0	2	5	6	10	15	20	26	23	31	41	33	35	51

Продовження табл. 1.26

X (кількість іменників в одній сотні слововживань)	28	29	30	31	32	33	34	35	36	37	38	39	40	24	Всього
N (кількість сотень)	34	33	33	24	19	16	14	12	7	2	4	0	1	2	500

Для більш компактного і наочного подання ряду беремо інтервали по два (табл. 1.27) і три (табл. 1.28) значення ознаки. Найбільш наочну картину розподілу дає табл. 1.27.

Таблиця 1.27

Компактний варіаційний ряд розподілу іменників у 500 випадкових вибірках

Інтервали варіант	12-13	14-15	16-17	18-19	20-21	22-23	24-25	2-27	28-29	30-31	32-33	34-35	36-37	38-39	40-41	Всього
Частоти n_i	1	2	11	25	46	54	74	86	67	57	35	26	9	4	3	500

Таблиця 1.28

Компактний варіаційний ряд розподілу іменників у 500 випадкових вибірках

Інтервали варіант	12-14	15-17	18-20	21-23	24-26	27-29	30-32	33-35	36-38	39-41	Всього
Частоти n_i	1	13	45	80	109	118	76	42	13	3	500

Неперервні варіаційні ряди у лінґвістиці використовують, як правило, при дослідженні фонетичних явищ, оскільки тут значення ознаки (наприклад, довжина, частота, інтенсивність звуку) можуть відрізнятися одне від одного на як завгодно малу (нескінченно малу) величину. Оскільки відмінності між варіантами мають неперервний характер, у цьому випадку використовують лише інтервальну побудову варіаційного ряду.

Задача 1.38. Розглянемо приклад, наведений у [95, с. 225]. Під час дослідження довжини китайського складу проведено 150 замірів часу звучання складів, озвучених дикторами-китайцями, причому довжини складів коливаються від 40 до 300 мс. Отримаємо варіаційний ряд розподілу довжини китайського складу.

Розв’язок. Після впорядкування даних отримано три ряди (табл. 1.29-1.31).

Таблиця 1.29

Варіаційний ряд розподілу довжини китайського складу

Інтервали варіант (довжини складів в мс)	40-50	50-60	60-70	70-80	80-90	90-100	100-110	110-120	120-130	130-140	140-150	150-160	160-170	170-180
Частоти n_i	2	0	5	2	4	3	16	13	20	9	17	7	11	6

Продовження табл. 1.29

Інтервали варіант (довжини складів в мс)	180-190	190-200	200-210	210-220	220-230	230-240	240-250	250-260	260-270	270-280	280-290	290-300	300-310	Всього
Частоти n_i	5	6	10	2	6	1	0	1	2	0	1	0	1	150

Таблиця 1.30

Компактне зображення варіаційного ряду розподілу довжини китайського складу

Інтервали варіант (довжини складів в мс)	40-60	60-80	80-100	100-120	120-140	140-160	160-180	180-200	200-220	220-240	240-260	260-280	280-300	300-320	Всього
Частоти n_i	2	7	7	29	29	24	27	11	12	7	1	2	1	1	150

Таблиця 1.31

Компактне зображення варіаційного ряду розподілу довжини китайського складу

Інтервали варіант (довжини складів в мс)	40-70	70-100	100-130	130-160	160-190	190-220	220-250	250-280	280-310	Всього
Частоти n_i	7	9	49	33	22	18	7	3	2	150
Накопичені частоти n_i¢	7	16	65	98	120	138	145	148	150

У загальному випадку неперервний інтервальний ряд подано в табл. 1.32.

Таблиця 1.32

Неперервний інтервальний ряд

Значення ознаки X	(x₁, x₂)	(x₂, x₃)	...	(x_m, x_m₊₁)
Частоти	n₁	n₂	...	n_m
Відносні частоти	f₁	f₂	...	f_m

В табл. 1.32 (x₁, x₂), (x₂, x₃), ..., (x_m, x_m₊₁) – це інтервали, на які розбиті можливі значення ознаки. В роботі [92, с. 227] автори ввели поняття інтервальних відмінностей k₁ = x₂–x₁, k₂ = x₃–x₂, ..., k_m = x_m₊₁–x_m, що характеризують довжини інтервалів. Якщо інтервали мають однакову довжину, то інтервальні відмінності рівні, тобто k₁=k₂=... = k_m. У тих випадках, коли варіаційний ряд має різні за величиною довжини інтервалів, доцільно користуватися поняттям щільності розподілу – це частота, що припадає на одиницю величини інтервалу: . Замість щільності розподілу можна користуватися також відносною щільністю розподілу .

Комп’ютерний практикум. Наведемо функцію обчислення відносної щільності розподілу, організовану на мові програмування Pascal.

function rozp(n:integer; f,k: masyv):real;

var i: integer;

v : array [1..n] of real;

begin

x:=0;

for i:=1 to n do v [i]:=f[i]/k[i];

rozp:=v;

end;

Довжину інтервалу, його межі та середини виражають цілим або заокругленим числом. Оскільки всі інтервали однакової довжини, початок першого інтервалу не обов’язково має співпадати зі значенням мінімальної варіанти. Кінець останнього інтервалу може і не співпадати зі значенням максимальної варіанти, наприклад, як у варіаційних рядах розподілу довжин китайських складів. При побудові інтервального ряду необхідно визначати інтервал так, щоб не залишилося жодних сумнівів щодо його меж та належності варіанти до тої чи іншої групи. При зменшенні кількості інтервалів (відповідно при збільшенні довжини інтервалу) загальний вигляд розподілу є більш наочним (табл. 1.31), але губиться інформація про проміжні варіації ознаки всередині великого інтервалу. Цю інформацію отримують, звужуючи інтервали та збільшуючи тим самим їх кількість, але при цьому таблиця стає громіздкою та складною (табл. 1.26). В лінґвостатистиці при виборі довжини інтервалів та їх кількості виділяють характерні особливості розподілу і згладжують випадкові коливання, використовуючи один із двох прийомів (табл. 1.33).

Таблиця 1.33

Прийоми визначення довжини інтервалу та їх кількості

Назва	Особливість
Математичний	використання формули Стерджесса (1.23) для визначення довжини інтервалу, заокруглення інтервальної відмінності k до найближчого цілого числа, використання формули (1.24) для визначення кількості інтервалів; якщо мінімальна і максимальна варіанти є за межами отриманих інтервалів, то додаються два інтервали – один зліва, інший справа.
Емпіричний	при визначені кількості та ширини інтервалів користуються емпіричними відповідностями, наприклад між табл. 1.26 – 1.28 для виведення табл. 1.34.

(Для ознайомлення з повним текстом статті необхідно залогінитись)

3	1	3	3	10	4	1	1	1	5	1
4	5	5	9	2	12	8	11	12	2	6
1	11	8	9	6	3	1	3	3	3	5
9	8	4	9	3	8	8	3	1	2	5
7	3	3	7	5	1	1	8	2	4	7
7	2	4	8	6	8	11	2	5	6	1
2	6	11	4	3	1	1	8	6	3	3
10	1	1	9	3	6	6	2	2	6
7	11	5	10	7	1	1	11	5	3
7	4	1	4	3	7	5	5	5	2

1	1	2	3	3	4	5	6	7	8	11
1	1	2	3	3	4	5	6	7	9	11
1	1	2	3	3	4	5	6	8	9	11
1	1	2	3	3	5	5	6	8	9	11
1	1	2	3	3	5	5	7	8	9	11
1	1	2	3	4	5	6	7	8	9	12
1	1	2	3	4	5	6	7	8	10	12
1	1	2	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	11

3	1	3	3	10	4	1	1	1	5	1
4	5	5	9	2	12	8	11	12	2	6
1	11	8	9	6	3	1	3	3	3	5
9	8	4	9	3	8	8	3	1	2	5
7	3	3	7	5	1	1	8	2	4	7
7	2	4	8	6	8	11	2	5	6	1
2	6	11	4	3	1	1	8	6	3	3
10	1	1	9	3	6	6	2	2	6
7	11	5	10	7	1	1	11	5	3
7	4	1	4	3	7	5	5	5	2

1	1	2	3	3	4	5	6	7	8	11
1	1	2	3	3	4	5	6	7	9	11
1	1	2	3	3	4	5	6	8	9	11
1	1	2	3	3	5	5	6	8	9	11
1	1	2	3	3	5	5	7	8	9	11
1	1	2	3	4	5	6	7	8	9	12
1	1	2	3	4	5	6	7	8	10	12
1	1	2	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	11

3	1	3	3	10	4	1	1	1	5	1
4	5	5	9	2	12	8	11	12	2	6
1	11	8	9	6	3	1	3	3	3	5
9	8	4	9	3	8	8	3	1	2	5
7	3	3	7	5	1	1	8	2	4	7
7	2	4	8	6	8	11	2	5	6	1
2	6	11	4	3	1	1	8	6	3	3
10	1	1	9	3	6	6	2	2	6
7	11	5	10	7	1	1	11	5	3
7	4	1	4	3	7	5	5	5	2

1	1	2	3	3	4	5	6	7	8	11
1	1	2	3	3	4	5	6	7	9	11
1	1	2	3	3	4	5	6	8	9	11
1	1	2	3	3	5	5	6	8	9	11
1	1	2	3	3	5	5	7	8	9	11
1	1	2	3	4	5	6	7	8	9	12
1	1	2	3	4	5	6	7	8	10	12
1	1	2	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	10
1	2	3	3	4	5	6	7	8	11