Неактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зірка
 

НЕЗАЛЕЖНІ ЛІНГВІСТИЧНІ ВИПРОБУВАННЯ В ТЕКСТІ

МЕТОДИЧНІ ВКАЗІВКИ

до лабораторної роботи № 6

з дисципліни «Методи опрацювання природної мови»

для магістрів галузі знань 12 «Інформаційні технології»

спеціальності 122 «Комп’ютерні науки та інформаційні технології»

спеціалізації «Системи штучного інтелекту»

Затверджено

на засіданні кафедри інформаційних систем та мереж

Протокол №01 від25.08.2016 р.

Львів-2016

Незалежні лінгвістичні випробування в тексті: Методичні вказівки до лабораторної роботи №5 / Укл.: В.А. Висоцька, Т.В. Шестакевич. – Львів: Видавництво Національного університету ”Львівська політехніка”, 2016. – 16 с.

Укладачі               Висоцька В.А., к.т.н., доцент

                                Шестакевич Т.В., асистент

Відповідальний за випуск      Литвин В.В., д.т.н., професор.

Рецензенти       Берко А.Ю., д.т.н., професор.

                                Чирун Л.В., к.т.н, доцент.

         


1                     ТЕОРЕТИЧНІ ВІДОМОСТІ

  1. Повторення незалежних випробувань у тексті

При дослідженні механізмів породження тексту результати окремого лінгвістичного випробування не мають великого значення. Вивчення взаємодії системи, норми та ситуації експлікується за допомогою моделей теорії ймовірностей, які передбачають здійснення масового експерименту, при якому одна і та сама лінгвістична подія повторюється багато разів. Ці випробування, що повторюються, утворюють серії, в кожній з яких  подія з’являється або не з’являється певну кількість разів.

Вибір тої чи іншої моделі опису тексту залежить від побудови ймовірнісно-лінгвістичного випробування і, зокрема, від того, як організовано вибір з тексту окремих його одиниць.

  1. Повторна і безповторна вибірки

Розглянемо такий елементарний приклад. Нехай з тексту взято N фонем, серед яких n голосних та m приголосних, і кожна з фонем записана на окрему картку; картки покладені в урну і перемішані. Випробування, які полягають у витяганні з урни однієї картки, можуть здійснюватись за двома схемами.

За умовами першої схеми кожна вийнята картка повертається до урни, після того як у протоколі фіксується результат кожного випробування. При кожному наступному випробуванні ймовірності появи голосної чи приголосної залишаються незмінними. (Ці ймовірності відповідно дорівнюють n/N та m/N.) Ймовірнісно-лінгвістичний експеримент, який оперує з наслідками взаємно незалежних випробувань, у кожному з яких лінгвістичні події зберігають свої безумовні ймовірності, називається повторною вибіркою.

При реалізації другої схеми взяті з урни картки не повертаються. Ймовірність появи голосної чи приголосної у кожному наступному випробуванні залежить від результатів попередніх випробувань. Таким чином, ми маємо справу з залежними випробуваннями, а ймовірність результату кожного з випробувань є умовною. Експеримент, який оперує з послідовністю залежних випробувань, у кожному з яких результати мають умовні ймовірності, називається безповторною (або без повернень) вибіркою.

Реальний ймовірнісно-лінгвістичний експеримент може бути здійснений як за допомогою повторної, так і за допомогою безповторної вибірки.

2                     ТРИ СХЕМИ НЕЗАЛЕЖНИХ ЛІНГВІСТИЧНИХ ВИПРОБУВАНЬ

Квантитативне мовознавство широко використовує метод серійного спостереження. Суть його полягає в тому, що лінгвістичні одиниці вибираються з тексту групами фіксованої довжини: наприклад, по десять фонем, по сто речень або словоформ тощо. Лінгвістичні одиниці, які утворюють серію, необов’язково повинні бути в тексті одна за одною, вони можуть вибиратись і через певний інтервал.

При розв’язуванні багатьох теоретичних та інженерно-лінгвістичних задач часто потрібно знати ймовірність появи тої чи іншої кількості певних лінгвістичних одиниць у серії.

Якщо лінгвістичні випробування, які утворюють серію, розглядаються як незалежні, то ми можемо здійснювати необхідне прогнозування за допомогою розроблених у теорії ймовірностей трьох систем незалежних випробувань: простої, поліноміальної та пуасонівської. 

 

(Для ознайомлення з повним текстом статті необхідно залогінитись)