Неактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зірка
 

 

Розділ 2. Ймовірнісне моделювання тексту та його складових

План викладення матеріалу

2.1. Види випробувань у тексті

2.1.1. Повторення незалежних випробувань у тексті

2.1.2. Вибірки без повторень та з повтореннями

2.2. Три схеми незалежних лінґвістичних випробувань

2.2.1. Проста схема незалежних випробувань. Формула Бернуллі

2.2.2. Поліноміальна схема

2.2.3. Пуасонівська схема

2.3. Лінґвістична вибірка без повторень та її опис за допомогою формули Бернуллі

2.4. Ймовірність появи події в заданому діапазоні кількості появ

2.5. Визначення необхідного обсягу вибірки

2.6. Метод контент-аналізу текстової інформації

2.7. Контрольні питання

2.8. Задачі для самостійної роботи

У загальній схемі квантитативної лінґвістики зв’язки між математичними викладками та цим розділом відображені на рис. 2.1.

Найважливіший стратегічний ресурс сучасного світового розвитку – інформація. Дослідження інформації – один із перспективніших напрямів наукових досліджень. Під час дослідження механізмів породження тексту результати окремого лінґвістичного випробування (наприклад, вибір з тексту окремих його одиниць) не мають важливого значення, тому необхідно організувати багаторазове проведення серії експериментів, коли одна і та ж лінґвістична подія повторюється багато разів. Від того, як побудоване ймовірнісно-лінґвістичне випробування та організовано вибір з тексту окремих його одиниць, залежить вибір тієї чи іншої моделі опису тексту. Ймовірнісне моделювання тексту та його складових є вступним, підготовчим етапом до опису функцій розподілу складів, словосполучень та граматичних класів в тексті [20, 42, 64, 119]. Вивчення функціонування мови і мовлення за допомогою ймовірнісного моделювання тексту спирається на моделі теорії ймовірності та комбінаторику. У лінґвістичних дослідженнях, і особливо під час реалізації алгоритмів машинного послівного перекладу й інформаційного пошуку [70], постійно виникають завдання, пов’язані з прогнозуванням появи в сеґменті заданої довжини певної кількості словоформ чи словосполучень, що належать до певних класів. Ймовірнісне моделювання тексту і складів, словосполучень, граматичних класів тощо дозволяє також визначати обсяг вибірки, необхідної для того, щоб забезпечити із заданою ймовірністю появу хоча б один раз відповідної лінґвістичної одиниці [46, с.61].

Для ілюстрації процесу ймовірнісного моделювання тексту розв’язують таке завдання. Для кількох стилів української мови знайти відносну частоту появи лінґвістичної одиниці (наприклад, іменника). Використовуючи отримані дані, обчислити ймовірність того, що серед навмання взятих кількох слів буде відповідна кількість (0,1,2,…) іменників. Знайти аналітично модальне значення, підтвердити результати графічно.

Одним із відомих методів аналізу інформації є контент-аналіз (від англ.: contents – зміст, вміст) – стандартна методика дослідження в області суспільних наук, предметом якої є аналіз змісту текстових масивів і продуктів комунікативної кореспонденції. Контент-аналіз – це кількісний аналіз текстів і текстових масивів з метою подальшої змістовної інтерпретації отриманих кількісних закономірностей. Контент-аналіз застосовують при дослідженні джерел, інваріантних за структурою або змістом, але які існують як не систематизований, безладно організований текстовою матеріал [11, 53, 109]. Метод контент-аналізу полягає в сходженні від різноманіття текстового матеріалу до абстрактної моделі змісту тексту. Виділяють два основні типи контент-аналізу: кількісний і якісний. Як свідчить багатий досвід, виграє той, хто має найширший, найповніший, необмежений доступ до джерел інформації. Управління без інформації – безглуздя, бо всім і завжди потрібна найповніша, своєчасна та цілеспрямована інформація для прийняття термінових рішень по конкретній, а не по будь-якій проблемі. Коли ж ці та інші вимоги не виконуються, рішення приймаються не найефективніші, з більшим ступенем ризику, що часто призводить до великих збитків.

 

(Для ознайомлення з повним текстом статті необхідно залогінитись)