Бук С. Н.

Основи статистичної лінгвістики: Навчально-методичний посібник / Відп. ред. проф. Ф.С. Бацевич.— Видавничий центр ЛНУ імені Івана Франка, 2008.—124 с.

У посібнику викладено основні поняття та категорійний апарат статистичної лінгвістики, представлено основні кількісні характеристики одиниць різних рівнів мови та мовлення, статистичну структуру тексту, розглянуто найважливіші проблеми стилеметрії, глоттохронології, авторської та часової атрибуції тексту.

Для студентів, аспірантів та викладачів мовознавчих спеціальностей.

Зміст

Вступ

І. Структура курсу

Статистична лінгвістика як галузь мовознавства
Розвиток та становлення статистичної лінгвістики як науки
Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка
Варіація, однорідність, залежності між явищами у вибірці, непараметричні методи дослідження
Статистична структура тексту. Частотні словники, їх типологія та проблеми укладання
Методика порівняння даних частотних словників. Лінгвостатистичні характеристики, закони, залежності
Лінгвометрія. Кількісні характеристики одиниць різних рівнів мови та мовлення
Частотність як критерій компресії словника. Мінімізовані словники
Глоттохронологія
Стилеметрія

II. Завдання для самостійної роботи

III. Інформація для допитливих

Дещо з Біблії

З історії виникнення стилеметрії

Мовний годинник

Формула визначення графоманії

Мінімізований словник та політика

Мінімізований словник та художня література

Кількісні характеристики одиниць мови

Дієслівні форми у розмежуванні стилів

Фонеми у розмежуванні стилів

Частотність відмінків

Розподіл довжини слова у слов'янських мовах

Слова яких частин мови найдовші?

Деяка статистика порядку слів у реченні

"Тихий Дон" — Шолохова?

Автоматичне визначення авторства твору

Словник Еллочки-людоїдки

IV. Частотні словники різних мов

V. Частотні словники та деякі інші типи словників письменницької лексикографії

VI. Схеми, таблиці

Критичні значення х²
Критичні значення критерію Стьюдента
Критичні значення коефіцієнта рангової кореляції Спірмена
Зразок сторінки частотного словника
Зразок сторінки оберненого (інверсійного) словника
Зразок сторінки словопокажчика
Зразок сторінки словника мови письменника
Зразок сторінки частотного словника мови письменника
Зразок сторінки словника-конкордансу
Кількісне співвідношення стилів у частотних словниках різних мов
Схема об'єднання словоформ під лемою для української мови (за матеріалами ЧС української мови)
Частоти голосних і приголосних у тексті
Частоти сонорних, дзвінких і глухих приголосних та їх оцінка
Частотність вживання букв української мови
Частотність вживання букв російської мови
Частотність вживання букв англійської мови
Ранги частин мови у різних стилях
Роль статистичних параметрів різних рівнів у розмежуванні стилів.
Відстані між стилями
Списки Сводеша

VII. Вимоги до оформлення тексту

VIII. Словник термінів

IX Питання для самоконтролю

Вступ

У лінгвістиці зламу ХХ-ХХІ століть особливо актуальні міждисциплінарні дослідження мови. Статистична лінгвістика є саме таким напрямком. Мова як складна система дискретних одиниць має окрім якісних (які є об'єктом вивчення таких нормативних курсів, як фонетика, дериватологія, лексикологія, синтаксис, теорія тексту, комунікативна лінгвістика тощо), ще й кількісні характеристики. Вони властиві усім рівням мовної системи, причому кількісні характеристики нижчого рівня можуть стати причиною якісних відмінностей на вищому рівні.

"Шлях дисципліни вглиб рано чи пізно наштовхується неминуче на обмеженість якісних методів, на безпорадність неточного способу вираження, на відсутність гіпотез, а також на відсутність теорії," — зауважив німецький лінгвіст Ґ. Альтманн, крім того: "Кожна достатньо розвинута наукова дисципліна рано чи пізно, принаймні, на певному етапі свого розвитку може опинитися на порозі математизації". Саме статистичні методики з комп'ютерною підтримкою відкривають нові шляхи для дослідження літератури та мови, а також мають величезний потенціал для вирішення багатьох теоретичних завдань лінгвістики і практичних завдань обробки текстових даних. Результати, виявлені методами статистичної лінгвістики, плідно застосовують у багатьох сферах сучасної науки: судовій та кримінальній лінгвістиці, лінгводидактиці, дешифруванні історичних писемностей, глоттохронології, стенографії, стилеметрії, комп'ютерних технологіях тощо.

Тому "Основи статистичної лінгвістики" є важливим курсом в системі освіти сучасного мовознавця, без нього складно уявити висококваліфікованого фахівця-лінгвіста. Цей курс сприяє переосмисленню академічного статусу лінгвістичних дисциплін і їх соціальної функції.

Є ще один, філософський, аспект вивчення пропонованого курсу. Той факт, що в явищах мови та мовлення можна виявити математичні закономірності, подібні до законів природничих наук, сам по собі є фундаментальним. Іншими словами, функціонування мови та мовлення підпорядковане законам, подібним до законів фізики, хімії, біології. Іх вивчення допоможе пізнати глибинні закономірності будови Всесвіту.

Курс "Основи статистичної лінгвістики" протягом кількох років апробовано на філологічному факультеті Львівського національного університету імені Івана Франка. Він пов'язаний з такими навчальними дисциплінами, як "Сучасна українська мова", "Стилістика", "Загальне мовознавство", "Основи комп'ютерної лінгвістики", "Лексикографія та корпусна лінгвістика". Знання з алгебри та інформатики потрібні в обсязі, що дає середня освіта.

Пропонований навчальний посібник складається з дев'яти розділів: І) опис десяти тем, до кожної з яких подано план, список основної та додаткової літератури, а також практичні завдання; II) завдання для самостійної роботи; III) інформація для допитливих; IV) перелік частотних словників різних мов; V) перелік частотних словників та деяких інших типів словників письменницької лексикографії; VI) схеми, таблиці; VII) вимоги до оформлення тексту; VIII) словник термінів; IX) питання для самоконтролю.

Літературу до курсу подано з урахуванням як вітчизняних, так і зарубіжних досліджень, а також ресурсів Інтернет.

У словнику термінів витлумачено основні поняття курсу "Основи статистичної лінгвістики", а також терміни з рекомендованої літератури, які можуть бути незрозумілими студентові. До кожного з реєстрових слів подано переклад англійською мовою.

Теоретичний матеріал проілюстровано прикладами вирішення конкретних лінгвістичних проблем. У практичній частині кожної теми завдання сформульовано так, щоби студент у результаті виконаної роботи сам уклав частотний словник в електронному вигляді і міг виявити основні статистичні характеристики і закономірності структури тексту. Сподіваємося, це сприятиме самостійній роботі з посібником, що особливо актуально, зважаючи на реорганізацію системи освіти в України.

Автор висловлює подяку науковому редакторові проф. Ф. Бацевичу за цінні коментарі, зауваження та конструктивні пропозиції, колегам з кафедри загального мовознавства за постійну підтримку і допомогу під час роботи над цим виданням, рецензентам Н. Андрейчук, Н. Коцибі, Е. Огар, О. Бугакову, а також літературному редакторові М. Коперсако і художнику В. Рогану.

І. Структура курсу

§1. Статистична лінгвістика як галузь мовознавства

І. Лекція

Динамічні та статистичні закони. Поняття про статистичний метод та статистику. Загальні риси статистичного методу в різних галузях знань.
Підстави застосування статистичних методів у мовознавстві.
Статистична лінгвістика як дисципліна, що вивчає кількісні закономірності природної мови. Об'єкт, предмет та основні поняття статистичної лінгвістики.
Співвідношення понять "статистична лінгвістика", "лінгвістична статистика", "математична лінгвістика", "квантитативна лінгвістика", "комбінаторна лінгвістика", "комп'ютерна лінгвістика", "обчислювальна лінгвістика", "стилеметрія", "лінгвометрія", "прикладна лінгвістика".
Зв'язок статистичної лінгвістики з математичними науками: математичною статистикою, теорією інформації, теорією ймовірності та ін.
Зв'язок статистичної лінгвістики з філологічними науками: фонетикою, морфемікою, лексикою, лексикографією, синтаксисом, теорією тексту.
Сфери застосування статистичних методів у мовознавстві.

У реальному світі є два типи законів: динамічні (вода замерзає при температурі 0°С, тіло падає на землю тощо) та статистичні, дію яких можна передбачити тільки в певних умовах, а результати коливаються біля якогось середнього значення (взимку падає сніг, але, з одного боку, сніг може випасти і восени, і навесні; або, з іншого, може бути зима без снігу). Статистичним законам підпорядковані явища природи, суспільного життя і мови (мовлення).

Статистичні закони різних сфер життя вивчає окрема наука — статистика. Проте риси статистичного методу в застосуванні до об'єктів різної природи на стільки специфічні, що було би безглуздо об'єднувати, наприклад, соціально-економічну, фізичну, астрономічну і т. п. статистику в одну науку. Загальні риси цього методу в різних сферах зводяться до підрахунку кількості об'єктів, що входять в ті чи інші групи; до розгляду розподілу кількостей, ознак; до застосування вибіркового методу (в тому випадку, якщо детальне дослідження всіх об'єктів великої сукупності ускладнене), до використання теорії ймовірності для оцінки достовірності результатів і т. п. Саме цей формальний математичний бік статистичних методів дослідження, незалежний від специфічної природи досліджуваних об'єктів, становить предмет математичної статистики. Отже, у статистиці вирізняють методи загальні, які можна застосовувати незалежно від об'єкта дослідження (їх вивчає математична статистика), а також специфічні для кожної дисципліни, які потребують адаптації залежно від об'єкта дослідження (наприклад, статистичні методи для соціальної економіки, фізики, астрономії, мовознавства і т. п.).

Науку, що займається виявленням та описом кількісних характеристик та закономірностей мови та мовлення, називають статистичною лінгвістикою (паралельно вживають назву лінгвістична статистика). Ця наука базується на факті, що певні кількісні характеристики, а також функціональні залежності між ними, отримані на обмеженій вибірці, характеризують мову загалом або окремі її функціональні стилі. Кількісна характеристика мовних фактів поряд з якісною характеристикою становить невід'ємну складову повного та різностороннього опису мови. Наприклад, для визначення функціонального навантаження певного слова у тексті певного твору, письменника, функціонального стилю тощо необхідні частотні характеристики цього слова.

Основні поняття статистичної лінгвістики: абсолютна та' відносна частотність вживання лінгвістичних одиниць (букв, фонем, складів, слів, речень), їх класів (голосних, приголосних, частин мови) і сполучень (буквосполучень, словосполучень); закон переваги, закон Ціпфа-Мандель-брота, закон Менцерата(-Альтманна).

Використання кількісних, статистичних методів у мовознавстві має об'єктивні підстави:

Мова та мовлення об'єктивно мають кількісні характеристики.
Наприклад, в українській мові — 6 голосних звуків, а кожен текст
складається з конкретної кількості речень, слів, морфем...
Кількісні характеристики мовної структури не просто взаємодіють з якісними, а й впливають на них. Скажімо, кількість фонем позначається на якості морфем, кількість морфем впливає на якість (вже не тільки звукову, а й на структурно-семантичну) слів.
Частоти різних елементів мови у мовленнєвому потоці підлягають певним ймовірнісно-статистичним законам. Наприклад, в українській мові мільйони слів, а в повсякденному житті пересічному українцеві вистачає всього 3-5 тис. слів для нормального спілкування. Тобто з великою ймовірністю й у нашій розмові трапляться саме ці найчастотніші 3-5 тис. слів. Аналогічні приклади можна навести також і з інших мовних рівнів.

Досить часто як синоніми вживають терміносполуки "статистична лінгвістика" ("лінгвістична статистика"), "математична лінгвістика", "квантитативна лінгвістика", "комбінаторна лінгвістика", "комп'ютерна лінгвістика", "обчислювальна лінгвістика", "лінгвометрія", "стилеметрія". Проте в науковій літературі їх потрібно розрізняти.

Найширшим із перелічених є поняття прикладна лінгвістика — галузь мовознавства, що займається розробкою методів вирішення практичних завдань, пов'язаних з використанням мови. її складовими є комп'ютерна та корпусна, математична, комунікативна лінгвістика, лінгводидактика (викладання іноземної мови), створення писемностей для безписемних мов, систем письма для сліпих, термінознавство і т. д.

Із появою перших обчислювальних машин та зі швидким зростанням кількості інформації виникла необхідність швидше обробляти тексти, зокрема, автоматично їх перекладати, здійснювати інформаційний пошук. Це було неможливо без залучення математичних наук. У 50-х рр. XX ст. на стику математики та мовознавства виникла математична лінгвістика — наука, що розробляє формальний апарат для опису будови та функціонування природної та деяких штучних мов, вивчає аналітичні моделі мови, в яких на основі тих чи інших даних про мовлення здійснюються формальні побудови, що дають певну інформацію про структуру мови. Умовно в ній виділяють два розділи:

центральний — комбінаторна лінгвістика — вивчає та описує лінгвістичні явища за допомогою методів "некількісної математики" (теорія множин, математична логіка, теорія алгоритмів та ін.). Розділи: теорія формальних граматик, теорія алгоритмів, теорія автоматів, теорія категоріальних (розпізнавальних) граматик.
квантитативна лінгвістика (паралельно функціонують терміносполуки обчислювальна лінгвістика, лінгвометрія) вивчає та описує лінгвістичні явища за допомогою методів "кількісної математики" (теорія ймовірності, математична статистика, теорія інформації та ін.). Особливим її розділом є статистична лінгвістика.

Стилеметрія — галузь статистичної лінгвістики, що виявляє та аналізує кількісні характеристики певного функціонального стилю мови чи мовлення певних письменників (див. детальніше §10).

Комп'ютерна лінгвістика (КЛ) займається застосуванням комп'ютера для моделювання функціонування мови в певних умовах, а також використанням комп'ютера (технологій та програм обробки даних) для вирішення лінгвістичних завдань. Оскільки в англійській мові, з якої перекладено цю терміносполуку (соглриіаііопаї 1іп§иІ5Ііс8), сотриіаііопаї може мати значення "обчислювальний", то у спеціальній літературі трапляється термін "обчислювальна лінгвістика", проте у вітчизняній науці він набуває вужчого значення, наближеного до поняття "квантитативналінгвістика". Також інколи з подібним значенням вживають термін "інженерна лінгвістика".

У широкому розумінні до КЛ відносять все, що пов'язане з використанням комп'ютерів у мовознавстві. У вужчому значенні КЛ займається моделюванням спілкування-взаємодії людини з комп'ютером (за допомогою спеціально розроблених систем обробки природної мови), комп'ютерним перекладом, а також теорією та практикою інформаційно-пошукових систем.

Оскільки предметом дослідження статистичної лінгвістики є виявлення та опис кількісних характеристик та закономірностей мови та мовлення на різних рівнях (фонетичному, морфологічному, словотвірному, лексичному, синтаксичному, а також на рівні всього тексту), то вона тісно пов'язана з такими мовознавчими дисциплінами, як фонетика та фонологія, морфеміка та словотвір, морфологія, лексика та лексикологія, синтаксис, стилістика тощо.

Методи статистичної лінгвістики широко застосовують з різною мстою у багатьох сферах. Наприклад, для виявлення особливостей функціональних стилів мови та особливостей стилю окремих авторів, у лінгво-дидактиці (наприклад, у доборі слів для вивчення іноземної мови), у дешифруванні історичних писемностей, у глотохронології, у вирішенні завдань стенографії. Особливо важливими вони є для розвитку автоматичного опрацювання тексту (автоматичного зняття полісемії, реферування та індексування), авторської та часової атрибуції твору.

Методи статистичної лінгвістики також використовують для лінгвістичного моніторингу функціонування мови у конкретному типі дискурсу (політичному, науковому, засобів масової інформації тощо), для контент-аналізу (виявлення стану суспільної свідомості). Предметом моніторингу можуть бути типи мовних помилок, сфера іншомовних запозичень, нові слова та значення, нові метафори, тематичний розподіл лексики (наприклад, лексика часових та просторових відношень, лексика на позначення почуттів та емоцій ...), особливості використання в текстах певних граматичних форм чи синтаксичних конструкцій.

Основна література

Альтман Ґ. Мода та істина в лінгвістиці // Проблеми квантитативної лінгвістики.— Чернівці: Рута, 2005.— С. 3-11.
Вместо введення. Основания и условия вероятностно-статистического изучения языка и речи // Головин Б. Н. Язык и статистика.— М.: Наука, 1971.—С. 3-18.
Перебийніс В. С. Статистичні методи для лінгвістів: Навчальний посібник.— Вінниця: "Нова книга", 2002.— С. 3-8.
Гладкий А. В. Математическая лингвистика // Лингвистический энцикло-педический словарь / ред. Н. Л. Ярцева.— М.: Советская энциклопедия, 1990.—С. 287-289.
Количественно-вероятностный характер языка // Алефиренко Н. Ф. Современные проблемы науки о языке: Учебное пособие.— М.: Флинта: Наука, 2005.— С. 382-384.
Перебийніс В. С. Математична лінгвістика // Українська мова: Енциклопедія / Редкол.: В. М. Русанівський та інші.— К.: Українська енциклопедія, 2000,— С. 302-287.
Перебийніс В. С. Теоретичні та прикладні проблеми структурно-математичної лінгвістики // Мовознавство.— 1981.— № 4.
Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения; Основные области приложения струкурно-вероятностной модели языка // Баранов А. Н. Введение в прикладную лигвистику: Учебное пособие. — М.: Эдиториал УРСР, 2001.— С. 38-43.
Шайкевич А. Я. Количественные методы в языкознании // Лингвистический энциклопедический словарь / ред. Н. Л. Ярцева.— М.: Советская энциклопедия, 1990.— С. 231-232.
Шайкевич А. Я. Лингвистическая статистика // Лингвистический энциклопедический словарь / ред. Н. Л. Ярцева.— М.: Советская энциклопедия, 1990,— С. 269.
Щербина Ю. М. Предмет математичної лінгвістики // Вісник НУ 'Львівська політехніка".— Інформаційні системи та мережі.— 2002.— № 464.— С. 340-349.

Додаткова література

Арапов М. В. Квантитативная лингвистика.— М.: Наука, 1988.
Квантитативний аспект [обоснования квантитативно-системного подхода к изучению лексики] // ТулдаваЮ. П. Проблемы и методы квантитативно-системного исследования лексики / Отв. ред. Р. Пиотровский.— Таллин Валгус, 1987.—С. 15-18.
Левицкий В. В. Статистическое изучение лексической семантики.— К.: УМК ВО,— 1989.— С. 69-81.
Лесохин М. М., Лукьяненков К. Ф., Пиотровский Р. Г Введение в мате-матическую лингвистику.— Минск: Наука и техника, 1982.— 263 с.
Метод глоттохронологии (і наступні розділи) // Кондратов А. Звуки и знаки.— М.: Знание, 1966.— С. 99-107.
Носенко И. А. Начала статистики для лингвистов.— М.: Высшая школа, 1981.— 157 с.
Пиотровский Р. Г. Инженерная лингвистика и теория языка.— Л.: Наука, 1979.— 112 с.
Пиотровский Р. Г, Бектаев К. Б., Пиотровская А. А. Математическая лингвистика: Учебное пособие.— М.: Высшая школа, 1977. — 384 с.
Роль статистических методов в развитии автоматического реферирования и автоматического индексирования // Использование ЭВМ в лингвистических исследованиях.— К.: Наукова думка, 1990.— С. 37-42.
Требования к применению статистических методов // Использование ЭВМ в лингвистических исследованиях.— К.: Наукова думка, 1990.— С. 31-34.
Фрумкииа Р. М. Статистические методы изучения лексики.— М.: Наука, 1964.— 115 с.
Шрейдер Ю. А. О понятиии "математическая модель языка".— М.: Знание, 1971.— 63 с.

II. Практичне завдання

Опрацюйте зі Словника термінів, поданого у кінці посібника (далі — Словник термінів), тлумачення таких понять: "статистична лінгвістика", "лінгвістична статистика", "математична лінгвістика", "квантитативна лінгвістика", "комбінаторна лінгвістика", "комп'ютерна лінгвістика", "обчислювальна лінгвістика", "прикладна лінгвістика", "статистичний метод". Спробуйте схематично зобразити (родо-видові) відношення між ними.
Чи тотожні поняття "статистична лінгвістика", "лінгвістична статистика", "статистичні методи у мовознавстві"? Чому? Як ви це розумієте?
Що таке, за Ґ. Альтманном, мода в науці? Наведіть приклади моди в лінгвістиці. Чи "математизацію мовознавства" можна назвати модою? Чому?
Які етапи розвитку будь-якої дисципліни називає Ґ. Альтманн? На якому етапі, на вашу думку, перебуває статистична лінгвістика?
Яка різниця між детермінативними та статистичними законами, що діють у природі (за В. Перебийніс)? Якому з них підпорядкована мова? Наведіть приклади.
Які умови успішного застосування статистики у мовознавстві виділяє Б. Головін? У чому вони полягають? Які ще вимоги для успішного застосування статистики у мовознавстві вам відомі?
Переведіть текст (на вибір) обсягом 10 сторінок в електронну форму. Користуйтеся Вимогами до оформлення тексту.

§2. Розвиток та становлення статистичної лінгвістики як науки

І. Лекція

Початки кількісного дослідження тексту в античні часи.
Створення повних списків (у тому числі й частотних) слів Біблії для узгодження її різних текстів у Середні віки.
Застосування статистичних мовних даних для вдосконалення різних кодових систем, зокрема, стенографії.
Створення частотних словників для раціоналізації навчання іноземної мови наприкінці ХІХ-поч. XX ст.
Розкодування текстів та ламання шифрів (II Світова війна).
"Вибух" статистичних досліджень з появою комп'ютерів.
Сучасний стан статистичних досліджень у світовому мовознавстві.
Сучасний стан статистичних досліджень в українському мовознавстві.

Статистична лінгвістика виокремилася порівняно недавно, однак кількісні та статистичні методи до мови та мовлення застосовували тисячі років тому. Ще в античному світі (IIIст. до н. є.) для творчості Гомсра александрійські граматики підраховували слова для визначення тих, які трапляться всього один раз протягом усього твору. Це робили, звичайно, вручну, а не автоматично, як тепер.

Середньовіччя (У-ХУ ст.) відоме особливою увагою до сакральних текстів, зокрема, Біблії. Із метою узгодження різних текстів та перекладів Святого Письма ерудити укладали повні списки його слів зі всіма випадками їх використання у конкретному тексті.

У XVII ст. з'явилася праця, що аналізує розподіл слів у грецькому перекладі Нового Заповіту методом, який майже не відрізняється від сучасного.

У XIX ст. укладають латинські та грецькі словопокажчики, а також за допомогою до статистичної лінгвістики звертається стенографія — швидкий дослівний запис усного мовлення за допомогою системи спеціальних умовних знаків, а також' шляхом скорочення найчастотніших буквосполучень, слів, словосполучень, виразів. Одним з перших випадків стенографії вважають т. зв. Тіронські ноти, якими вільновідпущеник Тірон записував промови римського оратора Ціцерона.

Для вдосконалення системи стенографії первісно був призначений і частотний словник німецької мови Кедінга (його уклали на матеріалі 11 млн. слів 6 000 співробітників), виданий у Берліні 1898 р. А 1916 р. опубліковані "стенографічні гами" Ж. Есту, в яких встановлено винятково важливу залежність між частотою слова та його рангом.

Новим поштовхом до розвитку статистичної лінгвістики стало зростання популярності вивчення іноземних мов у середині ХІХ-поч. XX ст. Педагоги-лінгводидакти зрозуміли, що повністю оволодіти мовою за декілька років при декількох годинах занять на тиждень неможливо, тому вирішили обмежити словник найбільш частотними словами. Вирішення цієї проблеми зумовило появу багатьох словників основної лексики спочатку для англійської, а згодом і для німецької, французької та інших мов. Р. Елрідж, керівник невеликої фабрики, за 2 роки опрацював 250 статей загальною довжиною 44 000 слововживань і 1911 р. видав "Шість тисяч загальновживаних англійських слів" для своїх робітників-емігрантів, що вивчають англійську мову. У 1920 р. Кеністон уперше вказав на те, що важливість слова пов'язана не лише із його частотністю, а й з тим, наскільки вживання слова пов'язане із певним колом текстів, тобто в якому із функціональних стилів воно трапляється.

У 1928 р. побачив світ "Німецький частотний словник" (GermanfrequencyWordBook) Моргала, роком пізніше — "Німецький словник ідіом" (А GermanIdiomList) Хауха, у цьому руслі також працювали науковці Пфеффер та Веґлер. Також з'явився "Порівняльний частотний словник першої тисячі слів англійської, французької, німецької та іспанської мов" (ComparativeFrequencylistontheFirstThousandwordsinEnglish, French, GermanandSpanish) Ітона, де наведено 1000 найчастотніших слів названих чотирьох європейських мов.

Увійшов в історію англійський мовознавець та педагог Палмер, що відібрав три тисячі слів, які дають змогу розуміти 95% тексту.

Під час воєн зростає потреба передати інформацію так, щоб її не міг зрозуміти противник. Тому посилилася увага до криптографії — науки про зашифровування та розшифрування повідомлень, "ламання кодів".

Справжній "вибух" статистичних досліджень відбувся з появою комп'ютерів. Вони уможливили максимальне спрощення механічної роботи, такої, наприклад, як карткування. Якщо раніше для обчислення кількості слововживань у тексті їх треба було рахувати "вручну", то зараз, перевівши текст в електронний вигляд, наприклад, за допомогою програми MicrosoftWord ці дані можна отримати автоматично (опція файл / властивості / статистика / слова). Також використовують комп'ютерні програми автоматичної лематизації (зведення словоформ до початкової форми), можливості автоматичного сортування та пошуку слів, їх частин тощо.

Сьогодні лінгвостатистичні дослідження здійснюють у кожній країні з добре розвинутим мовознавством: Німеччині, Австрії, США, Австралії, Чехії, Словаччині, Польщі, Росії тощо. Функціонують міжнародні товариства та журнали: IQLA (InternationalQuantitativeLinguisticsAssociation), .JournalofQuantitativeLinguistics, серія "QuantitativeLinguistics".

Суттєвий внесок у розвиток цієї галузі мовознавства зробили GabrielAltmann, ReinhardKöhler (Німеччина), PeterGrzybek (Австрія), GeizaWimmer (Словаччина), AdamPawłowski, JadwigaSambor (Польща), Валентина Перебийніс, Наталія Дарчук (Україна), Юхан Тулдава (Естонія), Раймунд Пиотровский (Росія) та ін.

Лінгвостатистичні дослідження в Україні почалися з 50-х рр. XX ст. Спочатку вони стосувалися відбору лексичного мінімуму іноземних мов, згодом сфера їх застосування значно розширилася. Зокрема, 1963 р. в Інституті мовознавства ім. О. О. Потебні АН УРСР організовано групу структурно-математичної лінгвістики, яка започаткувала планомірне статистичне дослідження українських текстів художнього, науково-технічного та соціально-політичного функціональних стилів, зокрема, виявлено їхні статистичні параметри. Результатом цього стилеметричного дослідження стали зокрема монографії та збірники "Статистичні та структурні лінгвістичні моделі" (К, 1966), "Статистичні пераметри стилів" (К., 1967). Перебийніс В. С. "Кількісні та якісні характеристики фонем сучасної української літературної мови" (К., 1970), "Структура мови та статистика мовлення" (К., 1974).

Досягнення наступного проекту — опис сполучуваності англійських іменників, прикметників та дієслів, у реалізації якого брали участь викладачі 42 вищих навчальних закладів колишнього Радянського Союзу — опубліковано в "Довіднику найбільш уживаних англійських словосполучень" за редакцією В. Перебийніс (М, 1986). Системні функціональні характеристики словозмінної парадигми англійського дієслова, описані мовознавцями, доступні як в паперовому ("Методичні рекомендації з вивчення системних і функціональних характеристик словозмінних форм англійського дієслова", К., 1993), так і в електронному вигляді ("Englishconjugation: SystemandFunctioning". СD-RОМ, 2004).

Ще один великий проект, розпочатий ще у 60-х рр. XX ст. — укладання серії частотних словників: художньої прози, драми, поезії, публіцистики, наукової прози — триває; зокрема, залучено лабораторію комп'ютерної лінгвістики Київського національного університету імені Тараса Шевченка.

Центрами лінгвостатистичних досліджень, окрім названих, також можна вважати Київський національний лінгвістичний університет, Чернівецький університет імені Юрія Федьковича, Львівський національний університет імені Івана Франка, Національний університет «Львівська політехніка» та ін.

Основна література

Введение // Носенко И.А. Начала статистики для лингвистов.— М.: Высшая школа, 1981.— С. 4-9.
Из истории частотных словарей // Фрумкина Р. М. Статистические методы изучения лексики.— М.: Наука, 1964.— С. 5-8.
Математическая лингвистика // Кондратов А. Звуки и знаки.— М ■ Знание, 1966.— С. 94-95.
Мишва Р. Словари основной лексики // Методика преподавания иностранных языков за рубежем [Сб. статей].— М.: Прогресе, 1967 — С 286-288.
Муравицька М. П. Статистичні лігвістичні дослідження та їх розвиток в українському мовознавстві // Мовознавство.— 1967.— № 5. С. 47-58.
Основні проблеми структурних і статистичних досліджень мови і мовлення // Розвиток мовознавства в УРСР 1967-1977. — К.: Наукова думка, 1980.—С. 177-185.
Перебейнос В. Широкомасштабные лингвостатистические исследования в Украине // Проблеми квантитативної лінгвістики.— Чернівці: Рута, 2005.—С. 89-99.
Числа на службе лингвистики // Кондратов А. Звуки и знаки.— М.: Знание, 1966.—С. 89-90.

Додаткова література

Бардина Н. В. Сучасні проблеми прикладної лінгвістики // Мова.— 2004.—№9.—С. 5-14.
Засорина А. Н. Автоматизация и статистика в лексикографии (работа над частотным сл. рус. яз.).— Изд-во ЛГУ, 1966.— 127 с.
Послесловие // Головин Б. Н. Язык и статистика.— М: Наука, 1971.— С. 167-173.
Розвиток структурно-математичної лінгвістики // Мовознавство на Україні за п'ятдесят років.— К.: Наукова думка, 1967.— С. 403-410.
Хойпель К. Частотность и структуры в современной теории преподавания иностранных языков // Методика преподавания иностранных языков за рубежем [Сб. статей].— М.: Прогресс, 1967.— С. 330-332.
Foreword // LeechG., Raygon Р., Wilson А. WordFrequencyinWrittenandSpokenEnglish. BasedtheBritishNationalCorpus.— PearsonEducationalLtd.,2001.—Р.ІХ-ХІІ.
Foreword// ParteeB. Н., Aliceter М., WallR. Е. MathematicalMethods inLinguistics.— Dordrecht; Boston; Londo: KiuwerAcademicPublishers, 1990 —Р. ІХ-ХШ.

II. Практичне завдання

Які етапи можна виділити в розвитку лінгвостатистики? Відповідь супроводжуйте прикладами.
Назвіть відомі вам лінгвостатистичні проекти, що виконувалися в Україні.
Які найбільші центри лінгвостатистичних досліджень в Україні ви знаєте?
Поясніть, чому "вибух" статистичних досліджень пов'язують із появою комп'ютерів?
Перевірте текст одногрупника на предмет відповідності Вимогам до оформлення тексту, звірте його з оригіналом.

§3. Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка

І. Лекція

Поняття генеральної сукупності. Поняття вибірки та підвибірки. Правила організації вибірки, її різновиди. Правила організації механічної, випадкової, зональної вибірок.
Лінгвістична однорідність вибірки (хронологічна, жанрова, тематична).
Поняття частотності. Абсолютна й відносна частота.
Середня частота. Середнє квадратичне відхилення. Міра коливання середньої частоти. Стандартна похибка відхилення середньої.
Розподіл одиниць у вибірці. Рівномірність розподілу. Коефіцієнт розповсюдженості.
Поняття відносної неточності статистичного дослідження. Відносна похибка.

У сучасному мовознавстві домінує чітка тенденція: досліджувати мовний та мовленнєвий матеріал на репрезентативному масиві текстів. Однорідний масив (корпус) певних одиниць, які потрібно обстежити, називають генеральною сукупністю (ГС). Обсяг і характер ГС залежать від задань дослідження. Наприклад, якщо досліджують особливості стилю Івана Франка, то ГС — усі його твори. Якщо досліджують українську мову XX ст., то ГС — усі тексти (мовлені та писані) XX ст. Межі останньої важко виявити точно, а все усне мовлення просто неможливо дослідити. У подібних випадках, коли суцільне обстеження ГС неможливе, роблять вибірку.

Вибірка — це певна кількість матеріалу, на підставі дослідження якого можна зробити правильні висновки про всю ГС. Основні вимоги до вибірки: репрезентативність та однорідність.

Щоби бути репрезентативною, вибірка повинна 1) рівномірно розподілятися по ГС та 2) мати достатньо великий обсяг, якого вистачає для правильних висновків про ГС.

Розрізняють два типи однорідності вибірки: лінгвістична та статистична.

У межах лінгвістичної однорідності вибірки виділяють:

хронологічну (тексти вибірки повинні мати хронологічні межі);
жанрову (тексти вибірки повинні бути жанрово обмежені);
тематичну (тексти повинні бути тематично обмежені)

Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку, яка суттєво між собою не відрізняється. Якщо середня частота явища (літери, морфеми, слова, довжини слова, довжини речення і т. д.) в одній вибірці суттєво не відрізняється від його частоти в інших вибірках, то ці вибірки статистично однорідні стосовно цього явища.

За способом організації виділяють такі різновиди вибірок:

механічна — організована з урахуванням рівномірності розподілу досліджуваної одиниці по генеральній сукупності. Всі тексти генеральної сукупності перенумеровують, а потім, наприклад, з кожного п'ятого, десятого, двадцятого тексту вибирають відрізок необхідної довжини.
випадкова — організована шляхом випадкового вибору текстів з ГС. В основі такого методу організації вибірки лежить гіпотеза про те, що досить велика кількість навздогад відібраних одиниць з ГС повинна адекватно її представляти. Тож кожна сторінка, розділ чи інша одиниця тексту ГС повинні мати однаковий шанс потрапити до вибірки. Тому, як правило, випадкова вибірка грунтується на таблиці випадкових чисел.
зональна (типова) — організована на основі лінгвістично однорідної сукупності текстів, тобто зони. Зоною залежно від мети дослідження вважають прозу, поезію та драму в художній літературі; твори одного автора або конкретний твір; сукупність слів певної морфемної структури (наприклад, префіксальних або одноморфемних) тощо.

Вибірка може бути структурною, тобто складатися із менших частин, які називають підвибірками. та неструктурною, тобто суцільною.

Одним з найосновніших понять статистичної лінгвістики є частота досліджуваної одиниці. Абсолютна частота — це кількість вживань певної одиниці (літери, слова, словоформи, словосполучення, речення тощо) в обстеженому матеріалі. Відносна частота — відношення абсолютної частоти певної одиниці у вибірці до обсягу вибірки. Вимірюється у відсотках (%) або в частках 1 (наприклад, 25% або 0,25). Так, у реченні Говорили око в око абсолютна частота слова око — 2, а відносна — 2/4 = 0,25 або 25%.

Проте в різних нідвибірках частота одиниці звичайно неоднакова. У таких випадках потрібно оперувати середньою частотою. Це відношення суми абсолютних частот певної одиниці у підвибірках до кількості підвибірок. Наприклад, якщо утрьох підвибірках, з яких складається вибірка, слово "яскраво" має абсолютні частоти 4, 6 і 8, то його середня частота у вибірці буде (4 + 6 + 8) / 3 = 6. Якщо середня частота більша за одиницю, то доцільно її рахувати з точністю до сотих (два знаки після коми), якщо менша за одиницю, то її треба рахувати до другого знака після коми або до третього знака, якщо після коми йде нуль.

Для перегляду тексту необхідно залогінитись.

Ім'я:	*
Ім'я користувача:	*
Пароль:	*
Підтвердження пароля:	*
Електронна пошта:	*
Підтвердити адресу електронної пошти:	*
Captcha:	*

Бук С. Н. Основи статистичної лінгвістики (2008 р.)

Зміст

Вступ

І. Структура курсу

§1. Статистична лінгвістика як галузь мовознавства

І. Лекція

§2. Розвиток та становлення статистичної лінгвістики як науки

І. Лекція

§3. Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка

Останні новини

Відвідувачі

Зараз на сайті