АВТОМАТИЧНЕ ВИЗНАЧЕННЯ КЛЮЧОВИХ СЛІВ. ЗАКОН ЗІПФА – ВІДМІННОСТІ ЗАСТОСУВАННЯ ДЛЯ СЛОВ’ЯНСЬКИХ ТА ГЕРМАНСЬКИХ МОВ
МЕТОДИЧНІ ВКАЗІВКИ
до лабораторної роботи № 1
з дисципліни «Методи опрацювання природної мови»
для магістрів галузі знань 12 «Інформаційні технології»
спеціальності 122 «Комп’ютерні науки та інформаційні технології»
спеціалізації «Системи штучного інтелекту»
Затверджено
на засіданні кафедри інформаційних систем та мереж
Протокол №01 від25.08.2016 р.
Львів-2016
Автоматичне визначення ключових слів. Закон Зіпфа – відмінності застосування для слов’янських та германських мов: Методичні вказівки до лабораторної роботи № 1 / Укл.: В.А. Висоцька, Т.В. Шестакевич. – Львів: Видавництво Національного університету ”Львівська політехніка”, 2016. – 19 с.
Укладачі Висоцька В.А., к.т.н., доцент
Шестакевич Т.В., асистент
Відповідальний за випуск Литвин В.В., д.т.н., професор.
Рецензенти Берко А.Ю., д.т.н., професор.
Чирун Л.В., к.т.н, доцент.
ЗМІСТ
Вступ
1 ТЕОРЕТИЧНІ ВІДОМОСТІ
1.1 Статистика в текстах: закони Ципфа
1.2 Перший закон Ципфа («ранг - частота»)
1.3 Другий закон Ципфа («кількість - частота»)
1.4 Глобальна статистика, модель TF * IDF
1.5 Експериментальна оцінка статистичного аналізу тексту за моделлю TF * IDF
1.6 Відмінності застосування закону Ципфа для слов’янських та германських мов
2 ЗАВДАННЯ
3 ЛІТЕРАТУРА
4 ВИМОГИ ДО ЛАБОРАТОРНОЇ РОБОТИ
НАВЧАЛЬНЕ ВИДАННЯ
Мета роботи: В даній роботі зроблений огляд типових задач аналізу приромовних текстів для автоматичного визначення ключових слів. Досліджено закон Зіпфа – відмінності застосування для слов’янських та германських мов.
Вступ
Для вирішення завдань класифікації текстів, документи в безпосередньому вигляді не підходять для інтерпретації класифікатором. Тому необхідно застосування процедури індексації, яка перекладає текст в зручне представлення. Зокрема стандартні методи класифікації, такі як нейронні мережі та дерева рішень, вимагають подання документа у вигляді вектора з n зважених ознак. Побудова такого вектора називається виділенням ознак, а саме подання векторної моделлю документа. Відмінності в підходах полягають:
1) у розумінні, що таке термін;
2) у способах визначення ваги терміна.
Зазвичай ознаками відповідають всі або деякі окремо взяті слова документа. У ряді експериментів було виявлено, що трохи навіть більш складне уявлення менш ефективно. Зокрема, деякі автори пробували використовувати групи слів (стилістичні, синтаксичні) в якості ознак. Д.Д. Льюїс [5] досить переконливо стверджує, що, швидше за все, причиною невтішних результатів є те, що методи індексування на основі фраз мають гірші статистичними характеристиками по відношенню до методів на основі одиночних слів, хоча їх семантичні якості набагато вище. Одним з найпоширеніших методів переходу до математичної моделі документа, є «метод ключових слів». Ключове слово - слово в тексті, здатне в сукупності з іншими ключовими словами представляти текст. Суть методу в наступному. Для кожного класу текстів створюється список характерних для нього слів, тоді кожен текст можна представити у вигляді вектора частот появу в ньому слів з даного списку [9]. Виникає проблема пошуку і виділення з тексту слів, які будуть для нього ключовими. Величезний обсяг інформації, який підлягає обробці, роблять особливо актуальним завдання автоматичного виділення ключових слів. Причому від чистоти цього виділення безпосередньо залежить точність класифікації.
Метою роботи є розглянути методи відділення ключових слів у текстових документах. У роботі, в основному, зачіпаються статистичні методи, засновані на законах Ципфа, а також модель TF * IDF. В експериментальному розділі описується модуль, заснований на моделі TF * IDF, наведено оцінку його можливостей для виділення ключових слів з колекції документів.
1 ТЕОРЕТИЧНІ ВІДОМОСТІ
- 1Статистика в текстах: закони Ципфа
У всіх текстових документах, створених людиною, можна виділити статистичні закономірності. У будь-якій мові є слова, які зустрічаються частіше, ніж інші, але не мають значення. Є слова, які зустрічаються рідше, але мають набагато більше смислове значення.
У 1949 році Джордж Ципфа (George Kingsley Zipf) гарвардський професор-лінгвіст і філолог, працюючи над принципом найменшого зусилля, сформулював кілька закономірностей. Дані закони отримані не на основі математичних висновків, а на основі аналізу статистики частоти слів текстах на багатьох мовах, тобто емпірично.
У той час, коли Ципфа сформулював помічені ним закономірності розподілу частоти слів, законом вони не вважалися - ще не було комп'ютерів і не можна було провести точні розрахунки, що підтверджують виявлені закономірності. У подальшому були проведені численні дослідження, які підтвердили і уточнили помічені закономірності. Також провідну роль в обгрунтуванні законів зіграли роботи Б. Мандельброта.
Зокрема Ципфа поклав, що слова з великою кількістю букв зустрічаються в тексті рідше коротких слів. Грунтуючись на цьому постулаті, Ципфа вивів два універсальних закону.
(Для ознайомлення з повним текстом статті необхідно залогінитись)