Бісікало О.В. Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів / О.В. Бісікало, В.А. Висоцька // Науковий журнал «Радіоелектроніка. Інформатика. Управління.». – № 1(36). – Запоріжжя: ЗНТУ. – 2016/1. – С. 74-83. – ISSN 1607-3274 (print), ISSN 2313-688X (on-line). – http://ric.zntu.edu.ua,  http://ric.zntu.edu.ua/issue/view/3983,  http://ric.zntu.edu.ua/article/view/66664/61936.

Бісікало О. В.1, Висоцька В. А.2
1Д-р техн. наук, професор, декан факультету комп’ютерних систем і автоматики Вінницького національного технічного університету, Вінниця, Україна
2Канд. техн. наук, доцент кафедри «Інформаційні системи та мережі» Національного університету «Львівська політехніка», Львів, Україна

ВИЯВЛЕННЯ КЛЮЧОВИХ СЛІВ НА ОСНОВІ МЕТОДУ КОНТЕНТ-МОНІТОРИНГУ УКРАЇНОМОВНИХ ТЕКСТІВ

(c) 2016 O. V. Bisikalo, V. A. Vysotska, 2016

Вирішено завдання розробки алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі визначення ключових слів україномовного тексту. Розглянуто формальне обґрунтування методу контент-моніторінгу тексту за допомогою стеммера Портера, в основу модифікації стемінгу покладено відомі результати класифікації морфемної і словотвірної структури дериватів української мови, виявлення закономірностей комбінаторики афіксів, моделювання структурної організації дієслів і суфіксальних іменників, а також морфонологічних модифікацій у процесі словозміни дієслова та словозміні і словотворенні прикметників української мови. Проведено декомпозицію методу та розроблено алгоритмічне забезпечення його основних структурних складових за результатами контент-аналізу тексту. Теоретично виявлено способи покращення показників ефективності пошуку ключових слів, зокрема щільності ключовиків у тексті. На основі розробленого програмного забезпечення отримано результати експериментальної апробації запропонованого методу контент-моніторінгу для визначення ключових слів в наукових текстах технічного
профілю. Виявлено, що для обраної експериментальної бази зі 100 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації і без списку літератури, але із перевіркою уточнених заблокованих слів та уточненого тематичного словника.

Ключові слова: текст, україномовний, алгоритм, контент-моніторінг, ключові слова, контент-аналіз, стеммер Портера, лінгвістичний аналіз, синтаксичний аналіз.

(Для ознайомлення з повним текстом статті необхідно залогінитись)