Бісікало О.В. Застосування методу синтаксичного аналізу речень для визначення ключових слів україномовного тексту / О.В. Бісікало, В.А. Висоцька // Науковий журнал «Радіоелектроніка. Інформатика. Управління.». – № 3(38). – Запоріжжя: ЗНТУ. – 2016/3. – С. 54-65. – ISSN 1607-3274 (print), ISSN 2313-688X (on-line). – http://ric.zntu.edu.ua/.
УДК 004.9
Бісікало О. В.1, Висоцька В. А.2
1. Д-р техн. наук, професор, декан факультету комп’ютерних систем і автоматики Вінницького національного технічного університету, Вінниця, Україна
2. Канд. техн. наук, доцент кафедри «Інформаційні системи та мережі» Національного університету «Львівська політехніка», Львів, Україна
ЗАСТОСУВАННЯ МЕТОДУ СИНТАКСИЧНОГО АНАЛІЗУ РЕЧЕНЬ ДЛЯ ВИЗНАЧЕННЯ КЛЮЧОВИХ СЛІВ УКРАЇНОМОВНОГО ТЕКСТУ
© Бісікало О.В., Висоцька В. А., 2016
У статті подано застосування породжувальних граматик у лінгвістичному моделюванні. Опис моделювання синтаксису речення застосовують для автоматизації процесів аналізу та синтезу природномовних текстів. У статті показано особливості процесу синтезу речень різних мов із застосуванням породжувальних граматик. В роботі розглянуто вплив норм та правил мови на хід побудови граматик. Застосування породжувальних граматик має широкі можливості у розробленні та створенні автоматизованих систем опрацювання текстового контенту, для лінгвістичного забезпечення комп’ютерних лінгвістичних систем тощо. В природних мовах є ситуації, коли явища, залежні від контексту, описані як незалежні від контексту, тобто в термінах контекстно-вільних граматик. При цьому опис ускладнений через утворення нових категорій і правил. В статті подано особливості процесу введення нових обмежень на класи даних граматик через введення нових правил. При кількості символів в правій частині правил не меншій за ліву отримали нескорочені граматики. Потім при заміні лише одного символу отримали контекстно-залежні граматики. При наявності в лівій частині правила лише одного символу отримали контекстно-вільні граматики. Жодних наступних природних обмежень на ліві частини правил накласти вже не можна. Виходячи із важливості забезпечення автоматичного опрацювання текстового контенту в сучасних інформаційних засобах (наприклад, інформаційно-пошукових системах, системах машинного перекладу, семантичного, статистичного, оптичного та акустичного аналізу і синтезу мови, автоматизованого редагування, екстракції знань з текстового контенту, реферування та анотування текстового контенту, індексування текстового контенту, навчально-дидактичних, менеджменту лінгвістичних корпусів, інструментальні засоби укладання словників різних типів тощо), фахівці інтенсивно шукають нові моделі, способи їх опису та методи автоматичного опрацювання текстового контенту. Одним із таких способів є розроблення загальних принципів побудови лексикографічних систем синтаксичного типу та побудови за цими принципами зазначених систем опрацювання текстового контенту для конкретних мов. Будь-які засоби синтаксичного аналізу складаються з двох частин: бази знань про конкретну природну мову і алгоритму синтаксичного аналізу, тобто набору стандартних операторів опрацювання текстового контенту на основі цих знань. Джерелом граматичних знань є дані з морфологічного аналізу та різні заповнені таблиці понять та лінгвістичних одиниць. Вони є результатом емпіричного опрацювання текстового контенту на природній мові експертами з метою виділення основних закономірностей для синтаксичного аналізу.
Ключові слова: текст, україномовний, алгоритм, контент-моніторінг, ключові слова, лінгвістичний аналіз, синтаксичний аналіз, породжувальні граматики, структурна схема речення, інформаційна лінгвістична система.
(Для ознайомлення з повним текстом статті необхідно залогінитись)