Методи та засоби опрацювання інформаційних ресурсів на основі онтологій

Литвин В.В. та інш.

ISBN 978-966-441-462-0

MONO LytvynVysotskaDosyn 2016

Литвин В.В. Методи та засоби опрацювання інформаційних ресурсів на основі онтологій: монографія / В.В. Литвин, В.А. Висоцька, Д.Г. Досин. – Львів: ЛА «Піраміда», 2016. – 404 с.

Досліджено та вирішено важливу науково-технічну проблему моделювання та проектування інтелектуальних систем опрацювання інформаційних ресурсів на основі онтологій. Для вирішення цієї проблеми розглянуто широке коло питань, зокрема запропоновано класифікацію інтелектуальних систем опрацювання інформаційних ресурсів, розроблено формальну модель такої системи, її окремих складових, інформаційних ресурсів, методи та алгоритми проектування інтелектуальних систем опрацювання інформаційних ресурсів.

Книга призначена для спеціалістів із проектування, розроблення та впровадження інтелектуальних систем опрацювання інформаційних ресурсів, науковців у галузі глобальних інформаційних системи, систем штучного інтелекту, Інтернет-технологій, фахівців з електронної комерції, Інтернет-маркетингу та Інтернет-реклами, менеджерів комплексних Web-проектів, а також для здобувачів 3-ого (освітньо-наукового) рівня вищої освіти в галузі знань 12 «Інформаційні технології». Монографія призначена для студентів, що навчаються за спеціальностями 122 «Комп’ютерні науки та інформаційні технології» та 124 «Системний аналіз» і споріднених спеціальностей, пов’язаних з вивченням інтелектуальних систем опрацювання інформаційних ресурсів на основі онтологій.

Зміст

Зміст 3

Перелік умовних позначень, символів, одиниць, скорочень і термінів 6

Вступ 8

Розділ 1 Інформаційні технології для побудови та впровадження інтелектуальних систем опрацювання інформаційних ресурсів 11

1.1. Аналіз способів формування контенту 11

1.1.1. Аналіз властивостей та особливостей контенту 11

1.1.2. Сервіси управління контентом 14

1.2. Дослідження Інтернет-технологій для побудови сервіс-орієнтованих інтелектуальних систем опрацювання інформаційних ресурсів 15

1.2.1. Системи електронної комерції та їх класифікація 15

1.2.2. Системи електронної контент-комерції та їх класифікація 16

1.3. Інформаційні ресурси 17

1.4. Технологія управління контентом в інтелектуальних системах опрацювання інформаційних ресурсів 19

1.4.1. Процес управління контентом 19

1.4.2. Методи управління текстовим контентом 24

1.4.3. Засоби управління текстовим контентом 33

1.5. Онтології як ядро баз знань інтелектуальних систем 39

1.5.1. Сфери використання онтологій та їх місце в структурі інтелектуальної системи 39

1.5.2. Мови описування онтологій 41

1.6. Проектування системи автоматизованого синтезу онтології 44

1.6.1. Метод видобування знань з тексту 44

1.6.2. Огляд досліджень у галузі видобування знань та навчання онтології 46

1.6.3. Вибір прототипу онтології заданої проблемної області 49

1.6.4. Попереднє опрацювання природомовного тексту 51

1.6.5. Виділення формальних ознак семантичних зв’язків між поняттями у реченні 52

1.6.6. Метод оцінювання релевантності текстового документа до інформаційних потреб клієнта 56

1.6.7. Стан проблеми 57

1.6.8. Вибір мови подання знань 58

1.7. Реалізація системи автоматизованої розбудови базової онтології 59

1.7.1. Основні модулі системи CROCUS 60

1.7.2. Функціональне призначення модулів системи CROCUS 62

1.7.3. Обгрунтування вибору програмних засобів 64

1.8. Принцип роботи та структура парсера веб-джерел інформації в рамках проекту Crocus 66

1.8.1. Мета та технічне завдання щодо призначення парсера 66

1.8.2. Інструментарій необхідний для створення парсера 66

1.8.3. Бібліотека парсера. Використані методи, поля та їх призначення 67

1.8.4. Загальна та принципова схема структури парсера. 68

1.9. Основні результати та висновки до розділу 71

Розділ 2 Аналіз процесів опрацювання інформаційних ресурсів 73

2.1. Структура інтелектуальних систем опрацювання інформаційни ресурсів 73

2.1.1. Інформаційні потоки в інтелектуальних системах опрацювання інформаційних ресурсів 73

2.1.2. Компоненти інтелектуальних систем опрацювання інформаційни ресурсів 79

2.1.3. Процеси та етапи проектування інтелектуальних систем опрацювання інформаційни ресурсів 87

2.2. Формалізація інтелектуальних систем опрацювання інформаційни ресурсів 90

2.3. Процеси опрацювання інформаційних ресурсів 93

2.3.1. Аналіз процесу формування текстового контенту 93

2.3.2. Аналіз процесу управління текстовим контентом 96

2.3.3. Аналіз процесу супроводу текстового контенту 99

2.4. Поняття адаптивної онтології 102

2.4.1. Визначення основних понять та властивостей графу онтології бази знань 103

2.4.2. Вибір комп’ютерного подання моделі онтології 103

2.5. Метризація функціонування інтелектуальних систем на основі адаптивних онтологій 104

2.5.1. Функціональна модель інтелектуальних систем для задач класифікації 104

2.5.2. Функціональна модель інтелектуальних систем для задач класифікації з використанням онтологій 106

2.5.3. Семантичні метрики 107

2.5.4. Метрика на основі адаптивних онтологій 109

2.6. Методи задання ваг важливості понять онтології 112

2.6.1. Методи задання ваг важливості понять онтології для семантичних задач 112

2.7. Інтелектуальна пошукова система 113

2.7.1. Особливості формування запиту користувачами 114

2.7.2. Пошук за документом-взірцем 114

2.7.3. Аналіз методів оцінювання подібності текстових документів для рангування результатів роботи ІПС 115

2.7.4. Коефіцієнт Дайса 115

2.7.5. Векторно-просторова модель 115

2.7.6. Латентно-семантичне індексування 116

2.7.7. Обґрунтування необхідності інтелектуалізації пошуку 116

2.7.8. Особливості анотованих наукових публікацій 117

2.7.9. Принцип роботи системи пошуку та ранґування електронних текстових документів 117

2.7.10. Пошуковий агент. Супроводжувальна база даних 118

2.7.11. База знань та її онтологія 119

2.7.12. Доповнення концептуальних графів текстових документів контекстом онтології ІПС 120

2.7.13. Дослідження ефективності методу оцінювання подібності електронних текстових документів 121

2.8. Висновки до другого розділу 128

Розділ 3 Методи опрацювання інформаційних ресурсів 130

3.1. Застосування методів опрацювання інформаційних ресурсів 130

3.2. Метод формування текстового контенту 137

3.2.1. Відбір контенту з різних джерел інформації 137

3.2.2. Процес виявлення дублювання змісту текстового контенту 140

3.2.3. Форматування текстового контенту 141

3.2.4. Виявлення ключових слів тематики текстового контенту 142

3.2.5. Процес рубрикації текстового контенту 148

3.2.6. Формування дайджестів текстового контенту 151

3.2.7. Процес розподілу текстового контенту 153

3.3. Метод оперативного управління текстовим контентом 155

3.3.1. Основні етапи управління текстовим контентом 155

3.3.2. Формування інформаційного ресурсу 159

3.3.3. Індивідуалізація роботи користувачів системи 160

3.3.4. Використання анотацій в процесах пошуку контенту 161

3.4. Метод супроводу текстового контенту 163

3.4.1. Формування інформаційних портретів контенту та користувачів 163

3.4.2. Виявлення тематичних сюжетів текстового контенту 166

3.4.3. Формування портретів потоків текстового контенту 168

3.5. Висновки до третього розділу 171

Розділ 4 Розроблення та впровадження інтелектуальних системи опрацювання інформаційних ресурсів 172

4.1. Проект розроблення інтелектуальних систем опрацювання інформаційни ресурсів 172

4.1.1. Характеристики проекту розроблення інтелектуальних систем опрацювання інформаційни ресурсів 172

4.1.2. Обґрунтування розроблення та впровадження інтелектуальних систем опрацювання інформаційних ресурсів 173

4.1.3. Очікувані ефекти впровадження інтелектуальних систем опрацювання інформаційни ресурсів 176

4.1.4. Вхідні дані інтелектуальних систем опрацювання інформаційни ресурсів 178

4.1.5. Опис вихідних даних інтелектуальних систем опрацювання інформаційни ресурсів 179

4.2. Функціональні вимоги до інтелектуальних систем опрацювання інформаційних ресурсів 180

4.2.1. Вимоги для програмних засобів опрацювання інформаційних ресурсів 180

4.2.2. Додаткові вимоги до інтелектуальних систем опрацювання інформаційних ресурсів 183

4.2.3. Вимоги до підсистеми формування текстового контенту 184

4.2.4. Вимоги до підсистеми управління текстовим контентом 187

4.2.5. Вимоги до підсистеми супроводу текстового контенту 189

4.3. Інтелектуальна система опрацювання інформаційних ресурсів типу «Інтернет-газета» та «Інтернет-журнал» 191

4.3.1. Структура систем «Інтернет-газета» та «Інтернет-журнал» 191

4.3.2. Аналіз результатів функціонування систем «Інтернет-газета» та «Інтернет-журнал» 193

4.4. Висновки до четвертого розділу 198

Список використаних джерел 199

Додатки 237

Вступ

Активний розвиток Інтернет сприяє зростанню потреб в отриманні оперативних даних виробничого/стратегічного характеру і реалізації нових форм інформаційного обслуговування через сучасні інформаційні технології (ІТ), в тому числі в електронній комерції [312]. Документована інформація, підготовлена відповідно до потреб користувачів, є комерційним контентом [312, 327, 334, 767]. Серед текстового контенту часто зустрічається текстовий контент, автоматичне опрацювання якого викликає певні складності та вимагає застосування певного обсягу ресурсів. Сьогодні електронна комерція є об’єктивною реальністю та перспективним бізнес-процесом. Інтернет є бізнес-середовищем, а комерційний контент є товаром з найбільшим попитом і продажами в ньому та основним об’єктом процесів електронної контент-комерції. Комерційний контент можна відразу замовити, оформити, оплатити та отримати on-line як товар. Через Інтернет продають весь спектр текстового контенту – наукові та публіцистичні статті, музику, книги, фільми, фото, програмне забезпечення тощо. Відомими корпораціями, які реалізують електронну контент-комерцію, є Google через Play Market, Apple – Apple Store, Amazon – Amazon.com. Більшість рішень та досліджень проведено на рівні конкретних проектів. Системи електронної контент-комерції (СЕКК) побудовані за закритим принципом як разові проекти [334]. Сучасні СЕКК орієнтовані на реалізацію текстового контенту, який створений за межами системи.

Практичний чинник опрацювання інформаційних ресурсів в СЕКК пов’язаний з вирішенням задач формування, управління та супроводу зростаючих обсягів текстового контенту в Інтернет, активним розвитком електронного бізнесу, швидкими темпами поширення доступності до Інтернет, розширенням набору інформаційних товарів та послуг, зростанням попиту на комерційний контент [312, 320, 323, 327]. Принципи та інформаційні технології (ІТ) електронної контент-комерції застосовують при створенні Інтернет-магазинів (продаж eBooks, Software, video, music, movies, picture), систем on-line (газети, журнали, дистанційне навчання, видавництва) та off-line продаж контенту (copywriting services, Marketing Services Shop, RSS Subscription Extension), сloud storage та cloud computing [334]. В цьому напрямі працюють провідні світові виробники засобів опрацювання інформаційних ресурсів як Apple, Google, Intel, Microsoft, Amazon [72-75, 312, 320, 323, 327, 334, 504, 511, 514, 536, 547, 555-559, 767, 775, 778].

Теоретичний чинник опрацювання інформаційних ресурсів в СЕКК пов’язаний із розробленням ІТ опрацювання текстового контенту. В наукових роботах Д. Ланде, С. Брайчевського, А. Григор’єва та В. Фурашева досліджено та розвинуто математичні моделі електронних інформаційних потоків [387, 391, 488-489, 514, 521-528, 557-559, 771-774]. Г. Зіпф (G. Zipf) запропонував емпіричну закономірність розподілу частоти слів природної мови [334, 560-565, 708], а Дж. Селтон (G. Salton) [756] та Р. Папка (R. Papka) [202] – виявлення нових подій в потоках контенту [560-565]. В роботах Б. Дойл (B. Doyle), Б. Бойка (B. Boiko), С. Mакківер (S. McKeever), Дж. Макговерн (G. McGovern), Дж. Хаскос (J. Hackos), Е. Роклі (A. Rockley), Р. Накано (R. Nakano), Р. Вудс (R. Woods), Халверсон (Halverson) описані моделі життєвого циклу контенту [34, 68, 88, 124-125, 181-182, 193, 216, 289]. Методологію контент-аналізу започаткували А. Тенні (A. Tenni), Б. Метьюз (B. Matthews), Д. Спііда (D. Spiida), Ж. Кайзер (J. Kaiser), Б. Гласер (B. Glaser), . Стросс (A. Strauss) та активно розвинули Г. Лассуел (H. Lasswell), О. Холсті (O. Holsti), В. Іванов, М. Сорока, А. Федорчук [514, 528, 684, 708, 757, 771]. Ф. Джобіш (F. Joubish) запропонував методологію дослідження текстів для визначення авторства, автентичності або сенсу [708]. К. Нойендорф (K. Neuendorf) та К. Кріпендорф (K. Krippendorff) розробили методи кількісного та якісного аналізу текстового контенту [514, 528, 684, 708, 757, 771]. В роботах В. Корнєєва, А.Ф. Гарєєва, С.В. Васютіна, В.В. Райха запропоновані методи інтелектуального опрацювання текстової інформації [547]. Корпорації EMC, IBM, Microsoft Alfresco, Open Text, Oracle і SAP розробили специфікації Content Management Interoperability Services на інтерфейс Web-сервісів, для забезпечення взаємодії систем управління контентом електронного бізнесу [72-75].

З наукового погляду сегмент ІТ опрацювання інформаційних ресурсів є мало дослідженим. Кожний окремий проект реалізують практично з початку, фактично на основі своїх ідей та рішень. У літературі надзвичайно мало висвітлені суттєві теоретичні обґрунтування, дослідження, висновки, рекомендації, узагальнення для проектування СЕКК та опрацювання інформаційних ресурсів в таких системах. Виникла потреба в аналізі, узагальнені та обґрунтуванні існуючих підходів реалізації електронної комерції та побудови СЕКК. Актуальною є задача створення комплексу технологічних засобів на основі теоретичного обґрунтування методів, моделей і принципів опрацювання інформаційних ресурсів в СЕКК, побудованих за принципом відкритих систем, які дозволяють керувати процесом збільшення обсягів реалізації текстового контенту. Аналіз наведених чинників дає змогу зробити висновок про існування певного протиріччя між активним розвитком і поширенням ІТ та СЕКК з одного боку, та порівняно незначним обсягом наукових досліджень з цієї тематики та їх локальністю з іншого. Це протиріччя породжує проблему стримування інноваційного розвитку сектору електронної контент-комерції через створення і запровадження відповідних новітніх прогресивних ІТ, що негативно впливає на темпи зростання цієї частини ринку. В межах загальної проблеми актуальною є задача розроблення науково обґрунтованих методів опрацювання інформаційних ресурсів електронної контент-комерції та побудови на їх основі технологічних програмних засобів для створення, поширення і сталого розвитку СЕКК. В роботі проведено дослідження з метою визначення закономірностей, особливостей та залежностей у процесах опрацювання інформаційних ресурсів в СЕКК.

Для інтелектуального опрацювання текстової інформації необхідні інтелектуальні системи опрацювання інформаційних ресурсів (ІСОІР). Для опрацювання інформаційних ресурсів в СЕКК використовують певні ІТ. ІТ трактують як певну точку в просторі чотирьох інженерій (комп’ютерної, програмної, системної, даних та знань). Інженерія – це наука про проектування та побудову об’єктів певної природи. Для інтелектуальних систем (ІІС) центральним таким об’єктом є база знань (БЗ), що формується відповідно до предметної області (ПО), в якій функціонує ІІС. Сучасні методи інженерії знань (отримання знань від експерта, інтелектуальний аналіз даних, машинне навчання тощо) для побудови БЗ не ґрунтуються на жодних стандартах, тому побудовані на їхній основі бази знань з часом втрачають функціональність. Пропонуємо як стандарт інженерії знань використати онтології [83-84, 164-171]. Онтологія – це детальна формалізація деякої області знань за допомогою концептуальної схеми. Така схема, зазвичай, складається з ієрархічної структури даних, що містить всі релевантні класи об’єктів, їх зв’язків, теорем та обмежень, які прийняті у певній ПО [578-583]. Тому в галузі інформаційних технологій до дослідження онтологій все ширше долучаються науковці. Сьогодні розроблення онтологій переходить з лабораторій штучного інтелекту (ШІ) на робочі столи експертів з певних ПО, інженерів та користувачів. Онтології широко застосовують в інформаційних технологіях (робота пошукових машин, електронна комерція, системи опрацювання інформації), матеріалознавстві (системи аналізу стану матеріалів), машинобудуванні та інших галузях науки та промисловості [86, 82, 164, 166, 172].

Наукові дослідження в напрямі використання онтологій під час розроблення та функціонування інформаційних систем (ІС) почалися в кінці минулого століття та інтенсивно розвиваються. До фундаментальних робіт у цьому напрямі зараховують роботи Т.Грубера [117, 118], Н.Гуаріно [119-121], К.Джонса [105, 140], Е.Кауфмана [143], Е.Мена [183]. Перша книга на теренах СНД, в якій розглядалися ці дослідження, вийшла лише у 2009 році [700]. У цій роботі вперше російською мовою в систематизованій формі викладено теоретичні і практичні питання використання онтологій і тезаурусів як способів організації інформації та знань у сучасних інформаційних системах. У книзі на конкретних прикладах проілюстрований процес проектування онтологій. Які причини таких інтенсивних досліджень? Що дає використання онтологій у складі ІС? Відомі дослідники в цій галузі зазначають – передовсім це формалізація знань за допомогою онтологій, якої не вдавалось досягти за допомогою інших методів подання знань, інакше кажучи, онтології стали стандартом інженерії знань. По-друге – це використання спільного понятійного апарату як вченими, так і користувачами у всьому світі у певній ПО. По-третє – це структуризація та організація знань.

Використання онтологій у складі БЗ допомагає вирішити низку проблем методологічного та технологічного характеру, які виникають під час розроблення таких систем. Зокрема, в Україні такі проблеми полягають у відсутності концептуальної цілісності й узгодженості окремих прийомів та методів інженерії знань; нестачі кваліфікованих фахівців у цій галузі; жорсткості розроблених програмних засобів та їх низької адаптивної здатності; складності впровадження експертних систем та ІІС, що зумовлено психологічними аспектами.

Наукові дослідження в напрямі використання онтологій під час розроблення та функціонування інформаційних систем, зокрема інтелектуальних систем підтримки прийняття рішень, почалися в кінці минулого століття та інтенсивно розвиваються. Основні теоретичні засади формальних математичних моделей онтологій розроблено у роботах Т.Грубера, Дж.Солтона, А.Гомес-Переса, які запропонували онтологію розглядати як тривимірний кортеж; у працях Н.Гуаріно, П. Фолтса, М.Шамбарда наведено методики побудови онтологій та їх можливі шляхи розвитку; проблему автоматизованої побудови онтологій висвітлено у роботах Д.Челюска, М.Варгас-Вера, Т.Ватсона, П.Льюїса, К.Блашке; Дж.Сова ввів поняття концептуального графа, а М.Монтес-Гомес використав його для подання онтологій; використання онтологій під час функціонування прикладних інформаційних систем описано в роботах Р.Кнаппе, К.Джонса, Е.Кауфмана, Е.Мена, М.Бориса, А.Каллі, І.П.Норенкова, М.Ю.Уварова, Ю.В.Рогушина; проблему побудови інтелектуальних систем на основі онтологій розглянуто у роботах Т. Андреасена, Т.Бернерса-Лі, Д.Хендлера, О.Лазсіла, О.В.Палагіна, А.В.Анісімова, А.Я.Гладуна, зокрема опрацювання української природної мови; використання онтологій у структурі та під час функціонування інформаційних систем проаналізовано у роботах Джос де Брюїна, Д.Фенсела, С.Штаба, Р.Студера, Л.Холінка, М.Кокара, В.Лопеса, П.І.Андона, Л.А.Святогора, О.Г.Дубинського, І.Є.Кураленко, Т.А.Гаврилової, А.С.Клещева, І.Л.Артем’євої; проблему опрацювання природномовних текстів для автоматизованої побудови онтології досліджено у роботах С.Баррі, Р.Кахліна, Л.В.Найханової, Д.П.Ночевнова, І.В.Совпела, О.І.Боровікової, Ю.А.Загорулько. Аналізуючи роботи загалом, можна зробити висновок, що наукові дослідження в галузі розроблення та використання онтологій під час побудови прикладних інформаційних систем активно розвиваються. Ці факти свідчать про актуальність проблематики побудови інтелектуальних систем опрацювання ІР на основі онтологій як предмету наукових досліджень.

Дослідження, які наведені у цій монографії, є складовою частиною наукових проектів кафедри “Інформаційних систем та мереж” Національного університету “Львівська політехніка”. Книга призначена для спеціалістів із проектування, розроблення та впровадження інтелектуальних систем опрацювання інформаційних ресурсів, науковців у галузі глобальних інформаційних системи, систем штучного інтелекту, Інтернет-технологій, фахівців з електронної комерції, Інтернет-маркетингу та Інтернет-реклами, менеджерів комплексних Web-проектів, а також для здобувачів 3-ого (освітньо-наукового) рівня вищої освіти в галузі знань 12 «Інформаційні технології». Монографія призначена для студентів, що навчаються за спеціальностями 122 «Комп’ютерні науки та інформаційні технології» та 124 «Системний аналіз» і споріднених спеціальностей, пов’язаних з вивченням інтелектуальних систем опрацювання інформаційних ресурсів на основі онтологій.