Неактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зірка
 

ОСНОВИ МОДЕЛЮВАННЯ Й ОЦІНКИ ЕЛЕКТРОННИХ ІНФОРМАЦІЙНИХ ПОТОКІВ

Д.В. ЛАНДЕ, В.Н. ФУРАШЕВ, С.М. БРАЙЧЕВСЬКИЙ, А.Н. ГРИГОР'ЄВ

У роботі розглядаються теоретичні, методологічні і технологічні питання моделювання й оцінки електронних інформаційних потоків. Як базу для апробації запропонованих підходів розглядаються потоки новин у мережі Інтернет. Приведено математичні моделі інформаційних потоків, розглядаються фрактальні властивості інформаційного простору, концепції пошуку інформації. У роботі розглянуті основні компоненти концепцій Семантичного Web, Web другого покоління, орієнтовані на забезпечення узагальненого доступу до мережного контенту. Велика увага приділена описові таких практично важливих питань, як принципи побудови систем контент-моніторингу, визначення тональності повідомлень, виявлення дублікатів.

Зміст

Зміст

Вступ

1. Web новин

2. Математичні моделі інформаційних потоків

2.1. Лінійна модель інформаційних потоків

2.2. Експонентна модель інформаційних потоків

2.3. Логістична модель інформаційних потоків

2.4. Підхід до аналізу потоків новин як дискретних сигналів

3. Фрактальні властивості інформаційного простору

3.1. Фрактальні властивості тематичних інформаційних потоків

3.2. Стабільність джерел інформації

4. Web другого покоління

4.1. Семантичний Web

4.2. Метадані та онтології

4.3. Пошукові системи

4.4. “Схований” Web

4.5. Text Mining

4.6. Web-сервіси

4.7. RSS

4.8. Дизайн

4.9. Перспективи

5. Інтеграція інформаційних потоків

5.1. Технологія інтеграції інформаційних потоків

5.2. Мовні засоби інтеграції Web-контенту

5.3. Служби синдикації новин

5.3.1. Moreover

5.3.2. Google

5.3.3. NewsIsFree

5.3.4. MSDN

5.3.5. Яндекс-Новости

5.3.6. InfoStream

5.4. Пошукові сайти по RSS-фідах

5.4.1. Feedreader (http://www.feedreader.com)
5.4.2. FeedDemon (www.feeddemon.com)

5.4.3. Abilon і ActiveRefresh

5.4.4. Syndirella 0.9b

5.4.5. K.R.S.S. 2.6

5.4.6. Liferea

5.5. Програми для роботи з RSS-даними

6. Інфраструктура інформаційних проксі-серверів

7. Проблема дублювання інформації

8. Концепція анотованого пошуку

9. Виявлення нових подій

9.1. Підхід Солтона до виявлення нових подій

9.2. Підхід Папка (запити)

9.3. Багатопараметричний підхід у рамках системи InfoStream

10. Проблема виявлення тональності повідомлень

Висновок

Література

Вступ

Прийняття рішень у народному господарстві, економіці, політиці, науково-технічній та соціальній сферах, як відомо, базується на процесах збору, аналізу і синтезу інформації, тобто завжди існує необхідність в серйозній інформаційній підтримці. Задоволення інформаційних потреб у даний час є обов'язковою передумовою здійснення інноваційних перетворень. Разом з тим складність одержання інформації впливає на оперативність та якість прийняття рішень. Тому задачу узагальнення та інтеграції сучасних інформаційних потоків можна вважати найбільш актуальною в умовах стрімкого розвитку економічних, політичних і суспільних процесів.

Сучасним інформаційним потокам властиві багатоваріантність і багатофакторність. Серед вирішальних факторів можна визначити час, зменшення впливу якого, тобто затримки в прийнятті рішень, дозволяє, зокрема, заощаджувати виробничі ресурси за рахунок прийняття обґрунтованих рішень, одержувати економічний ефект.

Треба відзначити, що поряд з ростом обсягів інформації зростає і кількість інформаційних джерел. Одним із класів таких джерел виступає інформаційна складова мережі Інтернет. У рамках даної роботи інформаційні потоки в Інтернет розглядаються як полігон, інформаційний корпус, динаміка й обсяги якого, зокрема, обумовили на цей час появу проблеми орієнтації в його частині новин.

Тому як база для вирішення актуальної задачі інтеграції сучасних інформаційних потоків обрана саме складова новин мережі Інтернет, динаміка й обсяги якої на сьогодні досягають великих значень. Саме бурхливий розвиток Інтернет останнім часом породило ряд специфічних проблем, пов'язаних, у першу чергу, зі швидким ростом обсягів даних, підлягаючих збереженню й опрацюванню.

На початку існування World Wide Web на невеликій кількості Web-сайтів публікувалася інформація окремих авторів для відносно великої кількості відвідувачів. Сьогодні ситуація різко змінилася. Самі відвідувачі Web-сайтів активно беруть участь у створенні контенту, що привело до різкого росту обсягу і динаміки інформаційного простору.

Сьогодні в Інтернет вже існує доступна для експериментів інформаційна база такого обсягу, що раніше важко було представити. Більше того, обсяги цієї бази перевищують на порядки все те, що було доступне десятиліття назад. У серпні 2005 року компанія Yahoo оголосила про те, що проіндексувала близько 20 млрд. документів. Досягнення компанії Google у 2004 році складало менш 10 млрд. документів, тобто за один рік кількість відкритої, доступної простому користувачеві інформації з Інтернет подвоїлася. За даними служби Web Server Survey, у серпні 2006 року кількість Web-сайтів перевищило 94 мільйона (рис. 1). Таким чином, приведені дані підтверджують експонентний характер росту обсягів даних у Мережі.

Цей ріст супроводжується ланкою проблем [18], [23], таких як:

- непропорційний ріст рівня інформаційного шуму;

- засилля паразитної інформації (незатребуваної, одержуваної в якості несанкціонованих "додатків");

- слабка структурованість інформації;

- багаторазове дублювання інформації.

Web-просторові до того ж властиві такі недоліки, як достаток “інформаційного сміття”, неможливість гарантування цілісності документів, практична відсутність можливості змістового пошуку, обмеженість доступу до “схованих” ресурсів (Deep Web).

Над рішенням названих проблемам працюють численні колективи вчених і фахівців в усьому світі, зокрема, консорціум W3C, де реалізується концепція Семантичного Web [19], [42]. Поряд з цією концепцією, революційний прорив обіцяє дати більш загальний підхід, а саме Web-2.0 (http://www.web2con.com/), або як його називають, “Web другого покоління”, що припускає реалізацію концепції семантичного Web, включаючи багаторівневу підтримку метаданих, нові підходи до дизайну і відповідного інструментарію, технологію глибинного аналізу текстів (Text Mining), а також ідеологію Web-сервісів, базуючись при цьому на інформаційних ресурсах, накопичених у WWW першого покоління.

(Для ознайомлення з повним текстом статті необхідно залогінитись)