Неактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зіркаНеактивна зірка
 

АКАДЕМИЯ ПРАВОВЫХ НАУК УКРАИНЫ
Научно-исследовательский центр правовой информатики
Д.В. ЛАНДЭ, В.Н. ФУРАШЕВ, С.М. БРАЙЧЕВСКИЙ, А.Н. ГРИГОРЬЕВ
ОСНОВЫ МОДЕЛИРОВАНИЯ И ОЦЕНКИ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ ПОТОКОВ
Киев 2006
ООО "Инжиниринг"

УДК 681.3
ББК 32.973.26-018.2.75
Л 22
Рекомендовано в печать Ученым советом Научно-исследовательского центра правовой информатики Академии правовых наук Украины
(протокол № 7 от 01.08.2006)
Рецензенты
Н.Я. ШВЕЦ - доктор экономических наук, Заслуженный деятель науки и техники Украины, член-корреспондент АПрН Украины, профессор
А.Г. ГРЕБЕННИКОВ – доктор технических наук, Заслуженный работник образования Украины, профессор С.Н. ДАНИЛЯК – доктор технических наук
Л 22 Ландэ Д.В., Фурашев В.Н., Брайчевский С.М., Григорьев А.Н.
Основы моделирования и оценки электронных информационных потоков: Монография. – К.: Инжиниринг, 2006. – 176 с.
ISBN 966-95147-6-2.
В работе рассматриваются теоретические, методологические и технологические вопросы моделирования и оценки электронных информационных потоков. В качестве базы для апробации предложенных подходов рассматриваются потоки новостей в сети Интернет. Приведены математические модели информационных потоков, рассматриваются фрактальные свойства информационного пространства, концепции поиска информации. В монографии рассмотрены основные компоненты концепций Семантического Web, Web второго поколения, ориентированные на обеспечение обобщенного доступа к сетевому контенту. Большое внимание уделено описанию таких практически важных вопросов, как принципы построения систем
контент-мониторинга, определение тональности сообщений, выявление дубликатов. Рассчитана на широкий круг читателей.
УДК 681.3
ББК 32.973.26-018.2.75
ISBN 966-95147-6-2
ООО "Инжиниринг"
Заказ №
Тираж 500 экз.
© Ландэ Д.В., Фурашев В.Н., Брайчевский С.М., Григорьев А.Н., 2006

Содержание
Введение............................................................................................................. 4
1. Новостной Web............................................................................................ 13
2. Математические модели информационных потоков .............................. 22
2.1. Линейная модель информационных потоков .................................... 26
2.2. Экспоненциальная модель информационных потоков.................... 27
2.3. Логистическая модель информационных потоков ........................... 30
2.4. Подход к анализу новостных потоков как дискретных сигналов ... 40
3. Фрактальные свойства информационного пространства ....................... 47
3.1. Фрактальные свойства тематических информационных потоков... 53
3.2. Стабильность источников информации ............................................. 60
4. Web второго поколения .............................................................................. 69
5. Интеграция информационных потоков .................................................... 92
5.1. Технология интеграции информационных потоков ......................... 92
5.2. Языковые средства интеграции Web-контента ................................. 94
6. Инфраструктура информационных прокси-серверов ........................... 117
7. Проблема дублирования информации .................................................... 126
8. Концепция аннотированного поиска ...................................................... 137
9. Выявление новых событий....................................................................... 150
10. Проблема выявления тональности сообщений .................................... 159
Заключение .................................................................................................... 167
Литература ..................................................................................................... 171

Введение
Принятие решений в народном хозяйстве, экономике, политике, научно-технической и социальной сферах, как известно, базируется на процессах сбора, анализа и синтеза информации, то есть всегда нуждается в серьезной информационной поддержке. Удовлетворение информационных потребностей в настоящее время является обязательной предпосылкой осуществления инновационных преобразований. Вместе с тем сложность получения информации влияет на оперативность и качество принятия решений. Поэтому задачу обобщения, интеграции современных информационных потоков можно считать наиболее актуальной в условиях стремительного развития экономических, политических и общественных процессов.
Современным информационным потокам присущи многовариантность и многофакторность. Среди решающих факторов можно определить время, уменьшение влияния которого, то есть задержки в принятии решений, позволяет, в частности, экономить производственные ресурсы за счет принятия обоснованных решений, получать экономический эффект.
Надо отметить, что наряду с ростом объемов информации возрастает и количество информационных источников. Одним из классов таких источников выступает информационная составляющая сети Интернет. В рамках данной работы информационные потоки в Интернет рассматриваются как полигон, информационный корпус, динамика и объемы которого, в частности, обусловили на это время появление проблемы ориентации в его новостной части.
Поэтому как база для решения актуальной задачи интеграции современных информационных потоков выбрана именно новостная составляющая сети Интернет, динамика и объемы которой на сегодня достигают больших значений.
Именно бурное развитие Интернет в последнее время породило ряд специфических проблем, связанных, в первую очередь, с быстрым ростом объемов данных, подлежащих хранению и обработке.
В начале существования World-Wide Web на небольшом количестве Web-сайтов публиковалась информация отдельных авторов для относительно большого количества посетителей. Сегодня ситуация резко изменилась. Сами посетители Web-сайтов активно участвуют в создании контента, что привело к резкому росту объема и динамики информационного пространства.
Сегодня в Интернет уже существует доступная для экспериментов информационная база такого объема, который ранее трудно было представить.
Более того, объемы этой базы превышают на порядки все то, что было доступно десятилетие назад. В августе 2005 года компания Yahoo объявила о том, что проиндексировала около 20 млрд. документов. Достижение компании Google в 2004 году составляло менее 10 млрд. документов, т.е. за один год количество открытой, доступной простому пользователю информации из Интернет удвоилось. По данным службы Web Server Survey, в августе 2006 года количество Web-сайтов превысило 94 миллиона (рис. 1). Таким образом, приведенные данные подтверждают экспоненциальный характер роста объемов данных в Сети.
Этот рост сопровождается рядом проблем [18], [23], таких как:
- непропорциональный рост уровня информационного шума;
- засилье паразитной информации (невостребованной, получаемой в качестве несанкционированных "приложений");
- слабая структурированность информации;
- многократное дублирование информации.
Web-пространству к тому же присущи такие недостатки, как обилие «информационного мусора», невозможность гарантирования целостности документов, практическое отсутствие возможности смыслового поиска, ограниченность доступа к «скрытым» ресурсам (Deep Web).
Над решением названных проблемам работают многочисленные коллективы ученых и специалистов во всем мире, в частности, консорциум W3C, где реализуется концепция Семантического Web [19], [42]. Наряду с этой концепцией, революционный прорыв обещает дать более общий подход, а именно Web-2.0 (http://www.web2con.com/), или как его называют, “Web второго поколения”, который предполагает реализацию концепции семантического Web, включая многоуровневую поддержку метаданных, новые подходы к дизайну и соответствующему инструментарию, технологию глубинного анализа текстов (Text Mining), а также идеологию Web-сервисов, базируясь при этом на информационных ресурсах, накопленных в WWW первого поколения.

 

(Для ознайомлення з повним текстом статті необхідно залогінитись)