Д.В. ЛАНДЭ
ОСНОВЫ ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ ПОТОКОВ
Киев 2006
УДК 681.3
ББК 32.973.26-018.2.75
Л 22
Рекомендовано в печать Ученым советом Института проблем регистрации информации Национальной Академии Наук Украины
Рецензенты
В.В. ПЕТРОВ - член-корреспондент НАН Украины, доктор технических наук, профессор В.А. ШИРОКОВ - член-корреспондент НАН Украины, доктор технических наук, профессор
Л 22 Ландэ Д.В.
Основы интеграции информационных потоков: Монография. – К.: Инжиниринг, 2006. – 240 с.
ISBN 966-95147-8-9
Монография посвящена вопросам интеграции электронных документальных информационных потоков, порождаемых в сети Интернет. Рассматриваются математические модели, приложения теории информационного поиска и концепции глубинного анализа текста (Text Mining) к информационным потокам, которые служат основой технологии их интеграции, построения современного информационного сервиса.
Большое внимание в книге уделено новому направлению обработки текстовой информации – Text Mining, которое включило в себя технологические и методологические подходы контент-анализа, компьютерной лингвистики, искусственного интеллекта.
Монография ориентирована на широкий круг специалистов в области информационных технологий, студентов, аспирантов. При этом она будет полезна и аналитикам, которые с помощью инструментальных средств интеграции информационных потоков смогут повысить эффективность и качество своей работы.
УДК 681.3
ББК 32.973.26-018.2.75
ISBN 966-95147-8-9
ООО "Инжиниринг"
Заказ № 6293
Тираж 700 экз.
© Ландэ Д.В., 2006
Введение
Решение важных задач в народном хозяйстве, экономике, политике и во многих других сферах всегда требует серьезной информационной поддержки.
Удовлетворение информационных потребностей в настоящее время является обязательной предпосылкой осуществления инновационных преобразований.
Вместе с тем сложность получения информации влияет на оперативность и качество принятия решений. Поэтому задачу обобщения, интеграции современных информационных потоков можно считать наиболее актуальной в условиях стремительного развития экономических и общественных процессов.
Поэтому как база для решения актуальной задачи интеграции современных информационных потоков выбрана именно новостная составляющая сети Интернет, динамика и объемы которой на сегодня достигают больших значений.
Именно бурное развитие Интернет в последнее время породило ряд специфических проблем, связанных, в первую очередь, с быстрым ростом объемов данных, подлежащих хранению и обработке.
В настоящее время информационное пространство Интернет развилось до уровня, требующего новых подходов. Рост объемов информации и скорости ее распределения фактически породил понятие информационных потоков [1]. Вместе с тем существующий математический аппарат и инструментальные средства уже не всегда способны адекватно отражать ситуацию, речь идет не
столько о конечных массивах документов, сколько о динамичных документальных информационных потоках.
Сегодня в Интернет уже существует доступная для экспериментов информационная база такого объема, который ранее трудно было представить.
При этом оказалось, что многие задачи, возникающие при работе с информационными потоками, имеют немало общего с задачами статистической физики и гидродинамики и могут решаться одними и теми же методами. Это обстоятельство открывает широкие перспективы применению мощного аппарата современной физики к решению теоретико-информационных задач.
Теория информации, которая ранее находила свое основное реальное применение в области техники передачи информации, сейчас становится полезной и для анализа смысловых текстовых потоков. Энтропия информационного пространства с помощью осмысленного анализа уменьшается постепенно, но чем более комплексный этот анализ, тем заметнее переход от хаоса к порядку.
Очевидно, следует признать, что изначальная парадигма поисковых систем, сформированная десятки лет тому назад, уже не отвечает реальной ситуации – объемам и динамике информационных потоков. Таким образом, возникает задача поиска новых принципов, в рамках которых оказалось бы возможным проектирование качественно новых систем обработки больших и динамичных объемов данных.
Можно предположить, что современные информационные технологии готовы к пересмотру принципов обеспечения доступа к сетевым данным, который условно можно назвать переходом от информационного поиска к сетевой навигации. Именно к этим мыслям приводит изучение динамики информационных потоков, общему обзору которых посвящена первая глава монографии. В этой же главе приведена построенная автором модель новостного Web-пространства, базирующаяся на анализе контекстных ссылок, присутствующих в отдельных сообщениях информационных потоков.
Вторая глава посвящена математическим моделям информационных потоков, в частности, логистическая модель тематических потоков. Эта модель учитывает «конкуренцию» тематик реального мира, отражаемую в виртуальном пространстве. Математическое моделирование информационных потоков является, безусловно, важным и интересным, особенно учитывая то, что этот вопрос до настоящего времени остается почти не исследованным.
Третья глава охватывает вопросы современного состояния интеграции информационных потоков, попыток решения задач поиска и навигации в рамках концепций Семантического Web, Web второго поколения. Представлена авторская концепция инфраструктуры информационных прокси-серверов, решающая многие проблемы оперативности и надежности доступа к новостной информации из Интернет. В этой же главе представлены такие информационно-значимые проекты, как Википедия и существующие системы синдикации новостной информации.
Четвертая глава посвящена вопросам применения основ традиционной теориии информационного поиска и кластерного анализа к современным информационным потокам. Также рассмотрены методы ранжирования результатов поиска и адаптации поисковых интерфейсов к потребностям пользователей.
В пятой главе рассматривается концепция глубинного анализа текстов – Text Mining, которая включила в себя технологические и методологические подходы контент-анализа, компьютерной лингвистики, искусственного интеллекта. В частности, приведены подходы к решению таких задач, как обобщение информационных потоков путями автоматического реферирования, выявления и анализа взаимосвязей понятий, выявления новых событий. В этой же главе рассматривается оригинальная концепция аннотированного поиска, которая базируется на средствах глубинного анализа текстов.
Шестая глава посвящена описанию технологии контент-мониторинга новостной информации InfoStream. В этой главе детально рассмотрена структурра
и состав системы, базирующейся на этой технологии, принципов, используемых при решении отдельных задач, а также описаны возможности информационной службы, построенной на основе разработанной под руководством автора системы интеграции информационных потоков.
Оглавление
ПРЕДИСЛОВИЕ 6
ВВЕДЕНИЕ 8
ГЛАВА 1. ИНФОРМАЦИОННЫЕ ПОТОКИ В ИНТЕРНЕТ 11
ГЛАВА 2. МАТЕМАТИЧЕСКИЕ МОДЕЛИ ИНФОРМАЦИОННЫХ ПОТОКОВ 28
ГЛАВА 3. ИНТЕГРАЦИЯ КОНТЕНТА 72
ГЛАВА 4. ИНФОРМАЦИОННЫЕ ПОТОКИ И ТЕОРИЯ ИНФОРМАЦИОННОГО ПОИСКА 124
ГЛАВА 5. КОНЦЕПЦИЯ TEXT MINING 151
ГЛАВА 6. ТЕХНОЛОГИЧЕСКИЕ ОСНОВЫ КОНТЕНТ-МОНИТОРИНГА ИНФОРМАЦИОННЫХ ПОТОКОВ 215
ЗАКЛЮЧЕНИЕ 231
ЛИТЕРАТУРА 234
Предисловие
Эта монография написана для тех, кто интересуется процессами, происходящими в современном сетевом пространстве, в котором непрерывно порождаются и гибнут тематические информационные потоки. Интеллектуальная интеграция этих потоков может позволить не только быть в курсе всех событий реального мира, но и получать новые знания, выявлять тенденции и аномалии, новые понятия, феномены и их взаимосвязи.
Эта монография для тех, кто заинтересован в технологиях получения новых знаний на основе анализа современного информационного пространства. Одно из определений знаний, которое дает энциклопедический словарь Webster, следующее: состояние осведомленности о чем-то или обладание информацией.
Именно эта трактовка знаний наиболее близка к проблематике данной работы. Объемы информационных потоков, в которых приходится выискивать крупицы необходимой, актуальной, готовой к непосредственному использованию информации для решения проблем, обуславливают актуальность и значимость самого процесса поиска.
Современным информационным потокам присущи многовариантность и многофакторность. Среди решающих факторов можно определить время, уменьшение влияния которого, то есть задержки в принятии решений, позволяет, в частности, экономить производственные ресурсы за счет принятия обоснованных решений, получать экономический эффект.
Надо отметить, что наряду с ростом объемов информации возрастает и количество информационных источников. Одним из классов таких источников выступает информационная составляющая сети Интернет. В рамках данной работы информационные потоки в Интернет рассматриваются как полигон, информационный корпус, динамика и объемы которого, в частности, обусловили на это время появление проблемы ориентации в его новостной части.
Поэтому как база для решения актуальной задачи интеграции современных информационных потоков выбрана именно новостная составляющая сети Интернет, динамика и объемы которой на сегодня достигают больших значений.
Именно бурное развитие Интернет в последнее время породило ряд специфических проблем, связанных, в первую очередь, с быстрым ростом объемов данных, подлежащих хранению и обработке. Сегодня прагматичные подходы, свойственные технологии интеграции информационных потоков, применяются администраторами Web-сайтов при формировании колонок новостей, студентами при написании обзорных курсовых работ, маркетологами при анализе рынков, политиками, бизнесменами, учеными - всеми, кто активно участвует в современных информационных, политических и бизнес-процессах. Несмотря на то, что монография ориентированна на широкий круг читателей: специалистов в области информационных технологий, студентов, аспирантов, хочется верить, что она будет также полезна и аналитикам, которые с помощью технологии интеграции информационных потоков или отдельных ее компонент смогут повысить эффективность и качество своей работы.
Содержание
Предисловие ......................................................................................................... 6
Введение ................................................................................................................ 8
1. Информационные потоки в Интернет..................................................... 11
Информационное пространство сети Интернет ...........................11
«Скрытый» Web.......................................................................................17
Модель новостного Web .........................................................................19
2. Математические модели информационных потоков ........................... 28
Линейная модель информационных потоков ....................................32
Экспоненциальная модель информационных потоков ...................33
Логистическая модель информационных потоков...........................36
Моделирование информационных потоков как
дискретных сигналов..............................................................................46
Фрактальные свойства информационных потоков.........................51
Анализ стабильности информационных источников.....................63
3. Интеграция контента .................................................................................. 72
Недостатки традиционной разметки Web-контента ...................72
Web второго поколения ..........................................................................73
Семантический Web ............................................................................ 74
Метаданные и онтологии.................................................................... 76
Поисковые системы............................................................................. 84
Text Mining ........................................................................................... 87
Web-сервисы ........................................................................................ 89
Дизайн................................................................................................... 90
Перспективы......................................................................................... 91
Интеграция информационных потоков............................................. 92
Концепция и реализация технологии Wiki .........................................93
Языки синдикации новостей...............................................................105
Моделирование инфраструктуры информационных
прокси- серверов .....................................................................................115
4. Информационные потоки и теория информационного поиска ....... 124
Модели поиска информации................................................................124
Булева модель поиска........................................................................ 124
Векторно-пространственная модель................................................ 127
Вероятностная модель....................................................................... 129
Характеристики информационно-поисковых систем ..................131
Методы кластерного анализа и динамика
информационных потоков ..................................................................134
Латентно-семантический анализ...................................................... 137
Матричный латентно-семантический анализ ................................. 138
Анализ гипертекстовых ссылок ....................................................... 140
Вероятностное латентно-семантическое индексирование............ 145
K-means............................................................................................... 146
Метод "папок поиска" ....................................................................... 147
5. Концепция Text Mining............................................................................. 151
Основные элементы Text Mining ........................................................151
Контент-анализ как основа глубинного анализа
текстов...................................................................................................155
Автоматическое реферирование .......................................................157
Квазиреферирование ......................................................................... 160
Алгоритмы автореферирования ....................................................... 162
Дайджесты.......................................................................................... 164
Поисковые образы документов........................................................ 166
Информационные портреты ............................................................. 167
Автореферирование на основе семантических методов ............... 167
Перспективы автореферирования.................................................... 170
Концепция аннотированного поиска.................................................171
Выявление дублирования информации..............................................183
Выявление новых событий ..................................................................194
Анализ взаимосвязи понятий..............................................................202
Определение тональности сообщений .............................................206
6. Технологические основы контент-мониторинга................................. 215
Обобщенная модель технологии контент-
мониторинга информационных потоков .........................................219
Информационный сервис на основе системы контент-
мониторинга ..........................................................................................227
Заключение....................................................................................................... 231
Литература ....................................................................................................... 234
1. Информационные потоки в Интернет
Информационное пространство сети Интернет
Информационное общество строится на основе развитой информационно-коммуникационной инфраструктуры и предусматривает развитие информационных сетей и систем, в частности, сети Интернет, которая, появившись вначале как феномен новых технологий, породила мощнейший инструмент специфического воздействия на сознание человека - New Media [18].
Сегодня наблюдаются процессы глобализации как всего информационного пространства, так и отдельных информационных процессов. Т.е. происходит формирование вокруг традиционных СМИ широкого медиа-пространства. Все чаще один издательский дом представляет одну и ту же информацию, но в разных форматах, например, в газете, журнале, радио, и на своем Web-портале.
При этом все виды современных СМИ все более интегрируются с Интернет. Практически все ведущие телевизионные и радиокомпании ведут вещание в этой Сети, все шире практикуется как свободный, так и платный доступ к материалам газет, журналов, информационных агентств. Принято различать два понятия: СМИ в Интернет и сетевые СМИ. В свое время вместе с переносом в Интернет зародился процесс создания в Сети изданий, электронные версии которых дополняли (а порой и заменяли) традиционные. СМИ в Интернет зачастую представляют собой прямую репликацию традиционных средств массовой информации на Web-серверах. Однако самые прогрессивные в технологическом плане СМИ смогли "перешагнуть" рамки традиционного представления информации и стать полноценными сетевыми СМИ.
Сетевые СМИ - это новый тип представления информации, изначально ориентированный на Интернет, учитывающий многие нюансы представления информации в этой среде (так называемые New Media). Как правило, выпуск традиционными СМИ полноценного сетевого варианта требует не только изменения форматов и формы подачи информации, но и определенной семантической корректировки материалов. Сетевым СМИ присущи такие преимущества, как оперативность, интерактивность, мультимедийность и дешевизна. Современные коммуникативные возможности позволяют публиковать информацию непосредственно с мест событий, оставляя традиционным СМИ возможности для аналитики. Интерактивность для пользователей подразумевает возможность самостоятельного "выстраивания маршрута" при чтении материалов издания, используя механизм гиперссылок или встроенные поисковые системы. В отличие от традиционных СМИ, например, газет или телевидения, на Web-сайтах сети Интернет размещается как текстовая информация, так и видео- и аудиосюжеты, интерактивная реклама, игры и т.д. При этом для доступа к информации не требуется пересылки материальных носителей – информация при очень небольших затратах становится доступной читателям мгновенно.
Сеть Интернет более чем за 30 лет своего существования вышла за пределы военных лабораторий США (где она родилась в рамках проекта ARPANET) и научных кругов и стала одним из самых известных явлений современности.
Из сотен компьютерных сетей именно Интернет (далее - Сеть) получила такое развитие благодаря:
- высокой технологичности, надежности и расчету на работу в любых, даже экстремальных условиях;
- открытости протоколов (правил), доступных каждому;
- поддержке как широким кругом пользователей, так и крупнейшими производителями программного и аппаратного обеспечения;
- способности к саморазвитию, саморасширению. Чем больше ресурсов вовлекается в Сеть, тем она становится интересней и полезней пользователям, круг которых расширяется;
- постоянному снижению расходов пользователей на работу в Сети.
Интернет-ресурсы сегодня - это прежде всего объемы - свыше 20 млрд. документов. По данным аналитической компании Cyveillance (http://www.cyveillance.com), темпы роста Сети составляют 7 млн. новых страниц
(Для ознайомлення з повним текстом статті необхідно залогінитись)