Рейтинг користувача: 5 / 5

Активна зіркаАктивна зіркаАктивна зіркаАктивна зіркаАктивна зірка
 

АВТОМАТИЧЕСКОЕ ПОНИМАНИЕ ТЕКСТОВ СИСТЕМЫ, МОДЕЛИ, РЕСУРСЫ

УДК 800(075.8)

ББК 81.ІЯ73

Л478

Леонтьева Н.Н.

Л478   Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв, фак. вузов / Нина Николаевна Леонтьева. — М.: Издательский центр «Академия», 2006. - 304 с.

ISBN 5-7695-1842-1

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные «интеллектуальные» системы выделяются из множества систем, в которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия — идея «мягкого» понимания текста; представлена экспериментальная лингвистическая система ПОЛИТЕКСТ, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.

ОГЛАВЛЕНИЕ

Предисловие  3                                                                                                

Введение  10

Автоматическая обработка или понимание текста? 10

В центре внимания — лингвистический аспект  10

О модели  11

О проекте ПОЛИТЕКСТ  12

ПОЛИТЕКСТ — это система?  12

Место семантики  14                                                                                  

Глава 1. Взгляд «сверху» на системы автоматического понимания текста  15

§ 1. Прикладная и теоретическая лингвистика  15

§ 2. Что значит «автоматическое понимание текста»  7

§ 3. Основные задачи и классы систем АПТ  19

§ 4. Типы текстовых структур в системах АПТ  21

§ 5. Состав компонентов стандартных систем АПТ  27

§ 6. Модель «мягкого понимания» текста  29

§ 7. Синтез информационного и лингвистического подходов  30

§ 8. Процесс понимания как взаимодействие текстов  32

Глава 2. Машинный перевод как среда создания систем автоматического понимания текста  36

§ 9. Об истории СМП  36

§ 10. Периодизация и классификация СМП  38

§ 11. Лингвистическое обеспечение СМП  40

§ 12. Внешняя и внутренняя оценка СМП  42

§ 13. Нерешенные проблемы автоматического понимания и перевода  43

§ 14. Новая парадигма СМП  44

§ 15. Включение предметной области как задача информационно-переводческой системы  45

Глава 3. Компонент первичного анализа текста  49

§ 16. Состав компонента первичного анализа текста  51

Препроцессор: подготовка массива  52

Препроцессор: создание внешней дескрипции документа  52

Стандарты оформления документов  55

§ 17. Собственно графематический анализ  56

§ 18. Макросинтаксический анализ  58

§ 19. Проблема анализа прерванных высказываний  60

Глава 4. Компонент морфологического анализа  64

§ 20. Подходы к МорфАн  65

МорфАн со словарем основ и словарем окончаний  66

МорфАн только со словарем окончаний  68

МорфАн «по аналогии»  69

МорфАн со словарем словоформ в системе ПОЛИТЕКСТ  70

§ 21. Семантические проблемы в МорфАн  74

Глава 5. Синтаксический компонент  78

§ 22. Проблема синтаксической омонимии при анализе  79

§ 23. Модели автоматического СинАн  81

§ 24. Составляющие синтаксического компонента  83

§ 25. О некоторых отечественных реализациях СинАн  83

§ 26. Синтаксические процессоры в ИЛМ  86

Синтаксический компонент системы ФРАП  87

Синтаксический компонент системы ПОЛИТЕКСТ  92

Синтаксис в системе ДИАЛИНГ  95

§ 27. Трудности, связанные с развитием синтаксическогоб компонента  96

Глава 6. Локальный семантический анализ текста  101

§ 28. Три структурных отображения текста: семантическое, информационное, когнитивное  102

§ 29. Состав семантического компонента  104

§ 30. Метаязык семантических структур  105

Функции и структура ИЯП  105

Смысловая грамматика  107

§ 31. О единицах СемАн  109

§ 32. Этапы локального СемАн текста  112

«Прямая» семантическая интерпретация СинП  113

Семантическая интерпретация сильных связей  114

Семантическая интерпретация слабых связей  119

Проблема неполных актантных структур  123

Глава 7. Глобальный семантический анализ и сжатие текста  128

§ 33. Связность и смысловое сжатие текста  128

§ 34. Информационный синтез значимых для текста единиц  133

§ 35. Ситуация и ситуативное представление  134

§ 36. Грамматика текстовых ситуаций  139

§ 37. Критерии полноценности узлов и связей СемП  141

§ 38. О полезных свойствах текста и его структур, на которые опираются механизмы глобального анализа  141

§ 39. Гипертекст как информационное пространство текстов  142

Глава 8. Учет специальных знаний в системах автоматического понимания текста  146

§ 40. Проблема предметной области  146

§ 41. Способы вовлечения специальных знаний в системы автоматического понимания естественного текста  148

§ 42. Тезаурусы  149

WordNet, EuroWordNet  150

Некоторые отечественные тезаурусы  52

РуТез  153

Синонимические ряды дескрипторов РуТез  155

Многозначные термины в РуТез  157

Система отношений между дескрипторами РуТез  158

§ 43. Другие ПО-ориентированные словари и системы  160

Словарь-тезаурус энциклопедических функций  160

Описание ситуаций и схем ПО для одной фактографической ИПС  164

Аппарат семантических признаков в отраслевом словаре  168

Глава 9. Information Extraction и другие информационные модели  174

§ 44. Автоматическое индексирование текстов  175

§ 45. Автоматическое реферирование/фрагментирование текстов  178

§ 46. Системы «вопрос-ответ»  179

§ 47. Тематический анализ потока текстов  180

Создание тематического представления текста по тезаурусу  181

Разрешение неоднозначности терминов РуТез  182

Построение аннотации  184

Глава 10. Системы генерации текста  193

§ 49. Компоненты СГТ  194

§ 50. Схемы процесса генерации текстов  196

§ 51. Использование риторических структур в СГТ  198

§ 52. Описание системы FoG  201

§ 53. Сравнение систем МП и ГТ  203

§ 54. Концептуальные vs. семантические структуры текста в СГТ  204

Глава 11. Концепция Базы текстовых фактов  208

§ 55. Этапы построения и единицы БТФ  209

§ 56. О важности создания БТФ для общественных наук  213

§ 57. Роль и функции спецтранслятора в модели АПТ  216

§ 58. Адаптация системы АПТ к новым ПО  218

§ 59. Об универсальности лингвистического транслятора  221

§ 60. Об информационной относительности в системе АПТ  223

§ 61. Схема построения многоязыковой БТФ  224

Глава 12. Семантические словари: структура и состав информации  227

§ 62. Словарный комплекс РУСЛАН  227

§ 63. Типы входов в словарь  228

§ 64. О метаязыке словарных описаний  229

§ 65. Категоризация лексики  229

§ 66. Состав информации в семантическом словаре лексем  232

§ 67. Подробное описание полей словаря лексем  233

Зона МОРФ (Морфологические данные)  233

Зона СИН (Синтаксические сведения)  235

Зона СЕМ (Семантические описания) 235

Зона ВАЛЕНТ (Семантические валентности) 240

Зона СИТ (Ситуации)  244

Зона ИНФ (Описание слова как единицы информационной структуры текста и тезауруса)  247

Зона ПРАГМ (прагматика)  48

Зона ЛЕКС (Лексическая сочетаемость)  249

Зона ЭКВ (Иноязычные эквиваленты). Поля АНГ, ФР, ВОЛГ  251

Зона КОММ (Комментарии составителя)  251

§ 68. Состав информации в словаре отношений  251

Глава 13. Корпусная лингвистика и другие лингвистические ресурсы для систем АПТ  258

§ 69. АРМ лингвиста, переводчика, редактора  258

§ 70. Корпусная лингвистика  259

§ 71. Аннотированный корпус  261

§ 72. Методы анализа в КЛ  263

§ 73 Теоретические позиции КЛ  265

§ 74. КЛ, системы АПТ, лингвистика  266

§ 75. Многоязыковая корпусная лингвистика  267

Заключение  273

Вопросы и задания ко всем главам  277

Список наиболее употребительных сокращений  281

Приложение 1  282

Приложение 2  284

Приложение 3  287

Приложение 4  288

Приложение 5  289

Приложение 6  290

Приложение 7  291

Приложение 8  292

Приложение 9  293

Приложение 10  294

Приложение 11  295

Приложение 12  296

Приложение 13  297

 

(Для ознайомлення з повним текстом статті необхідно залогінитись)