ВСТУП
ГЛАВА 1. КОМП'ЮТЕРНА ЛІНГВІСТИКА ТА СИСТЕМИ."РОЗУМІННЯ" ТЕКСТУ
"Розуміння" тексту інформаційною системою
Рівні "розуміння".
Інженерно-лінгвістичний експеримент.
Відтворюючі інженерно-лінгвістичні моделі.
ГЛАВА 2. СИСТЕМИ ІНФОРМАЦІЙНОГО ПОШУКУ
Інформація і науково-технічний прогрес.
Теоретичні аспекти побудови проблемнооріїнтованих локальних АСНТI.
"Вирощування" ЛАСНТI.
Локальні системи галузевого типу.
Проблемно-оріїнтовані ЛАСНТI.
Локальна АСНТІ: пpомислова pеалiзація моделі.
Обробка іншомовних баз даних на персональних комп'ютерах.
ВИСНОВКИ
ГЛАВА 3. СИСТЕМИ ПЕРЕКЛАДУ
Практичні потреби.
Типологiя та принципи функціонування систем машинного перекладу.
Принципи оцінки якості систем МП.
Діючі системи МП.
Системи автоматизованого перекладу.
Системи автоматичного перекладу.
Ефективність систем МП - попередні висновки.
"Вирощування" систем машинного перекладу.
Проект ПАРС.
Система ПАРС-3.
Система РУМП.
Система ПАРС/У.
Висновки та напрями подальшої роботи.
ГЛАВА 4. ОБРОБКА ТЕКСТУ НА МІЖФРАЗОВОМУ РІВНІ: АВТОМАТИЧНЕ
РЕФЕРУВАННЯ
Теоретичні аспекти міжфразового аналізу.
Міжфразові зв'язки.
Синтаксична міжфразова одиниця.
Конектори та псевдоконектори.
Словник і граматика систем.
Система квазiреферування.
Експерименти.
Пряма перевірка гіпотез.
Непряма перевірка гіпотез.
Перспективи.
ВИСНОВКИ
ДОДАТКИ:
ДОДАТКИ:
Додаток 2.1
Додаток 2.2
Додаток 2.3
Додаток 2.4
Додаток 2.5
Додаток 2.6
Додаток 2.7
Додаток 3.1
Додаток 3.2
Додаток 3.3
ЛІТЕРАТУРА
ВСТУП
Наш час - це епоха iнформатизацiї суспiльства. Впровадження комп’ютерiв, розробка iнформацiйних систем i
мереж змiнюють характер виробничих вiдносин, а це, в свою чергу, впливає на електронику та iнформатику.
Темпи й ефективнiсть iнформатизацiї залежать вiд багатьох чинникiв, у тому числi й зовнiшнiх для
iнформатики. Першим iз них, на наш погляд, треба назвати об’єктивну потребу фахiвцiв в iнформацiї, знаннях.
Але, якщо ця потреба виявиться в усiй гостротi, - чи зможе сучасна наука задовольнити її? Гадаю, що поки що
нi. Сучасний рiвень розвитку таких складових частин iнформатики, як прикладна (обчислювальна, iнженерна,
комп’ютерна) лiнгвiстика, методологiя iнформацiйного пошуку, є таким, що якiсть розробок є прийнятною хiба
що для стагнуючої економiки. Iнформатика при цьому є здебiльшого “паперовою”, тодi як iще 20 рокiв тому
академiк В.М.Глушков виступив iз проектом “безпаперової”. Iнформацiйнi системи, що розробляються,
здебiльшого не є iнтегрованими у виробничi процеси i надовго залишаються надбанням їх розробникiв, а не
кiнцевих користувачiв. Навряд чи має сенс пошук панацеї вiд цих лих у ринкових структурах, котрi якимось
чарiвним чином призведуть до появи нових iнформацiйних технологiй. Адже ринок не може виникнути завдяки
тiльки полiтичним новацiям. Дiї полiтикiв не зможуть базуватися на одному лише усвiдомленнi переваг ринку
перед iєрархiчним плануванням i - ширше -iнформацiйного суспiльства перед iндустрiйним. Полiтикам у цiй
справi необхiдно спиратися на структури, що зароджуються, зокрема, розмовляючи про iнформатику,
визначимо, що такими структурами мають бути ефективнi, стабiльно функцiонуючi iнформацiйнi системи. А
це, як показує досвiд, завдання не тiльки технiчного, але й в iстотнiй мiрi лiнгвiстичного характеру. Гадаємо,
що прийшов час розпочати розробку теоретичних основ усiх дисциплiн, котрi входять у сферу iнформатики:
iнформацiйного пошуку, машинного перекладу, реферуваннiя. Рiшення ж кожного з цих завдань неможливе без
розробки концепцiй i засобiв комп’ютерного опрацювання - аналiзу та синтезу - наукових, технiчних, дiлових
текстiв. У той же час, теоретична концепцiя створення iнформацiйних систем того чи iншого типу повинна
включати такий, здавалося б, не притаманний теоретичним побудовам компонент, як комфортнiсть. Справдi,
користувачевi комп’ютерної iнформацiйної системи є з чим порiвнювати: вiн має багатий досвiд роботи в сферi
“паперової” iнформатики. I, створюючи комп’ютерну систему, тобто забезпечуючи людинi перехiд вiд
авторучки, бiблiографiчної картотеки та паперового словника до автоматизованої системи, треба робити її
природним “продовженням” звичної людинi традицiйної системи. Практика показує, що, на жаль, зовсiм не
завжди вдається досягнути балансу мiж технiчною ефективнiстю та комфортнiстю системи. До великої мiри це
пояснюється тим, що розробки здiйснюються хоч i для кiнцевого користувача, але без його участi, в порядку
послуги, що нав’язується. Однак при цьому, користувач iз завзяттям, вартим заздрощiв, вiдхиляє цi подарунки,
чи не єдиним достоїнством яких є те, що вони реалiзованi на комп’ютерi, тодi як головна їхня вада - незручнiсть
у використаннi на порiвняння з традицiйною технологiєю, тобто саме комп’ютерна реалiзацiя. Причина цього,
на наш погляд, полягає у спрощеному пiдходi до створення iнформацiйних систем з боку “чистих”
програмiстiв. Проте претензiї до цих останнiх залишаться необгрунтованими до тих пiр, доки вони не одержать
вiд теоретикiв методологiю побудови комп’ютерних систем обробки текстової iнформацiї. Розвиток
комп’ютерної лiнгвiстики в СРСР налiчує майже чотири десятирiччя. У серединi 50-х рокiв, одночасно зi
знаменитим Джорджтаунським експериментом з машинного перекладу, радянськi вченi та програмiсти почали
опрацювання систем машинного перекладу. 60-i роки визначилися для вiтчизняної науки оформленням у ВНДI
Iнформелектро групи дослiдникiв-практикiв, якi почали розробку iнформацiйно-пошукових систем
дескрипторного типу. Саме тут, в Iнформелектро, було сказано про утворення, по сутi кажучи, нового напряму
в лiнгвiстицi - експериментальної семантики. Одна з головних iдей цiєї дисциплiни - поетапне “вирощування”
системи. При цьому лiнгвiст висуває деяку гiпотезу чи сукупнiсть гiпотез про ти чи iншi мовнi явища.
Висловивши цю гiпотезу на формалiзованiй мовi й виявивши в процесi експерименту її вади, тобто
неадекватнiсть реальному об’єкту, вiн уточнює гiпотезу й тим самим удосконалює iнформацiйну систему, що
базується на нiй, поступово наближаючи систему до максимально досяжного рiвня. Експеримент став
невiд’ємною частиною лiнгвiстичного дослiдження. Такий пiдхiд до опису фактiв мови реалiзує iндуктивний
засiб у лiнгвiстицi, природним образом доповнюючи засiб дедуктивний, який використовується теоретичною
семантикою. 70-i та 80-i роки не були “застiйними” для експериментальної семантики. У теоретико-
методологiчному планi вона одержала розвиток у працях керiвника загальносоюзної групи “Статистика речи”
Р.Г.Пiотровського, який сформулював концепцiю вiдтворюючої iнженерно-лiнгвiстичної моделi, що була
розвинена його учнями [Пиотровский, 1985; Блехман, 1987], i Б.Р.Певзнера, котрий запропонував методологiю
навчаючих баз даних [Певзнер, Блехман, Аксельрод, 1987]. У трьох класичних напрямках прикладної
лiнгвiстики - iнформацiйному пошуку, машинному перекладi та автоматичному реферуваннi - були досягнутi
реальнi результати. Необхiдно назвати системи машинного перекладу, розробленi у Всесоюзному центрi
перекладiв (АМПАР, а пiзнiше - СПРИНТ), Петербурзькому педагогiчному iнститутi (СИЛОД, MULTIS, EN1,
що пiзнiше були розвиненi в системи PROMT i Stylus фахiвцями фiрми ПРОМТ), Тверському центрi нових
лiнгвiстичних технологiй, Iнформелектро, а пiзнiше - в Iнститутi мовознавства РАН -ЕТАП-1 i ЕТАП-2;
iнформацiйного пошуку (СКОБКИ) -Iнформелектро, “Технологiя” iнституту ВНДIТелектромаш, Харкiв);
реферування (Iнформелектро та Петербурзький iнститут культури). Особливо треба визначити сiмейство
пакетiв програм для побудови пошукових систем - АСПIД (Iнститут математики АН БССР). Автор цiєї
монографii все своє професiйне життя працює у сферi експериментальної семантики. Розумiючи неможливiсть
побудови iдеальних систем переробки iнформацiї, висловленої природною мовi, ми будуємо нашi системи
засобом “вирощування”. При цьому на кожному етапi розвитку не тiльки розробляється дiюча система, але й
одержується iнформацiя про помилки, що дозволяє продовжити процес вирощування системи. Читач тримає
книгу, що ввiбрала в себе опис результатiв, досягнутих автором i очолюваним їм колективами за останнi 18
рокiв при опрацюваннi систем пошуку, перекладу i реферування текстiв. Цi системи створювалися в iнститутi
ВНДIТелектромаш i продовжують удосконалюватися в Харковi, у фiрмi “Медiком”, а з 1993 г. - “Лiнгвiстика
93”. Книга в жодному разi не може розглядатися як популяризацiя iдей комп’ютерної лiнгвiстики з тiєї хоча б
причини, що ця наука ще тiльки знаходиться в стадiї формування, тому час популяризацiї ще далеко не
наступив. У рiвнiй мiрi книга не є путiвником по сучасних iнформацiйних системах, хоча в нiй, безумовно,
вжита спроба проаналiзувати передовi iдеї комп’ютерної лiнгвiстики, особливо такi, що знайшли застосування
в дiючих системах. У той же час, головне завдання, яке я поставив перед собою при написаннi цiєї книги, - дати
розгорнутий опис власної концепцiї комп’ютерної лiнгвiстики, тому, вiддаючи належне колегам, я все ж
спирався головним чином на власний досвiд i власне розумiння проблем. Перша глава мiстить виклад основ
iнженерно-лiнгвiстич-ної методологiї моделювання мовних явищ, тобто дається авторська iнтерпретацiя
теоретичних i методологiчних основ комп’ютерної лiнгвiстики. Подальша структура книги вiдповiдає
класичному пiдроз-дiлу iнформацiйних систем на пошуковi, перекладацькi та реферативнi. Друга глава
присвячена автоматизованому iнформацiйному пошуку, в тому числi тематичному класифiкуванню та iндексу-
ванню документiв. У третiй главi розглядаються системи автоматичного перекладу й автоматизованi робочi
мiсця перекладача. Нарештi, четверта глава мiстить виклад теоретичної концепцiї аналiзу зв’язних текстiв i
опис систем їх автоматичного реферування. Охоплюючи порiвняно великий перiод часу, книга вiдбиває
динамiку “вирощування” iнформацiйних систем. Читач ознайомиться iз втiленими в реальних iнформацiйних
технологiях iдеями, що можуть бути актуальними не тiльки для дiючих, але й, будемо сподiватися, майбутнiх
систем. Гадаю, що книга буде цiкавою та корисною широкому колу лiнгвiстiв, перекладачiв, iнформацiйних i
бiблiотечних робiтникiв, програмiстiв, що займаються створенням та експлуатацiєю систем автоматичної
обробки текстової iнформацiї. Вважаю своїм приємним обов’язком висловити глибоку вдячнiсть своїм
учителям, деякi з котрих уже скiнчили своє матерiальне iснування: Раїсi Васильовнi Погореловiй, Вiкторовi
Юхимовичу Берзону, Раймонду Генрiховичу Пiотровському, Борисовi Рувiмовичу Певзнеру, Володимировi
Юхимовичу Терлецькому, Валерiю Сергiйовичу Єпiфанову, рiвно як i програмiстам i лiнгвiстам, якi втiлили та
втiлюють мої iдеї в життя:
А.Аксельроду, О.Бiжановiй, М.Бiжановiй, Б.Валенко, К.Валю, А.А.Захарову, П.Конощенку, А.I.Курсiну,
А.Ф.Раковiй. Можли-во, список перших залишиться незмiнним, але список других буде поширюватися з
реалiзацiєю нових iдей.
ГЛАВА 1. КОМП’ЮТЕРНА ЛIНГВIСТИКА ТА СИСТЕМИ “РОЗУМIННЯ” ТЕКСТУ
Останнi десятирiччя розвитку мовознавства в чималiй мiрi характеризуються становленням iнженерно-
лiнгвiстичної методолгiї дослiдження й опису мови. Це пов’язано як iз прагненням мовознавцiв будувати
моделi, котрi вiдтворюють реальнi мовнi факти, так i з об’єктивною необхiднiстю опрацювання i впровадження
у промисловiсть i доведення до кiнцевих користувачiв ефективних систем автоматичної обробки текстової
iнформацiї (далi - IС, iнформацiйнi системи). Цим визначається двоєдиний характер комп’ютерної лiнгвiстики:
в її компетенцiю входять, з одного боку, питання загальнометодологiчного характеру - в першу чергу, побудова
методолгii iнженерно-лiнгвiстичного експерименту для перевiрки лiнгвiстичних гiпотез [Пиотровский, 1985], а
з iншого боку - опрацювання конкретних процедур автоматичної обробки iнформацiї. Дана робота належить
обом напрямкам. Для того щоб сформулювати мету першої, на перший погляд, суто “теоретичної” глави,
необхiдно зробити таке вступне зауваження. Ще у 80-i роки намiтилися два принципових пiдходи до побудови
лiнгвiстичного забезпечення iнформацiйних систем: (а) створення порiвняно простих систем, що
використовують мiнiмально необхiднi данi про мову; (б) створення складних систем, що використовують
максимально можливi данi. Нам здається марною суперечка щодо монополiї одного з цих пiдходiв;
конструктивними представляються вияв класiв лiнгвiстичних завдань, для рiшення яких той чи iнший пiдхiд є
оптимальним, i розумний компромiс мiж ними в тих випадках, коли вiн є необходiним. Не менш важливо, з
нашої точки зору, виявити коло завдань, рiшення яких вимагає людського iнтелекту й принципово погано
пiддається алгоритмiзацiї. У цiй главi робиться спроба оцiнити завдання комп’ютерної лiнгвiстики як у зв’язку
з побудовою реальних промислових IС, так i в зв’язку з завданнями теоретично-лiнгвiстичного характеру. Для
вiдповiдi на перше коло питань ми спробуємо ранжувати ступенi “розумiння” тексту машиною, тобто виявити
рiвнi цього “розумiння”, порiвнявши його з людським. Пiсля цього, в тому числi i в наступних главах, на
матерiалi конкретних IС, що забезпечують певний рiвень “розумiння” тексту, виявляються деякi актуальнi
завдання комп’ютерної лiнвiстики й намiчаються шляхи розвитку iнженерно-лiнгвiстичної методологii. Для
вiдповiдi на друге коло питань у роботi аналiзується проблема спiввiдношення лiнгвiстичної гiпотези та
iнженерно-лiнгвiстичного експерименту.
1.1. “Розумiння” тексту iнформацiйною системою
Перш нiж розпочати ранжування мiр “розумiння” тексту машиною, маємо задати критерiй цього ранжування.
Скорiше за все, при визначеннi такого критерiю слiдує виходити iз сутi iнформацiйної системи. Справа в тому,
що головна, якщо не єдина, практична мета побудову IС будь-якого типу - це задоволення iнформацiйних
потреб людини, отже, оцiнювати рiвень “розумiння” тексту iнформацiйною системою треба саме з точки зору
користувача системи. Назвемо рiвнем “розумiння” (РР) тексту iнформацiйною системою таку переробку цього
тексту, яка забезпечує певну мiру користi для користувача, що прагне задовольнити свою iнформацiйну
потребу або iнформацiйну потребу iншої людини -кiнцевого користувача. Точнiше, будемо вважати, що РР тим
вищий, чим бiльший вiдсоток iснуючої в текстi iнформацiї користувач може одержати вiд iнформацiйної
системи. Вибiр такого критерiю здається нам цiлком логiчним, тому що тiльки користувач системи є в змозi
дати об’єктивну оцiнку РР, причому ясно, що чим вищий РР, тим бiльше в обробцi iнформацiї система бере на
себе i тим менше залишає користувачевi-людинi. Очевидно, практично максимальним був би такий рiвень
“розумiння “ тексту системою, який вiдповiдав би рiвню розумiння його людиною-фахiвцем у данiй областi
знань. При цьому фахiвець-користувач мiг би одержати вiд “фахiвця”-IС практично всю iнформацiю, закладену
в текст автором, незалежно вiд ступеня експлiцитностi її вислову. Проте я вважаю, що мiж рiвнем розумiння
тексту людиною-фахiвцем i IС будь-якої мислимої мiри потужностi iснує iстотна рiзниця, котра проявляється в
тому, що практично будь-який текст мiстить, зокрема, таку iнформацiю, яка в принципi не може бути виявлена
жодною iнформацiйною системою. Причиною цього нерозумiння є те, що людина розумiє i план вислову, i
план змiсту тексту, тодi як IС “розумiє” (з тiєю чи iншою мiрою глибини) тiльки план вислову, i нiяке
лiнгвiстичне забезпечення, яким би потужним воно не було, не може допомогти системi зрозумiти до кiнця
змiст тексту. В зв’язку з цим я розцiнюю як метафоричнi вислови типу “розпiзнавання змiсту тексту
iнформацiйною системою”, оскiльки змiст як такий в усiх випадках залишається невловимим для ЕОМ, а це, в
свою чергу, означає неможливiсть справжнього розумiння тексту машиною. Дiйсно, для того, щоб машина
могла зрозумiти змiст, ми повиннi заздалегiдь пояснити їй, що це таке, i описати змiст мовних одиниць i
механiзмiв. Проте будь-яке завдання змiсту при цьому виявляється описовим. З часiв Ф. де Соссюра лiнгвiсти,
слiдом за засновником структуралiзму, намагаються описати змiст мовних одиниць через їх мiсце в системi
мови i/або структури тексту, вважаючи, що змiст одиницi - це сума її оточень, деяка комбiнацiя або iєрархiя
елементарних семантичних ознак i т.iн. При цьому змiст оточуючих i складових одиниць не задається, так що
опис не носить змiстовного характеру. Можна, наприклад, сказати, що семантичний множник “каузувати”
входить у значення слiв “убрати”, “знищити”, “примусити”, але як пояснити системi, що таке “каузувати” ?
Iншими словами, чим глибший (“глибинний”) опис семантики ми задаємо, тим бiльш очевидним стає хибне
коло, до якого зводиться цей процес: для опису змiсту одиницi А необхiдно аксиоматично задати змiст Б, а при
необхiдностi описати змiст Б - аксиоматично задається змiст А. Так, наприклад, значення слова “поры” можна
пояснити за допомогою слiв “дырочки”, “отверстия “ i т.iн., але для пояснення змiсту цих останнiх, у свою
чергу, необхiдно залучення змiсту слова “пори”. При такому опису змiсту навряд чи можна очiкувати розумiння
машиною змiсту виразiв “беспористый материал”, “усадка детали” тощо. Зрозумiло, ще складнiшi проблеми
треба вирiшити, описуючи змiст синтаксичних i, тим бiльше, гiперсинтаксичних вiдносин. Дiйсно, як описати
змiст причинно-наслiдкових вiдносин мiж подiями? Можливо, так: “Якщо наступила подiя А, то з iмовiрнiстю,
рiвнiй одиницi, наступить i подiя Б”? Проте таке твердження є по сутi аналогiчним твердженню, що понедiлок є
причиною вiвторка. У вiдомiй монографiї Р.Шенка [Шенк, 1979] пропонується вважати, що IС розумiє текст,
якщо вона може (а) перефразувати його i (б) “обчислити” всi його пресупозицiї. З нашої точки зору, цi критерiї
“не працюють” на реальних текстах. Справа в тому, що для обчислення пресупозицiй одного знання мови
виявляється зовсiм недостатньо, адже людина при обчисленнi пресупозицiй використовує такi поняття, що
погано формалiзуються, як, скажiмо, здоровий глузд. Наприклад, для висловлювання “Вiд Iванова пiшла кохана
жiнка” ми не будуємо пресупозицiї “Жiнка Iванова не була розбита параличем, тобто могла ходити”, “Iванов не
тримав жiнку в зачиненому примiщеннi” тощо. З iншого боку, ми легко вiдповiмо на питання “Чи добре тепер
Iванову ?” Взагалi, розумiння тексту людиною передбачає таке тлумачення цього тексту, яке спiвпадає iз
задумом автора, iнакше адресат “не так зрозумiє текст”, тобто взагалi не зрозумiє його. Ось два приклади - один
iз реального повсякденного життя, а iнший - з великого витвору мистецтва. Пообiдавши в кав’ярнi, я хочу
з’ясувати, чи маю вiднес-ти посуд до вiконця збору брудного посуду, чи можу залишити його на столi.
Звертаюсь до господинi:”Панi Надiє, я залишив посуд на столi”. Вона миттєво вiдповiдає: “Не мала жодного
сумнiву, бо ви ж порядна людина”. Порозумiлися! Поема Олександра Блока “Двенадцать” закiнчується
славнозвiсним рядком: “Впереди идет Христос”. Численнi дослiдники тлумачили його як апофеоз революцiї:
мовляв, Iсус веде матросiв у свiтле майбутнє.Проте моє особисте розумiння вiдрiзняється вiд канонiчного.
Згадаймо: Iсус нiколи не очолював гурт, тому що не мiг би тодi спiлкуватися з людьми: вiн завжди перебував у
серединi, звертаючись до людей, передаючи їм Слово. А тут - цiлком iнша картина: мороз, хуртовина, озброєнi
матроси з рушницями напоготовi, а попереду - неозброєна людина, гвинтiвки - просто за спиною Iсуса. Ось
таке моє розумiння, i хто ж у змозi сказати, чи дiйсно я зрозумiв Блока, чи може це вдалося лiтературознав-цям?
Отже, ми приходимо до важливого припущення: надзвичайно складним, якщо взагалi можливим, є створення
IС, для функцiювання яких машинi необхiдно виявити реальне розумiння тексту, тобто проникнення в план
його змiсту. IС такого типу утворюють гiпотетичний клас систем, якi я називаю класом систем вищого рiвня, а
розумiння ними тексту - вищим рiвнем розумiння. Наведемо приклади таких гiпотетичних систем: - IС, якi
самонавчаються шляхом читання наукових текстiв i обчислення того, що є новим у них; - IС, що перевiряють
логiку викладу в наукових текстах; - IС, котрi вiдповiдають на такi запитання по науковому тексту, котрi
вимагають “обчислення” пресупозицiй. Неможливiсть побудови реальних (а не модельних, iграшкових) систем
вищого класу пояснюється, з моєї точки зору, в першу чергу, тим, що таке розумiння тексту не припускає
природного для сучасних систем вiдриву форми вiд змiсту. Iншими словами, нiякий глибинно-синтаксичний чи
глибинно-семантичний опис тексту не може компенсувати машинi вiдсутнiсть у неї “доступу” до реального
явища, що лежить в основi цього тексту. Користуючись метафорою Льюiса Керролла, можна сказати, що форма
без змiсту - це посмiшка без кота. За вiдсутностi ж цього “кота” будь-яка вдала вiдповiдь системи на питання
людини буде по сутi ... випадковою, тобто не обумовленою дiйсним розумiнням фрагменту дiйсностi, що
описується текстом. Вiзьмемо, для прикладу, речення з “Алiси у Задзеркаллi”: ’Twas brillig’. На питання How
was it ? система вiдповiсть: Brillig, демонструючи таке ж “розумiння” тексту, як вiдома IС “Елiза” Дж.
Вейценбаума [Вейценбаум, 1970]. Ясно, що, чим складнiшими (в мовному i смисловому планах) будуть
питання, котрi контролюють розумiння системою змiсту тексту, тим бiльш явним буде її повна неспроможнiсть
зрозумiти текст. Замислимося, наприклад, чи можна вимагати вiд IС аналiзу правильностi логiки авторiв у
нижченаведеному мiркуваннi, якщо не пояснити їй змiстовно значення причинно-наслiдкового вiдношення мiж
висловами: “Исследования показали, что между особенностями синтаксической структуры элементов текста и
информацией, включенной в них, имеется некоторая связь. Тогда для выявления существенных элементов
информации можно мспользовать синтаксическую структуру предложений”. (Колтун А.Я., Пшеничная Л.Э.
Использование терминов заглавия для автоматического реферирования текста научного документа//
Автоматическая обработка текста. Препринт 80-24 АН УССР, 1980, N 24, с.29). Головною причиною такого
“вiдторження” (“отторжение” -термiн Р.Г.Пiотровського) мови машиною є, на наш погляд, антропоморфiзм
[Степанов, 1975] мови, її повна орiєнтованiсть на людину i, як наслiдок, незрозумiлiсть автомату, позбавленому
“людського чинника”. Дiйсно, будь-яка граматична чи функцiонально-граматична категорiя, будь-яке
синтаксичне вiдношення, будь-яке семантичне узагальнення “пiдiгнанi” пiд людину, пiд її свiтосприйняття, є
зручними для людини, i тiльки для людини. Наприклад, ми розрiзняємо видiлений i невидiлений з класу
об’єкти, але не розрiзняємо “197-й i не 197-й з кiнця”. Ми користуємося поняттями суб’єкта, предиката i т.iн.,
тому що нам так звично i зручно. Саме звичкою i вигодою, викликаними “структурою” нашого свiту й
особливостями життя людини в ньому, пояснюються цi та незчисленнi iншi особливостi людської мови.
Людина постiйно зустрiчається з причинно-наслiдковими вiдносинами в навколишньому життi, тому вони
знаходять вiдтворення в мовi. Якби я не знав, що значить “тому”, я б не зрозумiв вислiв “Я мислю, отже, я
iсную”. Якби я не знав, що значить “дуже”, я б не зрозумiв, що значить “Я дуже люблю Баха”. Щоб зрозумiти,
що значить “лавка”, треба володiти людською потребою i можливiстю узагальнювати. Справдi, чому в один
клас об’єктiв об’єднуються саме лавки, а не лавки та конi, адже й у тих, i у других є ноги, на них можна сидiти,
i т.iн. ? (До речi, на жаргонi злодiїв “лавкою” називається саме кiнь). У кожному мовному знаку, в кожнiй
синтаксичнiй структурi, висловi, текстi яскраво проявляються такi суто людськi, “невловимi” поняття, як
“кориснiсть”, “вигода”, “здоровий глузд” тощо. Кажучи “У нього голова, як м’яч”, ми маємо на увазi не
наявнiсть шраму (схожого на шнуровку м’яча), а скорiше тiльки форму голови. Кажучи “Вiн пiшов до лiкаря”,
ми скорiше маємо на увазi, що вiн захворiв, а не, скажiмо, вiдправився звести рахунки з приятелем своєї жiнки.
Приклади цi можна було б продовжувати до нескiнченностi. Як бачимо, засiб органiзацiї мовних одиниць i
вiдносин у систему диктується “суттю” людини i навколишнього свiту. Проте глибина цих понять є
недосяжною до кiнця навiть самiй людинi, не кажучи вже про ЕОМ, для якої людини просто не iснує, отже не
iснує й потреби розумiти те, що розумiє людина. Вiдсутнiсть же такої потреби призводить до принципової
неможливостi зрозумiти текст. Таким чином, ми стверджуємо неможливiсть побудови систем вищого класу,
обмежуючи можливостi ЕОМ “згори”. У той же час, наявнiсть дiючих iнформацiйних систем свiдчить про те,
що машина якимось чином “розумiє” текст. З iншого боку, i людина часто опрацьовує текст, фактично не
розумiючи його. Зокрема, можна непогано перекласти текст з однiєї мови на iншу, не маючи жодного уявлення
про суть явища, що описується в цьому текстi, тобто про план змiсту даного тексту: багатолiтнiй досвiд роботи
у якостi перекладача науково-технiчної лiтератури дозволяє авторовi стверджувати це. Отже, машина “розумiє”
текст, не розумiючи його. Якi ж рiвнi цього “розумiння” ?
1.2. Рiвнi “розумiння”
У цьому роздiлi я використаю досвiд розробки промислових, дiючих систем для аналiзу питань, пов’язаних iз
машинним “розумiнням” тексту. Промисловою IС назвемо систему, яка працює з текстами, не пiдготовленими
спецiально для даної системи, причому таку систему, яка має конкретних користувачiв. Я не звертаюсь до
прикладу рiзноманiтних експериментальних, “лялькових” систем, тому що їхнє становище не дозволяє, як на
мене, робити остаточнi висновки про характер “розумiння” ними тексту. IС - це така система, в якiй текст
деяким чином опрацьовується з метою задоволення iнформацiйних потреб користувача. Залежно вiд цих потреб
ЕОМ тим чи iншим чином “розумiє” текст, не досягаючи, як ми бачили, максимального рiвня розумiння. При
цьому не можна просто сказати, що в однiй ситуацiї система “розумiє” текст краще, нiж в iншiй, якщо ми маємо
справу з системами, що задовольняють рiзним потребам користувача (наприклад, пошуковою та
перекладацькою), тому що рiвень “розумiння” залежить вiд його близькостi до максимального при вирiшеннi
конкретного завдання. Наприклад, не можна сказати, що система машинного перекладу, що використовує
модель ЗМIСТ-ТЕКСТ, “розумiє” текст краще, нiж система автоматичного iндексування без граматики: вона
“розумiє” його iнакше. Проте важливо, що для отримання одного й того ж рiвня “розумiння” в системах, котрi
вирiшують рiзнi завдання, можуть бути потрiбнi принципово рiзнi засоби опису мови. У зв’язку з цим можна
висловити сумнiв у справедливостi запропонованого Р.Шенком критерiю “розумiння” машиною тексту як
спроможностi перифразування та обчислення пресупозицiй. Цей критерiй, як нам здається, повнiстю
визначається типом розробленої пiд керiвництвом Р.Шенка експериментальної системи “Марджi”, тодi як,
скажiмо, для системи автоматичного iндексування даний критерiй виявляється надлишковим. Отже,
iнформацiйна система, аналiзуючи текст, “розумiє” його - в тому сенсi, який вкладається в слово “розумiння “ в
системах даного типу, i перетворює його в деякий вихiдний запис. При цьому можливi такi ситуацiї: а) у
вихiдному запису немає нiчого такого, чого не було в явному виглядi в оригiналi чи того, що можна було б
заздалегiдь поставити в пряму залежнiсть його елементам, -нульовий рiвень “розумiння” (РР0); б) вихiдний
запис мiстить iнформацiю, в явному видi не присутню в текстi, тобто деяку iмплiцитну iнформацiю, -перший
рiвень “розумiння” (РР1). Подiбнiсть РР0 i РР1 полягає в тому, що системи, котрi мають можливiсть “розумiти”
текст на одному з цих рiвней, неспроможнi витягти з нього таку iмплiцитну iнформацiю, вияв якої в текстi
вимагає суто “людського” знання свiту. Подiбнiсть же РР1 i вищого рiвня розумiння полягає в тому, що в обох
випадках розумiння тексту виражається у отриманнi з тексту деякої iмплiцитної iнформацiї. Як на першому, так
i на нульовому рiвнях “розумiння” тексту може бути: а) “морфологiчним” - система “розумiє” морфологiчнi
характеристики лексичних одиниць; б) “синтаксичним” - система “розумiє” синтаксичнi вiдносини лексичних
одиниць у реченнi; в) “семантичним” - система “розумiє” семантичнi характеристики лексичних одиниць; г)
“гiперсинтаксичним” - система “розумiє” гiперсинтаксичнi вiдносини мiж реченнями тексту. Очевидно, одна i
та ж IС може мати спроможнiсть до комбiнацiї зазначених рiзновидiв “розумiння”. Цi рiзновиди “розумiння”
текстiв, точнiше, засоби їх “розумiння” iнформацiйним системами, характеризують тiльки апарат ана-лiзу
тексту, але нiяк не рiвень “розумiння”. Зокрема, використання в однiй IС семантично-синтаксичного
“розумiння”, а в iншiй, яка виконує iншi функцiї, морфологiчного, не дає нам права стверджувати, що РР
першої системи вищий, нiж другої. Таким чином, надалi ми зможемо класифiкувати будь-яку IС залежно вiд
рiвня та засобу “розумiння” нею тексту. Тепер, коли визначенi основнi поняття, необхiднi нам для подальших
мiркуваннь, перейдемо до висвiтлення деяких теоретичних i практичних проблем, якi постають перед
iнженерно-лiнгвiстичною методологiєю, з точки зору виконання її важливої соцiальної замови - побудови
систем, що “розумiють” текст.
1.3. Iнженерно-лiнгвiстичний експеримент
При побудовi промислової iнформацiйної системи, орiєнтованої на рiшення деякого конкретного завдання чи
кола завдань, необхiдно обрати оптимальнi рiвень i засiб “розумiння” тексту системою для вирiшення даного
кола завдань. Вибираючи той чи iнший рiвень, той чи iнший засiб “розумiння”, лiнгвiст закладає в основу
системи, що розробляється, деяку сукупнiсть лiнгвiстичних гiпотез. Таким чином, використання iнженерно-
лiнгвiстичної методологiї при розробцi IС сприяє одночасно вирiшенню двох взаємопов’язаних завдань: вибору
оптимального лiнгвiстичного забезпечення системи i перевiрцi лiнгвiстичних гiпотез, що лежать в основi
даного лiнгвiстичного забезпечення. При цьому лiнгвiст, який розробляє лiнгвiстичне забезпечення IС, має
усвiдомити, на яких гiпотезах базується розробка, i експлiцитно сформулювати цi гiпотези. Останнi мають бути
перевiренi шляхом iнженерно-лiнгвiстичного експерименту для визначення ступеня вiдповiдностi кожної
гiпотези дiйсностi. За умов недостатньо високого для рiшення поставлених практичних завдань ступеня
вiдповiдностi необхiдно обрати iнший засiб i/або рiвень “розумiння”, що вимагає формулювання нових гiпотез
та експериментальної їх перевiрки. Пiдкреслимо дуже важливе, на наш погляд, положення. Ми вважаємо, що
таке iстотне для iнформатики поняття, як якiсть роботи iнформацiйної системи (якiсть пошуку, перекладу,
реферування), не носить абсолютного характеру i сильно залежить вiд кiнцевої мети створення системи. Так,
якiсть автоматичного реферування в чималiй мiрi визначається тим, хто саме i для чого буде використовувати
реферат, одержаний вiд IС. Iнакше кажучи, в поняття “якiсть” входить декiлька складових, кожна з яких
вiдповiдає деякiй лiнгвiстичнiй гiпотезi (групi гiпотез), яка перевiряється пiд час експерименту, орiєнтованого
на перевiрку даної конкретної гiпотези. Таким чином, “центр ваги” лiнгвiстичних дослiджень переноситься на
експеримент. Саме необхiднiсть експериментальної перевiрки вимагає експлiцитного формулювання гiпотези, а
iнколи i визначає характер моделi, що базується на цiй гiпотезi. Тому необхiдно розробити методологiю
лiнгвiстичного експерименту (пор. [Пиотровский, 1985], що сприятиме вирiшенню iнформацiйних i
теоретично-лiнгвiстичних завдань. Наведу вимоги, що я їх висуваю до лiнгвiстичного експерименту. 1)
Експеримент має проводитися на реальних, не пiдготовлених навмисне текстах. 2) У процесi експерименту в
явному видi має перевiрятися кожна з експлiцитно i однозначно сформульованих гiпотез.
3) Експеримент має перiодично повторюватися для контролю адаптацiї системи до можливих принципових
змiн структури текстiв, що надходять на її вхiд. Ця вимога розповсюджується на системи, котрi стабiльно
функцiонують у промисловому режимi. Суть лiнгвiстичного експерименту полягає ось у чому. Iнформацiйна
система опрацьовує непiдготовленi заздалегiдь тексти, використовуючи тi рiвень i засiб “розумiння”, в основi
яких лежить експлiцитно сформульована гiпотеза про вiдповiдний лiнгвiстичний об’єкт. Результати роботи IС
пред’являються або лiнгвiсту для прямої перевiрки гiпотези, або кiнцевому користувачевi для непрямої її
перевiрки. При прямiй перевiрцi експеримент проводиться в термiнах гiпотези, а при непрямiй - в термiнах
оцiнки користувачем якостi роботи IС у цiлому. Iнакше кажучи, при прямiй перевiрцi експеримент ведеться в
термiнах лiнгвiста, а при непрямiй - у термiнах користувача. Непряма перевiрка вiдрiзняється вiд прямої тим,
що лiнгвiст здiйснює її на пiдставi оцiнки користувачем, котрий нiчого не знає про гiпотезу, що перевiряється,
результатiв роботи IС, i саме на пiдставi цiєї оцiнки лiнгвiст оцiнює свою гiпотезу. Безумовно, проблема вибору
оптимального рiвня “розумiння”, рiвно як i його засобу, є принципово важливою при розробцi IС. У рiвнiй мiрi
зрозумiлим представляється як прагнення їх розробникiв досягти максимальних результатiв при використаннi
мiнiмальних засобiв, так i бажання обладнати систему максимально можливим лiнгвiстичним забезпеченням. У
свiтлi сказаного вище стає очевидним, що тiльки лiнгвiстичний експеримент дозволяє вiдповiсти на питання
про необхiднiсть i достатнiсть того чи iншого рiвня, того чи iншого засобу “розумiння” для досягнення
необхiдного результату. Наведемо приклади. 1) У лiтературi висловлюються принципово рiзнi пiдходи до
автоматизацiї реферування: автори пропонують будувати системи з нульовим, першим i навiть вищим РР
(детальнiше див. [Добрускина, Берзон, 1986]). А за поняттям рiвня “розумiння” стоять цiлком рiзнi пiдходи до
технологiї реферування, якi потребують принципово рiзного лiнгвiстичного i програмного забезпечення. 2) При
розробцi iнформацiйно-пошукових систем, орiєнтованих на “розумiння” текстiв вхiдних iнформацiйних
потокiв, можна орiєнтуватися на рiзнi рiвнi “розумiння”. Так, при нульовому РР йдеться про автоматичне
iндексування документiв шляхом видiлення з них ключових слiв, точнiше -про автоматичне квазiiндексування;
в разi ж РР1 процедури iндексування пiдсилюються шляхом використання тематичного класифiкування, тобто
визначення тематики документу передує iндексуванню (див. Главу 2). При виборi типу IС роль iнженерно-
лiнгвiстичного експерименту виявляється вирiшальною, якщо ми не хочемо користуватися таким ненадiйним
критерiєм, як “загальнi мiркування”. Зрозумiло, оцiнюючи якiсть роботи IС, можна в принципi обмежитися
тривiальним експериментом, який не припускає оцiнки лiнгвiстичних гiпотез, що лежать в основi
лiнгвiстичного забезпечення даної системи. Проте при цьому ми ризикуємо не спостерегти глибинну, власне
мовну причину недолiкiв у роботi системи i повторити тi ж помилки в iнших системах.
У той же час, значення iнженерно-лiнгвiстичного експерименту цим не обмежується. Не менш важливим воно є
для теоретичної лiнгвiстики. В цьому випадку експеримент служить не тiльки засобом перевiрки уже
сформульованої гiпотези, а стимулює розробку такої гiпотези та її експлiцитне, несуперечливе формулювання.
Треба визначити, що проблематика лiнгвiстичного забезпечення iнформацiйних систем є виключно багатою на
потенцiйнi лiнгвiстичнi гiпотези, а лiнгвiсти, здебiльшого несвiдомо, спираються на них при опрацюваннi
лiнгвiстичного забезпечення. Тому, розробляючи IС, слiд, за моїм переконанням, мати сильний зворотний
зв’язок iз теорiєю мови. I навпаки, для кожної гiпотези, кожного нового поняття, що його вводить лiнгвiст,
необхiдно шукати iнформацiйну систему, в рамках якої можна було б перевiрити справедливiсть цiєї гiпотези i
реальнiсть даного поняття. Якщо ж таку систему знайти не вдається, то данi гiпотеза та поняття не можуть бути
визнанi надбанням лiнгвiстичної теорiї. Все сказане дозволяє нам говорити про важливiсть подальшого
розвитку теорiї та практики лiнгвiстичного експерименту з обов’язковим урахуванням як потреб у розробцi
промислових iнформацiйних систем, так i вимог теоретичної лiнгвiстики.
1.4. Вiдтворюючi iнженерно-лiнгвiстичнi моделi
Значення iнженерно-лiнгвiстичної методологiї, її основоположнi принципи викладаються в роботах
Р.Г.Пiотровського [Пиотровский 1979; Пиотровский, 1985]. Показуючи, що iнженерно-лiнгвiстична
методологiя опису мовних явищ є природним розвитком “традицiйних”, класичних засобiв, вiн пiдкреслює, що
в ходi дослiджень тексту, спрямованих на його наступну автоматичну обробку в рамках iнформацiйних систем
рiзного типу i призначення, лiнгвiст змушений мати справу з лiнгвiстичними об’єктами, котрi важко, а iнколи й
взагалi неможливо спостерiгати, такими, як системнi зв’язки плану змiсту. Цих труднощiв не знало “класичне”
мовознавство, яке вивчало й описувало функцiонування мови на рiвнi прямого спостереження, тобто макрорiвнi
вiдтворення та сприймання мови самою людиною. Вiдповiдно протиставляються гiпотетичнi моделi, котрi
використовуються в “традицiйному” мовознавствi, та вiдтворюючi моделi, що застосовуються в комп’ютернiй
лiнгвiстицi. Якщо для гiпотетичних моделей є характерною триланкова схема, то вiдтворюючi iнженерно-
лiнгвiстичнi моделi (ВIЛМ) Р.Г.Пiотровський пропонує будувати за чотириланковою схемою (мал.1.1), у якiй
необхiдно присутнiм i таким, що визначає специфiку моделi, є компонент вiдтворення об’єкту, що
моделюється, в рамках деякої iнформацiйної системи з метою перевiрки адекватностi моделi:
Мал.1.1. Схема ВIЛМ за Р.Г.Пiотровським
Актуальним завданням комп’ютерної лiнгвiстики є подальший розвиток i конкретизацiя концепцiї ВIЛМ з
метою розробки практичної методологiї iнжнерно-лiнгвiстичного моделювання мовних фактiв, яка озброїла б
лiнгвiстiв засобами розробки вiдтворюючих моделей. Для вирiшення цього завдання треба врахувати, що
iнженерно-лiнгвiстична методологiя розвивається не на пустому мiсцi, а на базi деяких засобiв лiнгвiстичного
аналiзу. Одним iз таких засобiв є описове подання лiнгвiстичних об’єктiв, що стало традицiйним i має постiйне
значення для мовознавства. Таке подання, по сутi, лежить в основi теоретичної лiнгвiстики. Воно дозволяє
описувати лiнгвiстичнi об’єкти з достатнiм для людського сприймання, але, зрозумiло, зовсiм не максимальним
ступенем детальностi та глибини. Назвемо такий опис лiнгвiстичних фактiв, котрий апелює до iнтуїцiї адресата-
читача, першою мiрою конкретизацiї цих фактiв. Наприклад, в описових поданнях граматичної категорiї
визначеностi англiйської мови викладаються принципи текстоутворення за допомогою цiєї категорiї, в першу
чергу -спiввiдношення граматично визначеного об’єкту з еталоном, що зберiгається в пам’ятi реципiєнта. У той
же час, у цих роботах не ставиться завдання розкрити конкретнi механiзми такого спiввiдношення, дати
можливiсть зробити докладний та несуперечливий опис даних механiзмiв i перевiрити цю несуперечливiсть
експериментально. Назвемо такий ступiнь конкретизацiї опису другим ступенем конкретизацiї. Принципова
рiзниця першого та другого ступенiв конкретизацiї полягає в тому, що опис другого ступеня не залежить вiд
iнтуїцiї людини i може бути вiдтворений автоматично; iнакше кажучи, опис другого ступеня конкретизацiї є
“машиноорiєнтованим”. У рядi випадкiв (особливо це стосується семантичних категорiй мови)
експериментальної перевiрки потребує не тiльки машиноорiєнтоване, але й “орiєнтоване на людину” подання
першого рiвня конкретизацiї. Прикладом може служити вiдома гiпотеза про смислову близькiсть слiв при
наявностi у них загального семантичного множника. Отже, I ланкою ВIЛМ має бути подання першого рiвня
конкретизацiї лiнгвiстичного об’єкту, що описується. Цьому поданню у концентрованому виглядi вiдповiдає
неформалiзована гiпотеза про об’єкт, висловлена в термiнах описового подання, - II ланка ВIЛМ. На пiдставi
формалiзованої гiпотези будується подання другого рiвня конкретизацiї - III ланка ВIЛМ. В алгоритмiчному,
концентрованому виглядi подання другого рiвня конкретизацiї функцiонує в iнформацiйнiй системi,
вiдтворюючи свiй прототип -лiнгвiстичний об’єкт, що моделюється. А функцiонуючи в системi, алгоритм, по
сутi, виконує функцiю формалiзованої гiпотези про цей об’єкт. Образно висловлюючись, неформалiзована
гiпотеза проголошує: “Лiнгвiстичний об’єкт, що моделюється, - це, взагалi кажучи,-... “. Формалiзована ж
гiпотеза (IV ланка) розвиває неформалiзовану, стверджуючи: “Лiнгвiстичний об’єкт, що моделюється, - це те,
що виявляється в текстi (мовi) за такими правилам: ... “. При цьому неформалiзована гiпотеза розрахована на
людське розумiння, а формалiзована -на машинне “розумiння”. Нарештi, V ланкою ВIЛМ є експеримент, що
переслiдує мету вiдтворення лiнгвiстичного об’єкту, що моделюється. Вiдтворення об’єкту дозволяє оцiнити
правильнiсть як описового, так i формалiзованого подань об’єкту, вiдбитих вiдповiдно у виглядi
неформалiзованої та машиноорiєнтованої гiпотез про об’єкт. Визначимо тут, що на практицi зовсiм не завжди
вдається добитися повної вiдповiдностi формалiзованої гiпотези гiпотезi неформалiзованiй, тому що не всi
елементи описового подання пiддаються алгоритмiчному опису. А це, в свою чергу, призводить до того, що
експериментальна перевiрка бiльш загальної, неформалiзованої гiпотези виявляється не зовсiм повною.
Повнота перевiрки неформалiзованої гiпотези буде тим вищою, чим повнiше формалiзована гiпотеза вiдбиває
неформалiзовану. Таким чином, розвиваючи вхiдну схему ВIЛМ, ми одержали модифiковану схему (мал. 1.2).
Мал.1.2. Схема ВIЛМ за М.С.Блехманом
У цiй п’ятиланковiй схемi ВIЛМ можна видiлити три вiдносно автономних i в той ж час взаємопов’язаних
блоки: - “описовий” (ланки I та II); - “формально-структурний” (ланка III); - “комп’ютерний” (ланки IV та V).
Цi блоки в принципi вiдповiдають описовому, структурному та комп’ютерному засобам вивчення мови. Iншими
словами, iнженерно-лiнгвiстична методологiя об’єднує три найважливiших напрямки синхронного
мовознавства: загальне мовознавство; структурну та математичну лiнгвiстику; прикладну лiнгвiстику. Тим
самим, з одного боку, створюються передумови подолання традицiйної суперечностi мiж цими
основоположними напрямками у мовознавствi, i, з iншого боку, формується єдина методологiя опису мовних
явищ, що використовує весь арсенал засобiв лiнгвiстичного аналiзу. Порiвнюючи модифiковану схему ВIЛМ з
вхiдною, ми бачимо такi вiдмiнностi: 1) у модифiкованiй схемi вiдсутня ланка “лiнгвiстичний об’єкт”, що
здається виправданим у зв’язку з фактичною неможливiстю включення об’єкту в модель; 2) у модифiкованiй
схемi присутня принципово важлива ланка “неформалiзована гiпотеза”, тобто припускається обов’язковiсть
описового подання концентрованого виразу об’єкту. Вiдмiна поняття неформалiзованої гiпотези вiд поняття
гiпотези у вхiднiй концепцiї ВIЛМ полягає в тому, що ми розумiємо пiд неформалiзованою гiпотезою
концентрований вираз вiдсутнього у вхiднiй концепцiї неформалiзованого опису об’єкту, що моделюється; 3) у
модифiковану схему введено компонент “формалiзована гiпотеза” - алгоритм розпiзнання в текстi об’єкту, що
моделюється. З нашої точки зору, у схемi ВIЛМ принципово важливо розрiзняти формалiзоване подання
об’єкту (пор. поняття аналога в [Пiотровський, 1979]) i алгоритм практичного його розпiзнання, оскiльки
алгоритм є не просто перекладенням формалiзованого опису на iншу мову, а особливим завданням
iнформацiйнiй системi на вiдтворення лiнгвiстичного факту, що моделюється. При розробцi систем
автоматичної обробки текстової iнформацiї досить слушним може бути використання модифiкованого варiанту
ВIЛМ, в основi якого безпосередньо лежить формалiзований опис тексту. При цьому ВIЛМ (назвемо її “ВIЛМ-
2”) має такий вигляд, як на мал. 1.3.
Мал.1.3. Схема ВIЛМ-2
Як бачимо, у ВIЛМ-2 вiдсутнiй неконцентрований опис, тому що модель будується безпосередньо з алгоритму,
що дозволяє зразу вийти на концентрований опис. ВIЛМ-2 ми рекомендуємо будувати тодi, коли при утвореннi
системи неясно, якi конкретно мовнi об’єкти пiдлягають моделюванню. Це вiдноситься до систем зi складною,
багатоаспектною обробкою тексту. Алгоритм такої обробки будується, виходячи з комплексної гiпотези про
рiвень “розумiння” тексту та оптимальної технологiї функцiювання системи. Таким чином, комп’ютерна
лiнгвiстика пропонує iдею поступового “вирощування” iнформацiйної системи замiсть одноразової побудови,
тому що ця остання є навряд чи можливою при опрацюваннi складних систем, у яких неможливо заздалегiдь
передбачити всi лiнгвiстичнi ситуацiї, якi моделюються. Для вирощування ж системи необхiдно ввести у ВIЛМ
i ВIЛМ-2 елемент iтеративного, циклiчного наближення до максимально досяжного результату. При цьому
кожний цикл припускає внесення змiн у гiпотезу, з наступною новою експериментальною перевiркою. Iтерацiя
припиняється, коли експеримент покаже, що система функцiонує задовiльно, а внесення нових змiн у гiпотезу
не дає полiпшеннь якостi роботи системи чи навiть призводить до гiрших результатiв. У цiй главi ми
розглянули теоретичнi аспекти комп’ютерної лiнгвiстики, що представляються нам головними. Перейдемо
тепер до аналiзу конкретних iнформацiйних систем, використовуючи при цьому запропонований вище апарат.
ГЛАВА 2. СИСТЕМИ IНФОРМАЦIЙНОГО ПОШУКУ
2.1. Iнформацiя i науково-технiчний прогрес
У наш час iнформацiя набула характеру однiєї з головних цiнностей земної цивiлiзацiї. В економiчно
розвинених країнах формуються нацiональнi iнформацiйнi ресурси, важливiсть яких можна порiвняти з
матерiальними та енергетичними. Бiльше того, економiка стає скорiше iнформацiйною, нiж iндустрiйною.
Вперше в iсторiї людства iнформацiя стала одним з основних предметiв працi [Сухина, 1987]. У 60-х роках
академiком А.А.Харкевичем був вiдкритий закон, згiдно з яким потреба в передачi iнформацiї є приблизно
пропорцiйною квадрату нацiонального прибутку країни. Тому, скажiмо, для подвоєння нацiонального прибутку
держави, що розвивається, необхiдне зростання передачi iнформацiї в чотири рази. Для вирiшення такого
грандiозного завдання необхiдно якiсне перетворення всiєї iнформацiйної сфери на базi iнформатики шляхом
використання потужних обчислювальних засобiв [Семенюк, 1987]. Проте зараз автоматизацiя i
комп’ютеризацiя iнформацiйної сфери країн бувшого СРСР вiдстають навiть вiд автоматизацiї виробництва, i,
якщо не прийняти енергiйних заходiв, ця сфера стане гальмувати зростання суспiльної продуктивностi працi
[Специальные..., 1986]. Досвiд показує, що автоматизацiя iнформацiйних процесiв - це далеко не тривiальна
проблема, а її рiшення не обмежується суто технiчними аспектами. Справа в тому, що iнформацiя часто
висловлена у виглядi текстiв на природних мовах, i її автоматична обробка для потреб кiнцевих користувачiв -
наукових робiтникiв, конструкторiв, технологiв, iнших фахiвцiв народного господарства є комплексною
iнженерно-лiнгвiстичною проблемою, рiшення якої треба шукати на перехрестi загального мовознавства,
структурної лiнгвiстики та iнформатики. Отже, виникає необхiднiсть теоретичного й практичного вирiшення
проблем автоматичної обробки текстової iнформацiї в iнформацiйних системах рiзних типiв. У цiй главi
розглядається один iз найважливiших аспектiв даної комплексної проблеми - побудова автоматизованих систем
науково-технiчної iнформацiї (АСНТI), якi забезпечують накопичення та пошук документальної (частiше
всього реферативної) НТI. Вiдомi три основних пiдходи до побудови АСНТI: межгалузевий, галузевий i
проблемний. Першi два пiдходи передбачають вiдповiдно утворення полiтематичних i галузевих систем, а
третiй - систем, орiєнтованих на пробле-матику конкретного пiдприємства чи установи, так званих локальних
АСНТI (ЛАСНТI). У 70-i та 80-i роки в СРСР питома вага проблемно-орiєнтованих систем була далекою вiд
об’єктивно необхiдної [Семенюк, 1986]. Таким же залишається вона й в Українi. У той же час треба визначити,
що з середини 60-х до середини 80-х рокiв свiтова iнформатика пройшла шлях вiд обмежених, призначених для
використання у своїй органiзацiї баз даних (БД) до централiзованих АСНТI, працюючих з роздiленням часу.
Сучасна ситуацiя повертає користувачiв до локальних БД iз забезпеченням iнтерактивного (дiалогового)
пошуку, що буде здiйснюватися самим користувачем, без посередникiв [Cuadra, 1987]. Такий поворот
викликаний тим, що розробка проблемно-орiєнтованих систем надає користувачам можливiсть зручного
особистого доступу до iнформацiї та дозволяє пiдвищити показники якостi iнформацiйного пошуку, їх повноту
i точнiсть. Дiйсно, пошук iнформацiї в проблемнiй, добре структурованiй базi може дати бiльш високi
показники повноти i точностi, нiж пошук у великих, полiтематичних масивах. З iншого боку, вартiсть пошуку
iнформацiї у власнiй БД може бути для пiдприємства менш високою, нiж регулярне використання дорогих
каналiв зв’язку, якщо тiльки iнформацiйний масив ЛАСНТI буде порiвняно невеликим i не займатиме надто
великий обсяг зовнiшньої пам’ятi ЕОМ. Досвiд показує, що при розробцi ЛАСНТI необхiдно вирiшити такi
принциповi проблеми: а) забезпечити невеликий обсяг БД при достатньо високiй повнотi фонду
машиночитаємої НТI; б) спростити процедуру складання пошукових запитiв, зробивши її зручною для
кiнцевого користувача, i у той же час забезпечити високi показники повноти i точностi пошукiв. Тому побудова
локальної АСНТI є не тiльки технiчною, але й у чималiй мiрi лiнгвiстичною проблемою, для вирiшення якої
недостатньо одного лише пiдвищення технiчного рiвня iнформацiйної iндустрiї, утворення потужних мереж
передачi НТI, впровадження персональних комп’ютерiв тощо. Для створення ЛАСНТI необхiдно розробити
ефективнi процедури автоматизованого вiдбору iнформацiї з мiжгалузевихi галузевих баз даних i
впорядкування вiдiбраної iнформацiї для наступного використання. Саме при розробцi таких процедур i
вирiшуються iнженерно-лiнгвiстичнi завдання, яким присвячена дана глава.
2.2. Теоретичнi аспекти побудови проблемно-орiєнтованих локальних АСНТI
У Державнiй автоматизованiй системi науково-технiчної iнформацiї СРСР локальнi АСНТI (ЛАСНТI) займали
особливе мiсце: вони взаємодiяли безпосередньо з кiнцевим користувачем НТI - конструктором, технологом,
науковим i iнформацiйним робiтниками НДI, вузу, пiдприємства [Семенюк, 1987]. I зрозумiло, що при будь-
якiй органiзацiї системи НТI в нашiй країнi ЛАСНТI залишиться незамiнним її елементом. У лiтературi
пропонується така класифiкацiя АСНТI з точки зору тематики комплектування iнформацiйного масиву:
багатогалузевi (полiтематичнi); галузевi; вузькотематичнi (локальнi) [Информатика, 1986, c.74]. Така
класифiкацiя не зовсiм точно вiдбиває справжнiй стан справ, бо робота сучасного НДI нiколи не обмежується
якоюсь однiєю вузькою тематичною галуззю, що, в свою чергу, не дозволяє будувати ЛАСНТI як
вузькотематичну систему. Проiлюструємо сказане на прикладi галузевого НДI технологiї
електромашинобудування [Блехман, Аксельрод, 1987], iнформацiйна потреба якого охоплює такi напрямки:
технологiю електромашинобудування (профiльная тематика НДI); широкий спектр сумiжних питань,
пов’язаних з подiбними технологiчними процесами в iнших областях електротехнiки, а також з
конструкцiйними характеристиками електричних машин, що розробляються; широку загально-машинобудiвну
тематику (гнучкi виробничi системи, роботи, деякi питання порошкової металургiї та переробки пластмас i
т.н.), що складає перiферiю iнформацiйних потреб НДI. Для задоволення всiєї гами iнформацiйних потреб
сучасного галузевого НДI, котрий регулярно здiйснює патентно-iнформацiйнi дослiдження, в тому числi на
передпроектних стадiях НДОКР, обов’язковим є використання науково-технiчної iнформацiї, що охоплює не
просто численнi тематичнi напрямки, але й рiзноманiтнi галузi науки i технiки. Справа в тому, що патентно-
iнформацiйнi дослiдження часто носять проблемний характер, а такий пiдхiд до iнформацiйного дослiдження
припускає використання як профiльної, так i сумiжної, а часто й периферiйної iнформацiї. З iншого боку, при
всiй широтi охоплюваної тематики iнформацiйна потреба НДI виявляється значно бiльш вузькою, нiж тематика
кожної галузi. Таким чином, iнформацiйний фонд ЛАСНТI має комплектуватися за парадоксальним принципом
“с миру по нитке”: в нього треба включати документи з деяких галузевих масивiв, причому кожний iз них має
бути представлений лише деякою своєю частиною. Вiдповiдно, локальна АСНТI “Технологiя” цього НДI
мусить мати три документальнi БД: профiльну, сумiжну та периферiйну. Перелiчимо вимоги, що кiнцевi
користувачi їх висувають до ЛАСНТI. Заздалегiдь визначимо, що будь-яка ЛАСНТI - це один iз iнструментiв
проведення НДОКР, тому звернення до неї, як правило, переслiдує не “загальноосвiтнi” цiлi, а розраховано на
одержання достатньої для прийняття обгрунтованого рiшення iнформацiї. Цим пояснюються високi вимоги до
повноти iнформацiйного фонду та якостi пошукiв у ньому. А порiвняно стислi термiни проведення НДОКР (при
явнiй тенденцiї до їх скорочення) диктують пiдвищенi вимоги до точностi тв комфортностi роботи з системою.
1) Вимоги до характеристик iнформацiйного фонду системи
Iнформацiйний фонд ЛАСНТI комплектується як профiльною, так i сумiжною iнформацiєю. Повнота
профiльної БД наближається до стопроцентної у порiвняннi з традицiйним, “паперовим” iнформацiйним
фондом, а iнколи й переважає його за обсягом завдяки включенню документiв, що не публiкуються. Щодо
масивiв “сумiжної” та “периферiйної” iнформацiї, то до них пред’являється менш жорстка вимога достатньої
репрезентативностi (бiля 80%).
2) Вимоги до режимiв функцiювання системи та якостi вiдповiдних iнформацiйних пошукiв
а) Система має розрiзняти профiльну та сумiжну iнформацiю загальної тематичної спрямованостi. б)
Забезпечується вибiрковий розподiл iнформацiї (ВРI) по профiльнiй НТI i по всьому масиву надходжень. При
цьому не менше 50-70% iнформацiї, що надається користувачам у режимi ВРI, має приходитися на частку
релевантної профiльної НТI з повнотою не менше 90%. Щодо сумiжної iнформацiї, то до її повноти в режимi
ВРI, як правило, жорсткi вимоги не висуваються. в) Мають забезпечуватися ретроспективнi пошуки НТI на
етапах НДОКР з показниками повноти, достатнiми для прийняття користувачами обгрунтованих науково-
виробничих рiшень. Для профiльної НТI цей показник - не менше 90%, а для “сумiжної” - не менше 70-80%.
Орiєнтовний загальний допустимий обсяг “шуму” - майже 50-60%, якщо загальний обсяг видачi складає 40-50 i
бiльше документiв. При маленьких видачах користувач, як правило, готовий миритися i з бiльш високими
показниками “шуму”. Бажано, проте, досягти такої якостi дiалогових пошукiв, щоб обсяг видчi складав, як
правило, не бiльше 50 документiв на запит, а на “шум” приходилися б документи, тематика яких наближається
до тематики запиту, - iнакше ка-жучи, щоб “шум” був не тiльки кiлькiсно, але й якiсно не занадто “сильним”.
3) Вимоги до комфортностi пошуку
Користувач хоче мати можливiсть спiлкуватися з системою на звичнiй йому мовi [Розенман, 1987]. Ця
принципово важлива вимога потребує пояснення. У сучасних документальних АСНТI мовою спiлкування
користувача з базою даних служить мова ключових слiв. Достоїнства такої мови загальновiдомi. Недолiк же, з
точки зору кiнцевого користувача ЛАСНТI, полягає, як показує досвiд, у тому, що користувачевi значно
зручнiше висловити свою iнформацiйну потребу у виглядi рубрики деякого класификатора, що вiдбиває
тематику НДОКР, нiж у виглядi алгебраїчної суми ключових слiв. При цьому користувач часто готовий
миритися з деякою надлишковiстю рубрики щодо його iнформацiйної потреби, тому що при добре
побудованому рубрикаторi в релевантну рубрику потрапляють також деякi “фоновi” документи, наявнiсть яких
у видачi може опинитися навiть бажаною. Зрозумiло, заздалегiдь можна припустити появу запитiв, якi
неможливо втиснути у прокрустово ложе якоїсь однiєї рубрики, i для пошуку по таких запитах необхiдно
використати дескрипторну мову. Як бачимо, поняття локальної АСНТI є функцiональним, а не територiальним.
Iншими словами, якщо галузева чи полiтематична АСНТI задовольняє перелiченим вимогам користувача, то
для нього вона, по сутi дiла, виступає у виглядi локальної системи. I навпаки, система, що функцiонує у рамках
НДI, але побудована як тематично не орiєнтована або орiєнтована на галузь, не виконує для конструктора чи
технолога НДI функцiй локальної. Нова класифiкацiя АСНТI запропонована в Табл. 2.1.
Таблиця 2.1
Визначимо, що клас проблемно-орiєнтованих систем ще тiльки треба створити. Однiєю з дiючих систем цього
класу є створена в Iнститутi проблем матерiалознавства АН України система ДОФIН, у котрiй
використовуються iнтелектуальнi процедури iндексування iнформацiї, яка вводиться [Шведков, 1985]. Нас буде
цiкавити в першу чергу можливiсть максимально досяжної автоматизацiї обробки вхiдних iнформацiйних
потокiв. Для побудови ЛАСНТI, що задовольнятиме перелiченим вище вимогам, необхiдно органiзувати
надходження в систему iнформацiйних потокiв iз деяких баз даних, що генеруються галузевими та
загальнодержавними АСНТI. БД ЛАСНТI “Технологiя” [Блехман, Горне, Павлов, Епифанов, 1989]
комплектувалася, зокрема, шляхом автоматичної переробки фрагменту галузевої бази даних з електротехнiки.
Вибiр вхiдної бази даних визначається iнформацiйними потребами установи, що описуються рубрикатором
“Технологiя”. Рубрикатор складається з роздiлiв, котрi вiдповiдають профiльнiй, сумiжнiй i периферiйнiй
тематикам. Рубрикацiя перших двох роздiлiв єдина i на верхньому рiвнi мiстить рубрики, що описують основнi
технологiчнi процеси електромашинобудування: намототково-iзолювальнi (нижче - “Намотка”), пропиточно-
сушильнi (“Пропитка”), збиральнi (“Сборка”), контрольно-випробувальнi (“Контроль”). Крiм того, видiлено
рубрики “Виготовлення колекторiв” (“Колектор”) i “Конструкцiя електродвигунiв i їх вузлiв” (“Двигатель”).
При рiчному надходженнi бiля 15 тис. рефератiв цей фрагмент БД мiстив не бiльше 5-7% iнформацiї з
профiльної тематики, i не менше 50-60% приходилося на частку заздалегiдь “шумової” iнформацiї. У Додатку
2.1 показано спiввiдношення потенцiйно релевантних рубрик ГАСНТI та рубрик верхнього рiвня рубрикатора
“Технологiя”. Визначимо, що кожна з цих рубрик ГАСНТI охоплює також i “шумову” для кiнцевих
користувачiв ЛАСНТI “Технологiя” iнформацiю. З БД, яка надходить у ЛАСНТI, має формуватися проблемно-
орiєнтована БД, яка служила б основою для проведення деяких рiзновидiв iнформацiйних пошукiв. Перелiчимо
їх. 1) Регулярне надання кiнцевому користувачевi iнформацiйних пiдбiрок по всiй проблемi (наприклад, по
проблемi “намотка”). Обсяг релевантної видачi по такому запиту складає, як показує досвiд, у середньому 100-
200 документiв на квартал, з урахуванням “сумiжної” iнформацiї. 2) Здiйснюванi в рамках патентно-
iнформацiйних дослiджень цiлеспрямованi пошуки за вузькотематичними запитами, кожний з яких вiдповiдає
рубрицi одного з нижчих рiвней локального рубрикатора або є ще бiльш вузьким (наприклад, “агрегатные
станки для совмещенной намотки и укладки обмоток статоров электродвигателей”). Обсяг видачi на такi запити
може об’єктивно складати лише декiлька релевантних документiв при пошуку в масивi з великою
ретроспективою, що вимагає такої повноти пошуку профiльної НТI, яка наближається до стопроцентної. 3)
Здiйснюванi в “довiдково-ознайомлювальних” цiлях пошуки по запитах, кожний з яких вiдповiдає рубрицi
другого (iнколи - третього) рiвня локального рубрикатора (наприклад, “намотка статоров электродвигателей”,
“контроль якорей электродвигателей”, “порезка проводов”, “зачистка изоляции на проводах” i т.iн.). Такi
довiдковi, “середньотематичнi” пошуки бiльше за все розповсюдженi в сучасних галузевих i мiжгалузевих
АСНТI. Проте, при всiх очевидних достоїнствах, їх недолiком є те, що, не даючи максимально повної видачi
iнформацiї по всiй проблемi (верхнiй рiвень локального рубрикатора) i по вузькому питанню (нижнiй рiвень
рубрикатора), вони можуть призводити до занадто надлишкових видач. Для побудови системи, яка вiдповiдає
перелiченим вимогам, необхiдно вирiшити ряд iнженерно-лiнгвiстичних завдань, котрi зводяться, якщо
скористуватися введеною в Главi 1 термiнологiєю, до реалiзацiї необхiдного рiвня “розумiння” текстiв, що
надходять у систему. Проблемно-орiєнтованi АСНТI будуються за iнженерно-лiнгвiстичним принципом
“вирощування” системи, що припускає послiдовне висунення i перевiрку гiпотез про необхiдний для утворення
проблемно-орiєнтованої системи УП, а також про конкретнi засоби реалiзацiї даного УП.
2.3. “Вирощування” ЛАСНТI
2.3.1. Локальнi системи галузевого типу
Органiзацiя опрацювання ЛАСНТI знаходиться у безпосереднiй залежностi вiд рiзновиду локальної системи,
що створюється. Деякi системи будуються на кшталт галузевих систем, так що система є локальною тiльки за
мiсцеперебуванням (обчислювальний центр iнституту чи конструкторського бюро). При такому пiдходi система
не може бути в повнiй мiрi вiднесена, вiдповiдно до нашої класифiкацiї, до локальних, тобто проблемно-
орiєнтованих АСНТI, а її “вирощування” здiйснюється в галузевих центрах НТI, як правило, без урахування
всiєї гами потреб кiнцевих користувачiв. Проте, у зв’язку з широким розповсюдженням локальних АСНТI
галузевого типу, стисло розглянемо цей клас систем. У 80-i роки активно опрацьовувалися i впроваджувалися
галузевi документальнi АСНТI (ОАСНТI). Однiєю з найбiльш ефективних ОАСНТI є система “ Електротехнiка-
2”, розроблена у ВНДI Iнформелектро (Москва) пiд керiвництвом Д.Г.Лахутi для iнформацiйного забезпечення
пiдприємств i органiзацiй Мiнелектротехпрому. ОАСНТI “Електротехнiка-2” базується на пакетi прикладних
програм СКОБКИ [Лахути, 1985], запровадженому в iнформацiйнi процеси багатьма установами галузевого i
локального рiвней. Пакет СКОБКИ забезпечує такi види автоматичної й автоматизованої обробки реферативної
НТI: а) конвертування iнформацiї з Мiжнародного та загальнодержавного комунiкацiйного формату МЕКОФ у
внутрiшнiй формат пакету i навпаки; б) iндексування документiв - їх автоматичний переклад на iнформацiйно-
пошукову мову з “нетривiальною граматикою”; при цьому здiйснюються морфологiчний аналiз словоформ
тексту, що iндексується, пошук основ у галузевому машинному дескрипторному словнику - тезаурусi (майже
17 тис. словникових статей) i формування пошукового запиту iз знайдених дескрипторiв, з вказiвкою порядку їх
слiдування у вхiдному текстi та входження в конкретнi фрагменти тексту (наприклад, в одне й те ж речення);
крiм того, при iндексуваннi автоматично розпiзнаються деякi фактичнi данi (потужнiсть двигуна тощо), що
робить систему, по сутi дiла, документально-фактографiчною; в) дiалоговий пошук НТI у базi з можливiстю
поширення пошукового запиту з урахуванням парадигматичних вiдносин, зафiксованих тезаурусом, i завдання
необхiдних контекстних вiдносин мiж термiнами в текстi; наприклад, видати документи, в яких термiни
“электрический” та “двигатель” входять в одне й те ж речення i знаходяться на вiдстанi не бiльше одного слова
одне вiд одного.
Багатi пошуковi можливостi пакету СКОБКИ роблять його потужним засобом проведення пошукiв довiдкового
типу. Щодо вузькотематичних i широкотематическiх пошукiв, то вони у галузевих АСНТI, в тому числi
“Электротехника-2”, як правило, не проводяться. Це викликано великою складнiстю пошукових запитiв,
необхiдних для того, щоб одержати високi показники повноти i точностi таких пошукiв.
2.3.2. Проблемно-орiєнтованi ЛАСНТI
Як було сказано вище, проблемно-орiєнтованi системи мають створюватися за iнженерно-лiнгвiстичним
принципом “вирощування”. Це тривалий, трудомiсткий процес, спрямований на поступове наближення до
максимально досяжної якостi автоматизацiї рутинних iнформацiйних процесiв. У [Dutton, 1986] повiдомляється
про досвiд впровадження нової iнформацiйної технологiї фiрмою ICI. Фахiвцi фiрми роблять висновок про те,
що майже в кожному випадку iснує гранiчний перiод мiж першим обговоренням можливостей розробки нової
системи i початком її експлуатацiї. Цей перiод складає не менше 5 рокiв у найбiльш пiдготовлених для цього
органiзацiях i до 10 рокiв в iнших. Опрацювання локальної АСНТI фiрми ICI вимагало: 6 рокiв для
впровадження засобiв вибiркового розподiлу НТI; 7 рокiв для утворення локальної iнформацiйної мережi; 12
рокiв для опрацювання засобiв пошуку iнформацiї в локальнiй базi даних. Тому для утворення проблемно-
орiєнтованої ЛАСНТI бажано використати деякi типовi рiшення. Однiєю з перших i найбiльш ефективних
вiтчизняних проблемно-орiєнтованих АСНТI є система ДОФIН [Шведков, 1985], яка розроблена й функцiонує з
1982 р. в Iнститутi проблем матерiалознавства (IПМ) АН України, Київ. Система ДОФIН (тематика - порошкова
металургiя) включає блок iнтелектуального iндексування. Останнє виконується висококвалiфiкованими
аналiтиками - фахiвцями в галузi порошкової металургiї, якi глибоко обiзнанi також з особливостей
лiнгвiстичного забезпечення системи. Утворення пошукового образу документу в системi ДОФIН [Денисенко и
др., 1982] - це складна операцiя, пов’язана з видiленням у документi тих смислових блокiв, що можуть бути
кориснi для наступного пошуку, i вираженням їх на IПЯ в закодованому виглядi. В IПЯ використовуються
вiдносини зв’язку та ролi, наприклад, “бути частиною хiмiчного сполучення”. Наведемо приклад. Маємо
документ:
“Использование материалов фирмы “Кеннаметал” в конструкциях. Дано описание спеченных твердых сплавов
на основе карбида вольфрама, ниобия, тантала и титана в различных сочетаниях; на основе карбида титана с
никель-мо-либденовой связкой; тяжелого сплава на основе вольфрама. Приведены данные об их физических,
теплофизических, механических и эксплуатационных свойствах. Описаны приемы обработки и соединения
этих материалов, принципы конст-руирования изделий из них, указаны сферы их применения”. Аналiтик
привласнив даному документу такий пошуковий образ:
А - спеченные керметы на связке и с наполнителем; В -эксплуатационные свойства спеченных
инструментальных, износостойких и конструкционных материалов; С - наполнитель - карбиды вольфрама,
ниобия, тантала и титана; D - связка -кобальт, молибден и никель; Е - спеченные тяжелые сплавы с основой; F -
основа (вольфрам); G - эксплуатационные свойства спеченных тяжелых сплавов.
Тут латинськими лiтерами визначенi показники зв’язку. Пошуковий образ записується аналiтиком на
спецiальнiй картi, де наводяться також показники ролi. Опрацьований таким чином документ вводиться в базу
даних. Джерела її комплектування - рiзноманiтнi вiтчизнянi та зарубiжнi видання з порошкової металургiї та
сумiжних пи-тань. Обсяг щорiчних надходжень у систему ДОФIН - майже 10 тис. документiв. Як бачимо, в цiй
АСНТI реалiзований другий рiвень розумiння текстiв. Iншими словами, АСНТI ДОФIН i “Электротехника-2”
знаходяться як би на рiзних полюсах можливих пiдходiв до побудови документальних систем.Справдi, в
системi з нульовим РР “Электротехника-2” досягнуто автоматизацiю формування БД, обсяг рiчних надходжень
у яку практично обмежений тiльки пропускною спроможнiстю ЕОМ. Зрозумiло, при цьому завдається деяка
шкода розпiзнавальнiй спроможностi системи. З iншого боку, в АСНТI ДОФIН обсяг рiчних надходжень
обмежений як тематикою, так i продуктiвнiстю працi аналiтикiв, але забезпечується виключно висока пошукова
спроможнiсть. Зрозумiло, що при побудовi локальної АСНТI необхiдно шукати розумний компромiс, свого
роду “золоту середину” мiж цими полюсами. Справа в тому, що, з одного боку, в реальних умовах роботи
локального iнформацiйного органу звичайно не вдається забезпечити iнтелектуальну пiдготовку всiєї БД, але, з
iншого боку, до розпiзнавальної спроможностi ЛАСНТI пред’являються бiльш високi вимоги, нiж до ОАСНТI.
В iнститутi “ВНДIТелектромаш” спiльно з ВНДIОМШБ (Харкiв) нами була розроблена ЛАСНТI “Технологiя”.
Початок розробки системи - 1979 р. За перiод iз 1981 по 1988 рр. було проведено три великих цикли робiт, котрi
склали процес “вирощування” ЛАСНТI “Технологiя”. Перший цикл включав перевiрку гiпотези про достатнiсть
нульового РР для побудови системи, що задовольнить перелiченим вище вимогам. При цьому послiдовно
випробовувалися рiзноманiтнi її модифiкацiї: а) система з автоматичним пословним iндексуванням документiв
по текстах їх рефератiв (включаючи заголовки) з використанням тезауруса унiтермiв. Пошуковий образ
документу в цiй версiї системи формувався зi знайдених у тезаурусi термiнiв документу, а також їх синонiмiв i
родових термiнiв; б) аналогiчна система, але без поширення пошукових образiв синонiмами та родовими
термiнами. Цим системам вiдповiдала така ВIЛМ-2. 1) Формалiзований опис текстiв документiв i запитiв: Текст
документу репрезентується як невпорядкована сукупнiсть слiв - термiнiв тезауруса, що включаються в
пошуковий образ, а також (при поширеннi пошукового образу) основ термiнiв, зв’язаних з першими
фiксованими тезаурусними зв’язками. Текст запиту представляється як логiчна сума основ термiнiв, присутнiх
у тезаурусi. 2) Алгоритм аналiзу текстiв документiв: Послiдовне порiвняння словоформ документу з
елементами тезаурусу - основами термiнiв - на входження основи в словоформу. При позитивнiй вiдповiдi
термiн тезауруса включається в пошуковий образ; поширення пошукового образу полягає у доповненнi його
основами, зв’язаними з кожною iз знайдених вiдносинами синонiмiї та “ширше - вужче”. 3) Експеримент, опис
якого наведений нижче. Для оцiнки якостi пошукiв у системi, яка працює з поширенням пошукового образу, в
1984-1985 рр. була проведена велика серiя цiлеспрямованих непрямих експериментiв з оцiнкою показникiв
повноти та точностi АСНТI “Технологiя”. Експерименти проводилися на великих (для локальної АСНТI)
масивах по реальних запитах кiнцевих користувачiв -технологов i конструкторiв iнституту. Перший
експеримент з цiєї серiї був проведений на двох масивах, що складають фонд АСНТI з порошкової металургiї.
Перший масив складався з 8 тис. документiв за 1970-1981 рр., вiдiбранних i введених у БД власними силами
iнституту; другий масив включав 15 тис. документiв за 1981-1983 рр., одержаних вiд АСНТI ДОФIН. Основна
рiзниця мiж масивами з точки зору пошукових характеристик системи полягає в тому, що перший масив мiстив
тiльки потенцiйно релевантну потребам користувачiв iнформацiю, а другiй - повну пiдбiрку документiв, котрi
вiдносяться до областi “Порошкова металургiя”. У цьому експериментi спочатку визначалися показники
пошукової релевантностi системи. Для цього в неї було введено 11 пошукових запитiв користувачiв-металургiв
на ретроспективний пошук iнформацiї. Для кожного запиту треба було визначити: - загальну кiлькiсть виданих
системою документiв; - кiлькiсть релевантних документiв, тобто таких, котрi вiдповiдають i запиту, i
iнформацiйнiй потребi користувача; - кiлькiсть квазiрелевантних документiв, тобто таких, що формально
вiдповiдають запиту, але не вiдповiдають фак-тичнiй iнформацiйнiй потребi користувача; розподiл на
релевантнi та квазiрелевантнi документи введений тому, що в рядi випадкiв користувач свiдомо чи несвiдомо
формує запит надто загально (зокрема, щоб уникнути втрат при вузькотематичних пошуках); - кiлькiсть
шумових документiв, котрi не вiдповiдають анi запиту, анi будь-якiй iнформацiйнiй потребi користувача; -
кiлькiсть квазiшумових документiв, тобто таких, що не вiдповiдають даному запиту, але, тим не менше,
представляють iнтерес для користувача. Запити надiйшли вiд користувачiв у такому виглядi: 1. Роторные
прессы и таблетмашины. 2. Загрузка деталей в прессформу. 3. Горячая ковка. 4. Гидростатистическое
прессование. 5. Роботы в порошковой металлургии. 6. Калибрование и прессование подшипников. 7. Все о
калибровании деталей в порошковой металлургии. 8. Изготовители металлокерамических контактов.9.
Изготовители оснастки для прессового оборудования. 1О. Биметаллические изделия. 11. Электрические
контакты на основе серебра. Кожний запит був перекладений диспетчером системи -лiнгвiстом у пошуковий
наказ. Наведемо перелiк цих наказiв iз коментарями щодо причини прийнятих рiшень. Коментар “тезаурус”
означає, що дане смислове вiдношення зафiксоване тезаурусом, а коментар “диспетчер” - що вiдношення задане
диспетчером-лiнгвiстом з iнтуiтивних мiркувань для пiдвищення якостi пошуку. Пiдкреслимо, що ефективне
виконання цiєї роботи кiнцевим користувачем є практично недосяжним. 1) “Ротор” или “таблет” или
“таблетмашин” [все -тезаурус]. Диспетчер вилучив з пошукового наказу термiн “пресс” для пiдвищення
повноти, в припущеннi, що слово “роторный” є необхiдним для даного запиту, а “пресс” - нi (пор. “роторный
автомат”, “роторная машина” тощо). 2) (“Прессформ” или “пресс-форм”) [тезаурус] и (“загруз” или “загруж”)
[тезаурус] или (“прессформ” или “пресс-форм”) и (“подач” или “подающ”) [диспетчер]. Диспетчер усунув
невизначений термiн “деталь”. 3) “Ковк” или (“горяч” или “нагоряч” или “горячепрессов” или
“горячештампов”) [тезаурус]. 4) (“Гидравлич” или “гидропресс” или “гидропривод” или “гидросистем” или
“гидростатич” или “гидроизостатич” или “гидромеханич”) [тезаурус] и (“прессов” или “уплотн” или “ГИП” или
“ДГП” или “брикетир”) [тезаурус]. 5) “Робот” или “робототехник” или “манипулятор” (тезаурус). 6)
(“Подшипник” или “антифрикци” или “шарикоподшипник”) и (“ГИП” или “прессов” или “уплотн” или “ДГП”
или “брикетир”) [тезаурус] или (“подшипник”...) и (“калибр” или “калибров”) [тезаурус]. 7) “Калибр” или
“калибров” [диспетчер залишив один термiн для пiдвищення повноти зважаючи на невизначенiсть термiнiв
“деталь”, “изделие” тощо]. 8) (“Контакт” или “электроконтакт”) и (“фирм” или “Courtoy” или “Alcoa” или... -
найменування ще 9 фiрм, зафiксованих тезаурусом) [все - тезаурус]. 9) (“Прессформ” или “пресс-форм”) и
(“фирм” или ...) или “оснастк” и (“фирм” или ...) [тезаурус]. 1O) “Двухслой” или “двуслой” или “многослой”
или “слоист” или “составн” или “композит” или “стык” или “слой” или “биметалл” или “биметаллич”
[тезаурус]. Диспетчер вилучив термiн “изделие”, тому що вiн потенцiйно має непередбачено велику кiлькiсть
видових термiнiв. 11) (“Изготовл” или “изготавл” или “получ” или “производ” или “приготовл” или
“приготавл” [тезаурус] и (“контакт” или “электроконтакт”) и (“серебр” или “Ag”) [тезаурус] или (“серебр”...) и
(“контакт”...) и “электрич”. Диспетчер урахував багатозначнiсть слова “контакт” (деталь електротехнiчного
призначення та торкання двох тiл або речовин) i спробував зняти її у запитi, вставивши в нього термiн
“изготовление” для тих випадкiв, коли в документi слово “контакт” буде вжито без визначення
“электрический”, яке знiмає багатозначнiсть. Результати перевiрки на шум наведенi в Табл. 2.3 та 2.4.
Таблиця 2.2
Оцiнка шуму на масивi “ВНДIТелектромаш”
Таблиця 2.3
Оцiнка шуму на масивi IПМ
Пошуки в масивi, сформованому власними силами, дали дещо кращi результати, нiж пошуки в суцiльному
масивi з порошкової металургiї, одержаному вiд АСНТI ДОФIН. При цьому треба нагадати, що рiчний масив
цiєї системи складає 10 тис. документiв, тому аналогiчнi пошуки в такому масивi за декiлька рокiв дали б
неприпустимо великий обсяг шуму як мiнiмум по 4 запитах з 11: NN 1, 4, 7, 10.
Для кожного iз нерелевантних документiв була визначена причина попадання у видачу. Були виявленi такi
причини шуму: а) помилки в словнику тезауруса (помилкове видiлення основи) i його смислових гнiздах
(надлишковi або просто помилковi зв’язки); б) занадто широке формулювання пошукового наказу - або з вини
користувача, який надто широко поставив запит, або диспетчера, який, щоб уникнути втрат, навмисне вилучив
термiн iз наказу; внаслiдок цього в першому з випадкiв помилково виданi квазiрелевантнi, а в другому - шумовi
та квазiшумовi документи; в) недостатнiй рiвень “розумiння” тексту на етапi iндексування. У Табл. 2.4 i 2.5
наведенi данi про причини шуму по кожному з зазначених вище масивiв.
Таблиця 2.4
Причини шуму на масивi “ВНДIТелектромаш” (у кiлькостi документiв)
Таблиця 2.5
Причини шуму на масивi IПМ
У цьому ж експериментi визначалися показники повноти пошуку в ЛАСНТI “Технологiя”. Для цього з масиву
IПМ було довiльно видiлено 1400 документiв, i на цьому масивi були проведенi пошуки по всiх 11 перелiчених
середньотематичних запитах. Паралельно на цьому ж масивi аналогiчнi пошуки були проведенi фахiвцем-
металургом, який вiдiбрав тiльки релевантнi документи. Для кожного “втраченого” системою документу
визначалися причини невидачi. Ось вони: а) недостатньо докладне формулювання пошукового наказу, тобто
вiдсутнiсть у ньому деяких необхiдних термiнiв; iнакше цю помилку можна трактувати як вiдсутнiсть у
тезаурусi вказiвки на деякий смисловий зв’язок термiнiв; б) вiдсутнiсть у тезаурусi потрiбного термiну i, як
наслiдок, вiдсутнiсть такого термiну в запитi. У Табл. 2.6 наведенi кiлькiснi данi про помилки обох типiв по
кожному з запитiв.
Таблиця 2.6
Причини втрат iнформацiї при пошуку в масивi 1400 документiв БД ДОФIН
Другий експеримент iз цiєї серiї був проведений у рамках iнформацiйно-пошукових робiт по темi
“Автоматизация прессования в порошковой металургии”. Дана ситуацiя принципово вiдрiзнялася вiд описаної
вище тим, що тепер користувач потребував iнформацiю по широкотематичному запиту - “проблемi”, причому
ця тематика була новою для користувача, i вiн не мiг сформулювати конкретнi, вузькотематичнi або довiдковi
запити; бiльше того, такi запити мали з’явитися саме пiсля пошукiв - у результатi вияву тенденцiй в
аналiзованiй областi. Для задоволення зазначеної iнформацiйної потреби користувача диспетчер-лiнгвiст
спочатку сформулював пошуковий наказ у виглядi: (“автомат” или “автоматич” или “автоматиз”) [тезаурус] и
“прессов”. Пошук здiйснювався на масивi “Порошковая металлургия” за 1970-1984 рр. (загальний обсяг масиву
- 30 тис. документiв). Перший пошук по однiй з порцiй масиву дав, за iнтуiтивним припущенням користувача,
великi втрати. Справа в тому, що в тезаурусi не були, та й практично не могли бути врахованi всi рiзноманiтнi
смисловi зв’язки ємного, багатоаспектного термiну “автоматизация”. Були вiдсутнi вiдповiднi термiни i в
запитi. Користувач розраховував одержати вiдомостi не просто про автоматичнi преси, а про допомiжнi засоби
автоматизацiї операцiй пресування порошкiв, що використовуються в сучаснiй порошковiй металургiї. Тому
спiльно з користувачем було вирiшено провести широкий пошук iнформацiї по пресовому устаткуванню, а
пiсля цього вручну вiдiбрати потрiбнi документи. Було сформульовано ємний пошуковий наказ, що складається
з диз’юнкцiї таких елементарних кон’юнктивних виразiв: “гидравлический, пресс”; “механический, пресс”;
“гидростатический, пресс”; “роторный, пресс”; “фирма, пресс”; “робот”; “ЭВМ”; “микропроцессор”; “контроль,
прессование”; “управление, прессование”; “автомат”; “конвейер”; “дозатор”; “привод, пресс”.
У цьому пошуковому наказi рiзноманiтнi смислорозрiзнюючi комбiнацiї термiну “пресс” покликанi в якiйсь
мiрi компенсувати вiдсутнiсть у системi граматичних засобiв, зокрема, показникiв ролi, i викликане цим
залучення у видачу документiв, для яких “пресс” є другорядним предметом. Припускалося, що при такому
широкому формулюваннi пошукового наказу в видачу потраплять документи, що вiдносяться власне i до
пресового устаткування, i до допомiжного устаткування, що забезпечує автоматизацiю пресування. Це
сподiвання виправдалося. Так, у видачу потрапили документи стосовно контролю висоти пресовки при
пресуваннi, використання мiкропроцесора для управлiння пресуванням i т.iн. Тим не менше, частка шумових
документiв була надто велика - майже 90% при кiлькостi релевантних документiв - 120. Основнi причини шуму
полягали як у явнiй залишковостi запиту, так i в залишковостi деяких тезаурусних зв’язкiв i нерозрiзненнi
деяких словотворчих суфiксiв, наприклад: “конвейер” = “конвейерн” (ср.: “конвейер” = “конвейерная печь”);
визначимо також велику кiлькiсть родо-видових зв’язкiв основи “механич” з термiнами, що описують механiчнi
характеристики деталей i засоби їх механiчної обробки. Безумовно, деякi з цих помилок викликанi
об’єктивними причинами: багатоозначнiстю слiв, точнiше потенцiйною сполученостю з термiнами рiзних
семантичних полiв. Третiй експеримент iз зазначеної серiї зводився до аналiзу видач по постiйно дiючих
запитах: “Изготовление изделий из медных порошков” (довiдковий запит) i “Спекание порошков”
(широкотематичний запит). Користувача, що дав перший запит, цiкавили документи по пресуванню та
спiканню порошкiв мiдi. Спочатку диспетчером системи, щоб запобiгти втрат, пошуковий наказ було
сформульовано з одного термiну “медь”: “мед” или “Cu” [тезаурус]. Внаслiдок цього частка шуму в видачi
кожний раз складала до 90% при обсязi кожної видачi не менше 100 документiв. Основною причиною шуму
була вiдсутнiсть у системi показникiв ролi i зв’язку, що призводило до залучення у видачу документiв, у яких
“медь” є не основним, а другорядним предметом (пор.: “Изготовление деталей из порошка алюминия с
добавками меди”). Пошуковий наказ було уточнено доданням у нього термiнiв “прессование”, “спекание” и
“изготовление”. Це дозволило дещо зменшити шум, проте це зменшення було недостатнiм, на що i вказав
користувач. Причиною шуму знову були надлишковi смисловi зв’язки в тезаурусi. Так, термiн “изготовление”
мав велику кiлькiсть видових зв’язкiв: “распыление”, “восстановление” тощо - для значення “Изготовление
порошков”. Термiн “прессование” мав видовой термiн “пресс”. Таким чином, система включала у видачу
документи, котрi не вiдповiдають запиту, тому що iз-за наявностi надлишкових зв’язкiв у тезаурусi вона
реагувала на “шумовi” комбiнацiї слiв, наприклад, “восстановление” i “медь”. Приблизно такий же результат
був одержаний на запит “Спекание порошков”, де користувача цiкавили характеристики процесу спiкання.
Шум був викликаний в основному надлишковими смисловими зв’язками термiну “спекание”: родо-видовим (з
термiном “печь”) i синонiмiчним (з термiном “спеченный”).
Четвертий експеримент на визначення повноти i точностi був проведений шляхом порiвняння показникiв
АСНТI “Технологiя” i ДОФIН на масивi 15 тис. документiв фонду ДОФIН по двох довiдкових
середньотематичних запитах: “Антифрикционные материали и подшипники на основе алюминия” та
“Изготовление электрических контактов из серебра”. АСНТI ДОФIН була обрана як еталон для порiвняння,
тому що в нiй, як ми сказали вище, застосовується iнтелектуальне iндексування документiв i запитiв
квалiфiкованими фахiвцями у галузi порошкової металургiї та використовується виключно потужна фасетно-
iєрархiчна мова з граматикою (показниками ролi та зв’язку),завдяки чому релевантнiсть i повнота пошуку в цiй
системi наближаються до 100% [Шведков, 1985]. Оцiнка видач обох систем проводилася фахiвцями IПМ, що,
очевидно, могло призвести до ототожнення релевантних i кваiрелевантних для фахiвцiв ВНДIТелектромашу
документiв. Результати пошукiв в АСНТI “Технологiя” такi: - шум - 20 документiв iз 59 по першому запиту та
88 iз 123 по другому; - втрати - вiдповiдно 21 i 28, тодi як втрати в АСНТI ДОФIН - вiдповiдно 4 i 0 документiв
при 100% релевантностi по обох запитах. Причини втрат в АСНТI “Технологiя” були аналогiчнi тим, що
спостерiгалися в описаних вище експериментах: - вiдсутнiсть деяких необхiдних термiнiв у запитi (напр.,
“изготовление” в даному випадку = “спекание”, “прессование”); - вiдсутнiсть у системi граматичних засобiв
(пор.: “электроконтактний материал из меди с добавкой серебра”; “электрический контакт” i “электрические
явления на поверхности контакта”). Нарештi, метою п’ятого експерименту було визначення можливостi
автоматичного вiдбору iнформацiї з БД ОАСНТI “Электротехника-2” по однiй з профiльних проблем -
”Обмоточно-изолировочные процессы”. Точнiше, треба було визначити: (1) чи зможе система регулярно
вiдбирати з фонду надходжень машиночитаємої iнформацiї документи, що вiдносяться до роздiлу “Обмоточно-
изолировочные процессы”, i (2) чи зможе система “розкладати” цi вiдiбранi документи по рубриках другого i
третього рiвней рубрикатора ВНДIТелектромашу. Галузь “Обмоточно-изолировочные процессы” об’єднує
декiлька рубрик другого рiвня: “Намотка и укладка обмоток”, “Изолирование” тощо. Наведемо приклади
рубрик третього рiвня для рубрики “Намотка и укладка обмоток”: “Намотка катушек с механической
раскладкой витков”, “Намотка катушек на ребро”, “Многоручьевая намотка роторов и якорей” i т.iн.; назви) цих
рубрик можна охарактеризувати як вузькотематичнi запити. Для вiдповiдi на поставленi питання спочатку були
сформульованi пошуковi накази, кожний з яких вiдповiдав рубрицi третього рiвня. Пошук проводився на масивi
загальним обсягом 40 тис. документiв за 1983-1984 рр. Результати пошуку були незадовiльними, причому
основнi претензiї фахiвця-конструктора вiдносилися до явно низької повноти видачi по чималiй частинi
“вузьких” рубрик. Справа в тому, що автоматичне iндексування по ключових словах є недостатнiм для
вiднесення документiв до такої “вузької” рубрики, тому що в них далеко не завжди в явному для машини видi
присутнi вiдповiднi термiни. Системi значно простiше визначити, чи вiдноситься документ до рубрики другого
рiвня (“середньотематичний запит”). Тому було вирiшено сформулювати бiльш широкi пошуковi накази,
кожний з яких вiдповiдав би однiй з рубрик другого рiвня. Проведений пiсля цього пошук дав такi результати.
а) Система вiдiбрала в цiлому майже 800 документiв, iз яких майже 300 були визнанi користувачем-
конструктором у цiлому такими, що вiдповiдають заданiй тематицi. б) Iз цього числа лише 50% документiв
вiдносилися власне до профiльної зони дiяльностi iнституту, а iншi були пов’язанi або з виготовленням iнших
електричних машин, або з конструкцiйними особливостями двигунiв (сумiжна та перифе-рiйна тематики). в) Ця
сукупнiсть вiдiбраних конструктором документiв опинилася приблизно вдвiчi меншою, нiж кiлькiсть
документiв тiєї ж тематики, вiдiбраних за той же перiод iз традицiйних джерел iнженерами-iнформаторамi.
Iнакше кажучи, шум при пошуку склав понад 60%, а втрати - не менше 50% (iнформацiйний каталог iнституту i
машинний фонд формувалися з приблизно рiвноцiнних джерел). Аналiз причин шуму показав, що основною
причиною була наявнiсть надлишкових смислових зв’язкiв у тезаурусi. Так, у пошуковому наказi по запиту
“Намотка и укладка обмоток” присутнiй кон’юнктивний вислiв “устройство, изготовление, обмотка” з термiном
“изготовление”, який має велику кiлькiсть надлишкових родо-видових зв’язкiв. Втрати при пошуку були
викликанi недостатньо докладним пошуковим наказом. Зокрема, аналiз iнститутської картотеки показав, що в
наказ по запиту “Изолирование” необхiдно було включити вирази: “паз и изоляция”; “изоляция и гильза”;
“лента и укладка”; “изоляция и обмотка”; “машина и электрическая” та деякi iншi. Щодо тiєї ж ВIЛМ у
модифiкацiї, яка не передбачає поширення пошукових образiв, то, зменшуючи шум, вона, природно, робить
повноту пошукiв ще бiльш залежною вiд повноти пiдбору термiнiв користувачем системи. Оцiнка якостi
iнформацiйних пошукiв по пiдсумках першої серiї експериментiв дозволила зробити такi практичнi висновки.
Система з нульовим РР не може функцiонувати у виглядi проблемно-орiєнтованої ЛАСНТI (пор. [Шведков,
1985]), яка задовольняла б перелiченим вище вимогам кiнцевих користува-чiв. Будучи реалiзованою в рамках
пiдприємства, вона може залишатися фактично довiдковою галузевою системою. При цьому запити довiдково-
ознайомчого типу виконуються такою системою в цiлому задовiльно. При унiтермовiй мовi без граматичних
засобiв, що застосовується в системi “Технологiя”, страждають в основному показники точностi (що, особливо
при розширеннi пошукового образу, можуть бути дуже невисокими), але й їх часто вдається довести до
прийнятного для користувачiв рiвня шляхом ретельного вiдпрацювання пошукових наказiв лiнгвiстом-
диспетчером. Пiдкреслимо, що все це вiдноситься до “довiдкових” запитiв середнього ступеня дрiбностi.
Пошуковий наказ для такого запиту виявляється найбiльш ефективним, якщо вiн є логiчною сумою простих
запитiв, кожний з яких є кон’юнкцiєю 2-3 дескрипторiв.
Якщо йдеться про широкотематичнi запити по рубриках першого рiвня локального рубрикатора (типу
“Намотка”, “Пропитка”, “Сборка i т.iн. ), то пошуковi накази для них мають складатися з декiлькох десяткiв
елементарних запитiв, що, не забезпечуючи необхiдної повноти, призводить до великого шуму в видачi,
особливо при розширеннi пошукового образу. Щодо вузькоспецiалiзованих запитiв, з якими технологи та
конструктори звертаються до системи при проведеннi патентно-iнформацiйних дослiджень на вiдповiдних
етапах НДОКР, то сформулювати їх у виглядi вiдповiдних пошукових наказiв, якi претендують на близьку до
стовiдсоткової повноту, практично не вдається. Це викликано, в першу чергу, розповсюдженою вiдсутнiстю
формальної лексичної вiдповiдностi релевантних вторинних документiв (рефератiв) iнформацiйнiй потребi
замовника. У цьому випадку вiдповiднiсть документа запиту виявляється не на рiвнi формального збiгу
термiнiв запиту i документiв, а на концептуальному рiвнi (другий рiвень розумiння). Пiдкреслимо також
складнiсть автоматичного розподiлу профiльної та сумiжної iнформацiї одного i того ж тематичного напряму.
Зокрема, при автоматичних пошуках практично не вдавалося вiдмежувати документи, що мiстять опис власне
технологiчного процесу, наприклад, процесу “Сборка роторов электродвигателей”, вiд документiв, котрi
описують конструкторськi рiшення, наприклад, конструкцiю ротора. Це викликано подiбнiстю лексичного
складу таких документiв при рiзницi ролевих функцiй термiнiв. Отже, непрямий експеримент призводить до
такого концентрованого неформалiзованого опису мови текстiв документiв i запитiв: а) Тексти запитiв можна
ранжувати в залежностi вiд понять плану змiсту, що виражаються ними, на широко-, середньо- та
вузькотематичнi. б) Текст кожного документу мiстить деякi термiни, що визначають його тематику, тобто такi,
якi можна поставити в пряму вiдповiднiсть кожному термiну запиту середньої тематичної ширини. Для
широко- та вузькотематичних запитiв ця умова не виконується: в текстi запиту можлива наявнiсть термiнiв,
яким немає прямої вiдповiдностi у текстi документу. в) Смисловi зв’язки термiнiв носять контекстний характер
i не можуть бути заданi апрiорно для iзольованих термiнiв. Одержаний неформалiзований опис мови
документiв i запитiв покладено в основу нового варiанту ВIЛМ. Другий цикл робiт включав перевiрку гiпотези
про достатнiсть першого УП для побудови системи, яка задовольняє вимогам, що висуваються до проблемно-
орiєнтованої АСНТI. Вiдповiдно, вхiдна модель була трансформована в таку ВIЛМ-2:
I. Формалiзований опис текстiв документiв i запитiв
Текст документу представляється як невпорядкована сукупнiсть основ термiнiв, включених у частотний
словник, причому обов’язковою характеристикою термiну є частота його вживання в еталонних масивах деяких
тематичних галузей. Крiм того, характеристикою всього документу як складного
цiлого вважається його вiдповiднiсть деякiй одиницi плану змiсту - тематичнiй галузi. Текст запиту
представляється як логiчна сума iндексу тематики та основ термiнiв (не обов’язково присутнiх у словнику).
II. Алгоритм
Була забезпечена двоетапна автоматична обробка текстiв, що надходять у систему “Технологiя”. а) На першому
етапi текст пословно iндексується по тезаурусу без розширення пошукового образу. б) На другому етапi
здiйснюється класифiкацiя документу - доповнення рубрики ГАСНТI рубрикою верхнього рiвня локального
рубрикатора, з одночасним вiдсiвом “шумових” документiв. Тематична класифiкацiя проводиться за
методикою, в основi якої лежить запропонована Б.Р.Певзнером концепцiя еталонних тематичних масивiв
[Певзнер, Блехман, Аксельрод, 1987]. Суть цiєї методики полагає в описi деякого мовного явища не на
модельному рiвнi (пор. [Пиотровский, Шингарева и др., 1985]), а через застосування реальних текстiв або
текстових фрагментiв. Такий пiдхiд, завдяки порiвнянiй простотi його реалiзацiї, є особливо перспективним для
локальних систем. Перша черга пiдсистеми класифiкування, впроваджена в промислову експлуатацiю в 1986 р.,
використовувала у виглядi лiнгвiстичного забезпечення дев’ять еталонних тематичних масивiв документiв,
кожний з яких вiдповiдає однiй з тематичних областей: “Намотка”, “Пропитка”, “Сборка”, “Контроль”,
“Коллектор”, “Двигатель”, “Привод”, “Сварка”, “Шум”. Масиви були вiдiбранi квалiфiкованими фахiвцями.
Обсяг кожного масиву - 350 документiв (бiльше середньорiчного обсягу надходжень профiльної iнформацiї по
однiй тематицi). Масив вiдiбраних документiв автоматично був перетворений у частотний словник основ, у
якому кожнiй основi вiдповiдає ланцюжок “ваги” по кожнiй з тематик. Вагою основи вважається кiлькiсть
документiв даного еталонного тематичного масиву, в яких ця основа зустрiлася. Тематичне класифiкування з
використанням одержаного словника, одиницею якого є iзольована вiд контексту основа, проводилося на
даному етапi розвитку системи диз’юнктивним засобом [Певзнер, Блехман, Аксельрод, 1987], який включав
такi процедури: 1) Черговий документ, що надходить у систему, автоматично представляється у виглядi
сукупностi диз’юнктивних запитiв до навчаючих масивiв. Кожний запит складається з однiєї основи. 2) Кожна
основа порiвнюється з еталонним словником. Якщо основа знайдена у словнику, то їй приписуються частоти
диференцiйовано для кожної тематики. 3) Для кожної тематики пiдраховуються словниковi частоти у виглядi
суми частот, котрi приписанi кожнiй знайденiй у словнику основi. Сума частот називається також “вагою”. 4)
Приймається рiшення про тематичну належнiсть документу. При цьому враховуються такi можливостi
спiввiдношення навчаючих масивiв у галузевiй БД:
а) тематика навчаючих масивiв повнiстю покриває тематику галузевої БД; б) тематика навчаючих масивiв не
повнiстю покриває тематику галузевої БД. Для адаптацiї до цих ситуацiй, що зустрiчаються в практицi
локальних органiв НТI, передбаченi двi можливостi. Перша можливiсть полягає в порiвняннi кожної обчисленої
ваги документу зi заздалегiдь заданим пороговим значенням ваги для вiдповiдної тематики. Для завдання таких
порогiв на етапi опрацювання здiйснюється контрольний розподiл документiв самих навчаючих масивiв по БД.
Аналiз цього розподiлу дозволяє експертовi обрати найкраще порогове значення - таке, що забезпечило б
найменшi можливi втрати при розумнiй частцi шуму. Вважалося, що документ вiдноситься до певної тематики,
якщо його вага по всiй тематицi перевищує задане порогове значення. В процесi розподiлу документ може бути
вiднесений не тiльки до однiєї, а й до декiлькох тематик. Якщо ж його вага по жодному з роздiлiв не перевищує
порогового значення, то система вiдхиляє документ - практично розподiляє його в додатковий масив, умовно
названий “Прочее” (“Iнше”). Друга можливiсть полягає у вiднесеннi документу до тiєї тематики, по якiй сума
частот основ є максимальною [Будько, 1976; Семенюк, 1987]. При цьому, природно, документ буде вiднесений
тiльки до однiєї тематики, i таким чином вiдпаде необхiднiсть у завданнi порогових значень.
III. Експеримент
Для оцiнки ефективностi диз’юнктивного засобу була проведена серiя його iспитiв на представницьких масивах
документiв. У процесi iспитiв виявлялися показники повноти й точностi класифiкування документiв. Важливо
пiдкреслити, що втрата документу, котрий вiдноситься до профiльної зони, є об’єктивно бiльш серйозною
помилкою, нiж втрата документу iз сумiжної зони. Вiдповiдно до цього, при вiднесеннi документiв до кожної з
тематик, що входять до профiльної зони, кiлькiсно оцiнювалися три типи втрат: - втрати I роду - документ,
релевантний певнiй тематицi профiльної зони, вiднесений до iншої тематики цiєї ж зони; - втрати II роду -
документ, релевантний певнiй тематицi профiльної зони, вiднесений до сумiжної зони; - втрати III роду -
документ, що вiдноситься до тематики профiльної зони, вiднесений до “шуму”. Втрати в сумiжнiй зонi, а також
шум в обох зонах оцiнювалися традицiйно, тобто визначалося вiдношення формально правильно вiднесених
документiв до загального числа розподiлених документiв, релевантних данiй тематицi. Перший iспит
диз’юнктивного засобу виконувався для оцiнки якостi диз’юнктивного засобу розподiлу документiв по БД з
використанням порогових значень. У систему був введений словник, що описує два тематичних роздiли:
“Коллектор” i “Прочее”. Iспиту було пiддано 1 тис. документiв. Показники точностi - 50% i втрат III роду - 12%.
Виявилося, що показники точностi i повноти при роботi системи в цьому режимi iстотно залежать вiд обсягу
документiв, велика частина яких мала реферат: пiд час класифiкування система втрачала “короткi” документи,
тобто такi, що або не мали рефератiв, або їх реферати складалися з одного речення. Визначимо, що
класифiкуванню в експериментi пiдлягали в основному “довгi” документи. Таким чином, можна було очiкувати
рiзкого падiння показникiв повноти в базах, котрi мiстять велику кiлькiсть “коротких” документiв, що значно
знижує загальну ефективнiсть засобу. Метою другого iспиту був аналiз диз’юнктивного засобу розподiлу без
застосування порогових значень, оскiльки вони, як показав перший iспит, сильно залежать вiд наповнення
вхiдної БД. Був сформований еталонний словник, що покриває шiсть тематичних роздiлiв: “Обмоточно-
изолировочные процессы”, “Производство коллекторов”, “Конструкция электродвигателей”, “Привод”,
“Сварка”, “Прочее”. Класифiкуванню були пiдданi два масиви: а) масив рефератiв по роздiлу “Технология
электромашиностроения” (3 тис. документiв); б) масив рефератiв мiжгалузевої тематики з РЖ ВIНIТI
“Электротехника” та “Сварка” (2 тис. документiв). У зв’язку з попереднiм характером даного iспиту в ньому
оцiнювалися показники точностi та втрат III роду по двох роздiлах профiльної зони: “Намотка” та “Коллектор”.
Були одержанi такi показники: - втрати III роду по обох профiльних тематиках не перевищували 10% для обох
масивiв, що дослiджувалися; - показник точностi на першому масивi склав 75%; - показник точностi на другому
масивi - менше 20%. Порiвняння двох дослiджуваних масивiв i одержаних результатiв показало, що до
тематики “Намотка” системою було вiднесено неприпустимо багато документiв по роздiлах “Конструкция
электродвигателей”, “Сварка”, “Прочее”, а також по тематиках, якi не були врахованi при складаннi навчаючих
масивiв ( Транспорт”, “Общие вопросы электротехники”). Цi помилки були викликанi трьома причинами: -
полiтематичнiстю вхiдної бази ВIНIТI; - неповним покриттям тематики вхiдної бази навчаючими масивами; -
приблизно рiвним числом документiв у кожному навчаючому масивi. Першi двi причини є взаємопов’язаними.
Проаналiзуємо вплив на ефективнiсть засобу третьої причини. При рiвнiй кiлькостi документiв у навчаючих
масивах система по-рiзному реагує на частоту вжитку одного й того ж слова в навчаючих масивах: чим ширше
тематика, тим цiннiше накопичена на нiй вага слова. Наприклад, слово “изготовление” (основа “изготовл”)
одержало по тематицi “Намотка” вагу 118, а по тематицi “Сварка”, що значно ширше першої, тiльки 39.
Внаслiдок цього багато документiв, особливо коротких, по тематицi “Сварка”, що мають у своєму складi слово
“изготовление”, були помилково вiднесенi до тематики “Обмоточно-изолировочние процессы”, а деяких
характерних слiв взагалi не опинилося в еталонному словнику (напр., “горелка”). Як бачимо, основна причина
помилкового класифiкування документiв полягала в недостатньому обсязi навчаючих масивiв для
широкотематичних напрямкiв, тобто об’єм навчаючого масиву по тематицi “Сварка”, можливо, мав бути
бiльше, нiж обсяг масиву по тематицi “Обмоточно-изолировочные процессы”.
Щоб компенсувати цей недолiк, прийшлося вольовим шляхом змiнювати вагу деяких слiв у навчаючих
масивах. По-перше, характерним для певної тематики словам приписувалася вага, рiвна подвоєнiй кiлькостi
документiв у навчаючому масивi по данiй тематицi. Наприклад, слово “травление” одержало вагу 700 по
тематицi “Прочее”, тому що вiдповiдний навчаючий масив мiстив 350 документiв. По-друге, вирiвнювалася
вага слiв, характерних для двох тематик, якщо рiзниця у вазi призводила до шуму. Для цього словам, якi
спочатку одержали недостатньо високу вагу i таким чином вплинули на точнiсть класифiкування, по широкiй
тематицi була привласнена та ж вага, що й по вузькiй. З цiєю метою, наприклад, слово “изготовление”
одержало по тематицi “Сварка” ту ж вагу, що i по тематицi “Намотка”; для слова “статор” була вирiвнена вага
по тематиках “Конструкция электродвигателей” i “Намотка”. Третiй iспит диз’юнктивного засобу. Мета даного
експерименту - визначення впливу мiри полiтематичностi вхiдної БД на параметри класифiкування - повноту i
точнiсть. У якостi вхiдних даних, що пiдлягають класифiкуванню, було вибрано чотири масиви по 2 тис.
документiв кожний: “Электромашиностроение” - масив, що становить частину галузевої БД з електротехнiки та
вiдповiдний тим рубрикам Рубрикатору ГАСНТI, в яких можуть мiститися документи з технологiї
електромашинобудування (“Провода и кабели”, “Электрические материалы”, “Электрические машины,
аппараты и трансформаторы”, “Электропривод”); “Электромашиностроение и сварка” - масив, у який входять
БД “Электромашиностроение” та масив документiв по тематицi “Сварка”; “Электротехника” - галузева БД;
“Электромашиностроение и машиностроение” - БД, що мiстить масив “Электромашиностроение” та
широкотематичний масив документiв, котрий вiдповiдає рубрицi “Машиностроение” Рубрикатора ГАСНТI.
Виходячи з поставленого завдання, перелiченi масиви мали такi особливостi. БД “Электромашиностроение”
характеризувалася найменшим ступенем полiтематичностi з усiх чотирьох, причому її тематика майже
повнiстю покривалася навчаючим масивом; таке ж покриття забезпечувалося i для БД
“Электромашиностроение и сварка”, але ступiнь полiтематичностi даної БД був вищий, нiж у БД
“Электромашиностроение”; iншi двi БД вiдрiзнялися високим ступенем полiтематичностi, причому їхня
тематика була значно ширшою за тематики навчаючого масиву. У процесi експерименту пiдраховувалися такi
параметри класифiкування документiв кожної з чотирьох перелiчених БД: 1) Втрати I, II та III типiв для
кожного з роздiлiв профiльної зони: Обмоточно-изолировочные процессы. Пропиточно-сушильные процессы.
Сборочные процессы. Контрольно-испытательные процессы. Производство коллекторов. 2) Втрати для
кожного з роздiлiв сумiжної зони: Конструкция электродвигателей. Привод. Сварка.
3) Шум по кожному з роздiлiв. Результати експерименту наведенi у Табл. 2.6.
Таблиця 2.6
Результати класифiкування документiв чотирьох вхiдних масивiв з використанням диз’юнктивного засобу
Згiдно з даними цiєї таблицi, диз’юнктивний засiб класифiкування документiв, оснований на виборi
максимального значення ваги за вiдсутностi порогового значення, характеризується такими показниками.
а) Основний процент втрат у профiльнiй зонi (втрати I роду) приходиться на перерозподiл документiв усерединi
профiльної зони; у той же час мають мiсце приблизно рiвнi, хоча й порiвняно невеликi втрати II i III родiв.
Повнота по тематиках сумiжної зони опинилася достатньо високою - не менше 80%. б) Точнiсть
класифiкування документiв iстотно залежить вiд мiри покриття тематики БД тематикою навчаючого масиву: з
пiдвищенням тематичної неоднородностi та зi зменшенням мiри покриття тематики вхiдної БД навчаючим
масивом точнiсть класифiкування падає. Такого результату можна було очiкувати, тому що при класифiкуваннi
документiв за принципом максимальної суми кожний документ обов’язково має бути вiднесений до однiєї з
тематик. При цьому документ, який вiдноситься до тематики, не передбаченою навчаючим масивом, вiдносився
системою до тiєї з вiдомих їй тематик, з документами якої у даного документу було бiльше спiльних слiв. Так,
усi документи, що вiдносяться до тематики “Механическая обработка деталей” БД “Электромашиностроение и
машиностроение”, були помилково вiднесенi системою до рубрики “Обмоточно-изолировочные процессы”,
тому що, наприклад, слово “станок”, спiльне для цих тематик, має бiльшу вагу щодо профiльної зони. в)
Словник системи складається з iзольованих слiв, їхнiй контекст не враховується. Результатом цього є помилки
при вiднесеннi документiв до тематик. г) У словник системи вводиться багато випадкових, у тому числi
загальновживаних слiв. Їх наявнiсть у словнику є неприпустимою, тому що дає непередбаченi помилки при
вiднесеннi документiв до тематик, тому при утвореннi словника приходиться вручну вилучати цi слова.
Iнтелектуального корегування потребує також вага слiв. д) Нарештi, реалiзований алгоритм дозволяє вiдносити
документ тiльки до однiєї тематики, тодi як не менше 10% документiв вiдносяться бiльше нiж до однiєї рубрики
верхнього рiвня локального рубрикатора. Так, документ “Контроль качества коллекторов электрических
машин” вiдноситься до двох рубрик - “Производство коллекторов” i “Контроль”. Вiдзначимо, що використання
вiдповiдностi мiж локальним рубрикатором i рубрикатором ГАСНТI дозволило пiдвищити показники точностi
класифiкування без завдання iстотної шкоди їхнiй повнотi, тому що в цьому випадку йшлося фактично про БД
“Электромашиностроение”. Iспит пiдсистеми класифiкування на масивi 1800 документiв цiєї БД дав у цiлому
85% правильних рiшень, тобто випадкiв, коли рiшення, прийняте машиною, спiвпало з рiшенням, прийнятим
експертом. Тому ця таблица вважається невiд’ємною частиною пiдсистеми тематичного класифiкування
ЛАСНТI “Технологiя”. Проведенi непрямi експерименти в цiлому пiдтвердили правильнiсть концентрованого
неформалiзованого опису мови текстiв документiв i запитiв i дозволили уточнити один iз його пунктiв, а
саме:незважаючи на розповсюджену вiдсутнiсть прямої вiдповiдностi мiж лексикою широкотематичного запиту
(напр., “Сборочные процессы в производстве электродвигателей”) i релевантних цьому запиту документiв,
iснує, як правило, непряма вiдповiднiсть, яка може бути алгоритмiчно виведена з залученням лексики
тематично близьких документiв. За пiдсумками дворiчної (1986-1987 рр.) промислової експлуатацiї, що
полягала у проведеннi широкотематичних пошукiв на етапах “ТЗ на НДР”, “ТЗ на ДКР”, “Вибiр напрямку
дослiджень”, зробленi такi практичнi висновки щодо сформульованої теорiї: 1) Система, яка базується на
першому рiвнi “розумiння” текстiв, може дiяти в режимi IРI. При цьому показники повноти виявляються
близькими до необхiдних, а точностi -дещо нижче необхiдних; в одержуваних щокварталу машинограмах,
середнiй обсяг яких - 100-200 документiв по кожнiй рубрицi верхнього рiвня локального рубрикатора, частка
релевантної iнформацiї складає в середньому 60-70%, а профiльної - 30-40%. Пошуковий наказ для пошуку по
такiй рубрицi виражається або її iндексом (для тематик “Намотка”, “Контроль”, “Коллектор”, “Двигатель”), або
- для забезпечення необхiдної повноти - iндексом рубрики + декiлька високочастотних дескрипторiв (для
тематик “Сборка” та “Пропитка”). Для пiдвищення точностi широкотематичних пошукiв необхiдно
модифiкувати технологiю класифiкування, що, в свою чергу, вимагає висунення i лiнгвiстичної перевiрки
вiдповiдних гiпотез. 2) Система з першим РР, так же, як i система з нульовим РР, не забезпечує необхiдної
повноти вузькоспецiалiзованих пошукiв, зi збалансованим процентом “шуму”. В той же час, спростилося
проведення довiдкових ретроспективних пошукiв, причому вдалося пiдвищити їх якiсть. Справа в тому, що
введення в систему операцiї тематичного класифiкування дозволяє проводити пошуки не по всiй базi, а в
певному її пiдмасивi. Так, пошуковий наказ по запиту “Заклинивание обмоток” тепер може бути висловлений
простою диз’юнкцiєю ключових слiв “заклинивание” та “клин” при пошуку в пiдмасивi “Намотка”. Такий
пошук дає не бiльше 50% шуму при високiй повнотi (майже 90%), тодi як аналогiчний пошук по всiй базi давав
значно бiльш високий процент шуму зважаючи на багатозначнiсть термiнiв “заклинивание” та “клин”. Новi
пошуковi можливостi дозволили проводити в деяких патентно-iнформацiйних дослiдженнях такi пошуки
“середньої тематичної дрiбностi” замiсть вузькоспецiалiзованих, а пiсля цього вручну вiдбирати з одержаних
машинограм пертинентнi документи. У третьому наближеннi наша ВIЛМ-2 має такий вигляд: 1)
Формалiзований та неформалiзований описи текстiв документiв i запитiв залишились незмiнними у порiвняннi
з попередньою модифiкацiєю моделi. 2) Алгоритм аналiзу текстiв був доповнений процедурою iнтелектуальної
постобробки, при якiй диспетчер здiйснює: - вiдсiв шумових документiв, помилково не вiдсiяних системою; -
виправлення помилок I та II родiв; - поглиблене рубрицiювання документiв. Iнакше кажучи, в систему введений
другий рiвень “розумiння” текстiв. 3) Результати експериментiв з системою, що вiдповiдає данiй версiї ВIЛМ-2,
наведенi в роздiлi 2.4 даної глави. На завершення опишемо методику автоматичного класифiкування, що
розвиває диз’юнктивний засiб вiднесення документiв до рубрик. Ця методика використовує модифiкацiю
запропонованого Б.Р.Певзнером засобу кон’юнкцiї i, з нашої точки зору, представляє iнтерес, незвжаючи на те,
що не була реалiзована у виглядi комп’ютерної програми. Словник системи в новiй редакцiї має складатися з
ланцюжкiв основ слiв з приписаними кожному ланцюжку номерами тематик, до яких цей ланцюжок
вiдноситься. Крiм того, iснує список основ, якi зустрiлися в ланцюжках. Обидва словники не є частотними,
тобто нi основи, нi їхнi ланцюжки не мiстять вагових характеристик. Формування словника ланцюжкiв
починається з формування списку основ. а) Спочатку користувачевi пропонуються документи навчаючого
масиву (в тому виглядi, як це реалiзовано у диз’юнктивнiй технологiї). Користувач вiдбирає релевантнi
документи, не класифiкуючи їх. Якщо заздалегiдь вiдомо, що в масивi не може бути шумових документiв,
робота починається безпосередньо з наступного етапу. б) Iз вiдмiчених документiв система формує список
основ слiв без закiнчень. Вага не приписується. Вiдкидання слiв по ваговому порогу не застосовується.
Припускається, але не є обов’язковим, ручне вiдкидання помилкових i випадкових слiв. в) Пiсля цього iз
заданого користувачем поля кожного релевантного документу автоматично формується список усiх можливих
ланцюжкiв. Визначимо, що в текстi реферату ланцюжки формуються всерединi речень. Ланцюжки формуються
так. 1) Заздалегiдь вручну заготовляються модельнi комбiнацiї ланцюжкiв для всiх типiв текстiв. Тип тексту - це
кiлькiсть у ньому основ iз списка, сформованого на попереднiх етапах. Приклад: Маємо текст типу “4”, тобто в
ньому мiститься 4 основи зi списку. Модельна комбiнацiя для даного типу тексту має такий вигляд:
1234 123 12 234 23 34 134 13
Якби мали текст типу “3”, то мали б таку модельну комбiнацiю:
123 12 23 13
Тут кожна цифра (1, 2, 3, 4) означає, що деяка основа є в даному текстi першою (другою, третьою, четвертою) iз
знайдених у списку. Для спрощення подальшої роботи системи у виглядi параметра задається максимальне
значення типу тексту (по умовчанню - 5). Тодi вхiдний текст автоматично розбивається на ланцюжки по 5
основ, знайдених у списку. 2) У вiдповiдну модельну комбiнацiю пiдставляються порядковi номери основ. г)
Одержанi таким чином ланцюжки основ нумеруються системою i пропонуються експертовi разом iз “меню”
номерiв тематик, аналогiчно виводу документiв. Кожний ланцюжок виводиться у виглядi:
ЦЕПОЧКА N ОСНОВА (ЕЕ ПОРЯДКОВИЙ НОМЕР В СПИСКЕ ОСНОВ) НОМЕРА ТЕМАТИК
Приклад:
ЦЕПОЧКА N 1 УСТРОЙСТВ (288) НАТЯЖЕН (195) ПРОВОД (2О7)
1 2 3 4 5 6 7 8 . . . . . . . . . .
д) Фахiвець аналiзує кожний ланцюжок основ так, як якби це був заголовок документу, i вiдмiчає номер
вiдповiдної тематики (тематик). Кiлькiсть тематик, до яких може вiдноситися один ланцюжок, не має
перевищувати 3. Якщо ланцюжок не може бути вiднесений до конкретних однiєї, двох чи трьох тематик, то
жоден iз номерiв не вiдмiчається. е) Пiсля того як фахiвець опрацював всю машинограму, данi його аналiзу
вводяться в систему у виглядi: N цепочки N тематики, N тематики Система формує словник ланцюжкiв у
виглядi:
Цепочки типа 1:
Цепочка Тематика
Цепочки типа 2:
Цепочка Тематика 1 Тематика 2
Цепочки типа 3:
Цепочка Тематика 1 Тематика 2 Тематика 3
Тут ланцюжок - це послiдовнiсть порядкових номерiв основ у списку основ. Наприклад, для наведеного вище
ланцюжка устройств (288) натяжен (195) провод (207) маємо ланцюжок: 288 195 207 1, де 1 - номер деякої
тематики (“Обмоточно-изолировочные процессы”).
ж) На завершення формування словника система виключає зi списку основ тi основи, що не зустрiлися в
жодному з ланцюжкiв. При цьому автоматично коректуються ланцюжки, тому що змiнилися порядковi номери
основ.
Автоматична атрибуцiя здiйснюється шляхом вияву у заданому користувачем полi документу (наприклад,
заголовку i/або певних реченнях тексту) ланцюжкiв, що мiстяться у словнику. Вважається, що документ
вiдноситься до тiєї тематики (тематик), до якої (яких) вiдносяться знайденi ланцюжки. Якщо ж жодного такого
ланцюжка в документi не знайдено, то вiн вiдсiюється як шумовий. Алгоритм класифiкування має такий
вигляд: 1) Пошук у документi основ зi списку. Якщо при пошуку по заголовку знайдено не бiльше однiєї
основи, то або документ вiдсiюється як шумовий, або система шукає основи в рефератi шляхом аналiзу
кожного речення чи перших 10 слiв тексту. 2) Визначення типу документу в залежностi вiд кiлькостi знайдених
у списку основ. Породження всiх можливих ланцюжкiв. 3) Пошук ланцюжкiв у словнику на повний збiг.
Приорiтет довших ланцюжкiв, тобто якщо в словнику знайшовся, наприклад, 4-елементний ланцюжок, то 3- та
2-елементнi ланцюжки не шукаються. 4) Вiднесення документа до тематики (тематик) знайдених ланцюжкiв.
(Для ознайомлення з повним текстом статті необхідно залогінитись)