РОБОЧА ПРОГРАМА НАВЧАЛЬНОЇ ДИСЦИПЛІНИ
________________Методи опрацювання природної мови___________________
/код і назва навчальної дисципліни/
__________________________2-магістр__________________________________
/рівень вищої освіти/
галузь знань_______________12 «Інформаційні технології»__________________
/шифр і назва/
спеціальність _______122 «Комп’ютерні науки та інформаційні технології»____
/шифр і назва /
спеціалізація_____________Системи штучного інтелекту ___________________
/шифр і назва /
вид дисципліни____за вибором___________________________________________________
(обов’язкова / за вибором)
мова викладання___українська____________________________________________________
Львів – 2016 рік
Робоча програма з навчальної дисципліни «Методи опрацювання природної мови» для студентів Інституту комп’ютерних наук та інформаційних технологій.
Розробник:
_доцент кафедри ІСМ, к.т.н._____ __________________ /___В.А. Висоцька____/
/посада, науковий ступінь та вчене звання/ /підпис/ /ініціали та прізвище/
Робоча програма розглянута та схвалена на засіданні кафедри «Інформаційні системи та мережі»
Протокол від «____»________________2016 року № _____
Завідувач кафедри _____ІСМ_______ ____________________ /___В.В. Литвин_____/
/назва / /підпис/ /ініціали та прізвище /
Робоча програма розглянута та схвалена НМК спеціальності____________________
/шифр і назва/
Протокол від «____»________________2016 року № _____
Секретар НМК ___________________ /_____________________/
/підпис/ /ініціали та прізвище /
1. Структура навчальної дисципліни
Найменування показників | Всього годин | |
Денна форма навчання |
Заочна форма навчання |
|
Кількість кредитів/год. | 5/150 | – |
Усього годин аудиторної роботи, у т.ч.: | 48 | – |
|
16 | – |
|
– | – |
|
– | – |
|
32 | – |
Усього годин самостійної роботи, у т.ч.: | 102 | – |
|
– | – |
|
1/32 | – |
|
– | – |
|
70 | – |
Екзамен | 1 | – |
Залік | – | – |
Частка аудиторного навчального часу студента у відсотковому вимірі:
денної форми навчання – ____32_________; заочної форми навчання – ___________
2. Мета та завдання навчальної дисципліни
2.1. Мета вивчення навчальної дисципліни
Набуття навичок роботи з основними об’єктами та лінгвістичними змінними процесу опрацювання природної мови. Вивчення теоретичних основ і практичних алгоритмів прикладної структурної та математичної лінгвістики для опрацювання природної мови, що застосовують при побудові комп’ютерних лінгвістичних програм. Отримання базових знань з комп’ютерних наук та інформаційних технологій опрацювання природної мови. Здобуття поглиблених теоретичних та практичних знань, умінь та розуміння, що відносяться до областей опрацювання природної мови, що дасть їм можливість ефективно виконувати завдання інноваційного характеру відповідного рівня професійної діяльності, яка орієнтована на дослідження й розв’язання складних задач проектування та розроблення інформаційних систем для задоволення потреб науки, бізнесу та підприємств у різних галузях. Підготовка до успішного засвоєння складніших програм для наукових дослідників та розробників систем штучного інтелекту, експертів в області систем і методів опрацювання природної мови. Здатність використовувати поглиблені теоретичні та фундаментальні знання в галузі інформаційних технологій, штучного інтелекту для ефективного розв’язування складних спеціалізованих задач та практичних проблем опрацювання природно мови під час професійної діяльності або у процесі навчання, що передбачає їхнє застосування для розроблення складних лінгвістичних систем, які характеризуються комплексністю та невизначеністю умов функціонування.
2.2. Завдання навчальної дисципліни
Внаслідок вивчення навчальної дисципліни студент повинен бути здатним продемонструвати такі результати навчання:
- Студент повинен знати та розуміти основні означення, твердження та теореми, способи доведення тверджень, галузі та способи застосування набутих лінгвістичних знань опрацювання природної мови з таких розділів:
- основи математичної лінгвістики і особливості використання методів математичної лінгвістики для опрацювання природної мови,
- основи квантитативної лінгвістики для опрацювання природної мови,
- основи комбінаторної лінгвістики для опрацювання природної мови,
- імовірнісне моделювання породження тексту та його складових одиниць,
- первинне статистичне опрацювання текстових масивів даних,
- точкова оцінка параметрів генеральної лінгвістичної сукупності,
- розпізнавання мови, граматики та скінченні автомати,
- застосування теорії інформацій для аналізу лінгвістичних задач
- кроптолінгвістика,
- мережі Петрі.
- Підготовлений фахівець повинен вміти застосовувати набуті знання для
- формулювання і розв’язування задач в галузі комп’ютерних наук для опрацювання природної мови,
- конструювання алгоритмів розв’язування прикладних лінгвістичних задач,
- вивчення нових інформаційних технологій опрацювання природних мов,
- побудови математичного опису прикладних лінгвістичних проблем,
- аналізу результатів розв’язування задач опрацювання природних мов.
- Здатність самостійно виконувати дослідження для рішення навчально-дослідних задач комбінаторної лінгвістики, здатність розв’язувати нестандартні професійні задачі, переносити та інтерпретувати знання з різних галузей науки – математики, інформаційних технологій, лінгвістики,системного аналізу та комп’ютерних наук;
- Здатність ефективно здійснювати вибір концептуальної лінгвістичної моделі опрацювання природно мовних текстів відповідно до поставленої мети, структури та середовища інформаційної системи лінгвістичного аналізу та формувати вимоги відповідності інформаційної системи технічному завданню аналізувати природомовні текстові масиви даних;
- Здатність розроблення математичних моделей мовлення для забезпечення комп’ютерних лінгвістичних систем;
- Здатність розроблення або вдосконалення моделей, способів їх опису та методів автоматичного опрацювання текстового контенту
- Здатність бути лідером загальних принципів побудови лексикографічних систем синтаксичного типу та побудови за цими принципами зазначених систем опрацювання текстового контенту для конкретних мов;
- Здатність вивчати та критично оцінювати нові методології комбінаторного аналізу природно-мовних текстів, ґрунтуючись на фахових у цих областях наукових літературних джерелах;
Вивчення навчальної дисципліни передбачає формування та розвиток у студентів компетентностей:
загальних:
1) уміння працювати самостійно при виконуванні індивідуальних завдань;
2) здатність навчатися класичним та інноваційним лінгвістичним;
3) уміння спілкуватися усно та в письмовій формі першою мовою для формулювання результатів навчання та дослідження сучасних методам опрацювання природної мови;
4) здатність здійснювати пошук та аналізувати інформацію з різних джерел;
5) уміння ідентифікувати, формулювати та розв’язувати задачі;
6) уміння застосовувати знання в практичних ситуаціях;
7) уміння приймати обґрунтовані рішення для опрацювання природної мови;
8) уміння проводити дослідження на відповідному рівні;
9) уміння працювати в команді опрацювання природної мови;
10)знання та розуміння предметної області та розуміння фаху;
11) уміння спілкуватися з нефахівцями однієї галузі;
12) уміння думати абстрактно, аналізувати та синтезувати;
13) уміння розробляти та керувати проектами опрацювання природної мови.
фахових:
1) здатність ефективно здійснювати вибір концептуальної моделі середовища лінгвістичної системи, формувати вимоги відповідності лінгвістичної системи технічному завданню, аналізувати природно-мовні тексти;
2) здатність бути лідером розроблення та виконання проекту лінгвістичної системи для опрацювання природної мови;
3) здатність вивчати та критично оцінювати нові методології аналізу природомовних текстів, ґрунтуючись на фахових у цих областях наукових літературних джерелах;
4) здатність гнучкого способу мислення, який дає можливість зрозуміти й розв’язати проблеми та задачі опрацювання природних мов, зберігаючи при цьому критичне відношення до усталених і/або інноваційних наукових концепцій;
5) здатність використовувати поглиблені теоретичні та фундаментальні знання в галузі штучного інтелекту для розроблення складних лінгвістичних систем;
6) здатність формулювати, аналізувати та синтезувати рішення наукових проблем опрацювання природних мов на абстрактному рівні шляхом їхньої декомпозиції на складові, які можна дослідити окремо в їх більш та менш важливих аспектах;
7) здатність будувати відповідні моделі складних лінгвістичних систем, досліджувати їх для побудови проектів лінгвістичних систем;
8) здатність розробляти і впроваджувати моделі лінгвістичних систем засобами комп’ютерного моделювання;
9) здатність комунікувати з колегами з даної області щодо наукових лінгвістичних досягнень, як на загальному рівні, так і на рівні спеціалістів, здатність робити усні та письмові звіти, обговорювати наукові теми рідною та англійською мовами;
10) здатність провести усну презентацію та написати зрозумілу статтю за результатами проведених лінгвістичних досліджень, а також щодо сучасних концепцій у системах штучного інтелекту та методів опрацювання природної мови;
11) здатність аналізувати та формулювати висновки для різних типів складних управлінських задач у різних галузях народного господарства;
12) здатність формулювати (роблячи презентації, або представляючи звіти) нові гіпотези та наукові задачі в області штучного інтелекту та опрацювання природної мови, вибирати належні напрями і відповідні методи для їхнього розв’язування;
13) здатність сприймати ново здобуті лінгвістичні знання в області комп’ютерних наук, інформаційних технологій і штучного інтелекту та інтегрувати їх зі уже наявними;
14) здатність вивчати та критично оцінювати нові інформаційні технології, моделі і методи штучного інтелекту для опрацювання природних мов, ґрунтуючись на фахових у цих областях наукових літературних джерелах.
Результати навчання даної дисципліни деталізують такі програмні результати навчання:
1) Здатність вміти будувати математичні моделі та методи опрацювання природної мови, онтологічного інжинірингу та мови опису онтологій.
2) Здатність вміти проектувати та розробляти автоматизовані та автоматичні системи опрацювання текстів (пошуку, екстракції, локалізації знань).
3) Здатність проектувати, розробляти та використовувати системи машинного перекладу та автоматичного реферування.
4) Здатність будувати моделі в галузі лінгвістичних технологій ідентифікації знань у слабко структурованій текстовій інформації.
5) Здатність розуміти різні інструменти та стратегії, що мають відношення до аналізу природномовного тексту, що дасть можливість їхнього працевлаштування в наукових установах, здатність ефективно використовувати на практиці теоретичні концепції наукового менеджменту та ділового адміністрування.
6) Здатність формулювати та вдосконалювати важливу дослідницьку задачу, для її вирішення збирати необхідну інформацію та формулювати висновки, які можна захищати в науковому контексті.
7) Здатність використовувати професійно-профільні знання і практичні навички для оптимізації проектування інформаційних систем будь-якої складності, для вирішення конкретних завдань проектування інтелектуальних інформаційних систем з керування об'єктами різної фізичної природи.
8) Здатність аналізувати та оцінювати коло завдань, які сприяють подальшому розвитку ефективного використання інформаційних ресурсів систем прийняття рішень.
9) Здатність проводити оцінку наявних технологій та на основі аналізу формувати вимоги до розроблення перспективних інформаційних технологій.
10) Здатність вміти визначати тип інтеграції даних, необхідний для тої чи іншої задачі.
11) Здатність здійснювати ефективну комунікативну діяльність роботи команди зі розроблення проекту інформаційної системи.
12) Здатність працювати з експертними та текстологічними джерелами інформації для інтеграції даних і знань в області діяльності організації за допомогою методів набуття знань, подання знань, класифікації і компіляції знань.
13) Здатність формулювати функціональні вимоги до інформаційних систем, розробляти технічні завдання, функціональні специфікації для розподіленої СУБД, роботи в розподіленому середовищі, опрацювання XML-даних.
14) Здатність проектувати та використовувати наявні засоби інтеграції даних, опрацьовувати дані, що зберігаються у різних системах.
15) Здатність організовувати, конфігурувати та розробляти Web- системи, використовуючи принципи розподілених систем, гіпертекстових систем, відповідні технічні та програмні засоби.
16) Здатність будувати моделі інформаційних потоків, проектувати сховища і простори даних, бази знань, використовуючи діаграмну техніку і стандарти розроблення інформаційних систем.
17) Здатність володіти достатніми науковими навичками, щоб успішно проводити наукові дослідження під наглядом наставника.
2.3. Перелік попередніх та супутніх і наступних навчальних дисциплін
№ з/п |
Попередні навчальні дисципліни |
Супутні і наступні навчальні дисципліни |
1. | Дискретна математика | Комп’ютерна лінгвістика |
2 | Теорій ймовірності та математична статистика | Системи машинного перекладу та автоматичне реферування |
3 | Об’єктно-орієнтоване програмування | Методи та засоби інтеграції даних |
3. Анотація навчальної дисципліни
Зміст дисципліни містить матеріал, необхідний для вивчення основних теоретичних засад, функціональних можливостей та практичного застосування теорії математичної лінґвістики в дослідженні мов, розроблення прикладних засобів та інформаційних систем аналізу та опрацювання природних мов. У частині першій розглянуто питання квантитативної лінґвістики. У чатині другій розглянуто питання комбінаторної лінґвістики. Викладення матеріалу супроводжується значною кількістю прикладів, що полегшує його сприйняття і засвоєння. Подається перелік запитань і тестів для самоконтролю, а також завдання для самостійного виконання (трьох рівнів складності) та довідкова інформація для розв’язування задач. Дисципліна призначена для студентів, що навчаються за напрямами галузей знань 122 «Комп’ютерні науки та інформаційні технології», «Інформатика та обчислювальна техніка» (напрям 6.050101 «Комп’ютерні науки»), «Системні науки та кібернетика» (напрям 6.040303 «Системний аналіз») і споріднених галузей знань, пов’язаних з вивченням прикладної лінґвістики та інформаційних технологій. Може бути використана аспірантами як підгрунтя для наукових досліджень і викладачами як дидактичний матеріал, а також для самостійного вивчення і підвищення кваліфікації. В процесі викладання необхідне використання віртуального навчального середовища Національного університету «Львівська політехніка» та авторських розробок науково-педагогічних працівників, а саме: підручників та навчальних посібників з грифом МОН України серій «Інформатика», «Комп’ютинґ» і «Консолідована інформація»; підручників та навчальних посібників з грифом Вченої ради НУ «Львівська політехніка». Зміст дисципліни містить опис математичних методів, необхідних для ґрунтовного висвітлення фундаментальних засад математичної лінґвістики, що стосуються квантитативної лінґвістики, а також можливості застосування описаних методів до розв’язування прикладних задач мовознавства. Для закріплення знань запропоновано запитання й тестові завдання з ключем, а також тридцять варіантів завдань трьох рівнів складності для самостійної роботи. Матеріал сформовано так, щоб розкрити й описати методологію вирішення завдань мовознавства за допомогою відповідних математичних методів. Аналітичне вирішення такого завдання докладно описується, організувати його у вигляді інформаційної системи читачам пропонується самостійно.
Курс присвячений лінґвістиці тексту, яка розглядає текст як автономну структуру та вивчає його структуру, категорії та складові, а також правила побудови зв’язного тексту. Реалізація таких завдань передбачає застосування методів лінґвістичного аналізу для попереднього розбору багатьох текстів та порівняння результатів. Об'єктом лінґвістичного аналізу тексту може бути, наприклад, науковий, офіційно-діловий, публіцистичний і художній тексти. Знайдені під час лінґвістичного аналізу логічні правила побудови зв’язного тексту можна використати в розв’язуванні задач опрацювання та синтезу природної мови, що є важливою проблемою створення систем штучного інтелекту. Для моделювання асинхронних інформаційних потоків у системах опрацювання даних використовується модифікація мережної моделі – розфарбована мережа Петрі. Введення поняття кольору дозволяє ввести нове правило взаємодії між складовими мережі (дуга, розфарбована деяким кольором, може пропустити тільки фішки відповідного кольору), коли із кожним кольором пов’язується конкретна семантична інтерпретація.
Застосування лінґвістичного аналізу дозволяє виділити правила побудови зв’язного тексту на основі аналізу текстів різного стилю. У машинній побудові зв’язних текстів, а також в реалізації машинного синтезу мови знайшли своє застосування мережі Петрі, пов’язані з моделюванням причинно-наслідкових зв’язків. Розфарбовані мережі Петрі отримуються з класичних шляхом певної модифікації. Для моделювання етапів організації зв’язного тексту необхідно організувати розфарбовану мережу Петрі як апарат побудови тексту казки. На основі кількох відомих казок треба сформувати набір параметрів мережі: основні типи персонажів та базові ситуації. Продемонструвати роботу розфарбованої мережі Петрі, отримати кілька варіантів казки, що відображають один сюжет.
4. Опис навчальної дисципліни
4.1. Лекційні заняття
№ з/п | Назви тем | Кількість годин | |
ДФН | ЗФН | ||
1. | Предмет математичної лінгвістики. Передумови виникненення, історія розвитку та предмет математичної лінгвістики. Використання методів математичної лінгвістики. Ймовірність та інформація лінгвістичних подій. Імовірнісне моделювання породження тексту та його складових одиниць. Статистичні моделі тексту та імовірнісні характеристики норми мови. | 2 | |
2. | Квантитативна лінгвістика. Ймовірність та інформація лінгвістичних подій. Множина лінгвістичних об’єктів. Лінгвістична подія. Ймовірність елементарної лінгвістичної події. Ймовірності складних лінгвістичних подій. Інформаційні виміри в тексті. | 2 | |
3. | Імовірнісне моделювання породження тексту та його складових одиниць. Повторення незалежних випробувань у тексті. Випадкова лінгвістична величина, її характеристики і функції розподілу. Закони розподілу, які моделюють утворення мовних одиниць тексту. Поняття про застосування закону великих чисел у лінгвістиці. | 2 | |
4. | Первинне статистичне опрацювання тексту. Статистична сукупність лінгвістичних об’єктів та її організація. Варіаційні ряди лінгвістичних ознак. Дослідження лінгвістичних варіаційних рядів за допомогою емпіричних моментів. | 2 | |
5. | Точкова оцінка параметрів генеральної лінгвістичної сукупності. Оцінка математичного сподівання за допомогою довірчого інтервалу та статистична параметризація стилів. Довірчі інтервали для ймовірності якісної лінгвістичної ознаки. | 2 | |
6. | Комбінаторна лінгвістика.Породжувальні граматики. Скінченні автомати. Розпізнавання мов. Основні означення, класифікація за Н. Хомським. Дерева виведення. Граматичний аналіз. | 2 | |
7. | Скінченні автомати. Означення скінченного автомата: детермінованого і недетермінованого. Способи задання скінченних автоматів. Застосування скінченних автоматів для пошуку у тексті. | 2 | |
8. | Розпізнавання мов. Регулярні множини. Теорема Кліні. Регулярні множини і регулярні граматики. Лема про накачування для регулярних мов. Лема про накачування для контекстно вільних мов. Поняття про застосування контекстно вільних мов. | 2 | |
Усього годин | 16 |
4.2. Лабораторні заняття
№ з/п | Назви тем | Кількість годин | |
ДФН | ЗФН | ||
1. | Основи квантитативної лінгвістики. Комбінаторний аналіз. | 2 | |
2. | Ймовірність та інформація лінгвістичних подій. Інформаційні виміри в тексті. Імовірності елементарних та складних лінґвістичних подій | 2 | |
3. | Первинне статистичне опрацювання тексту. Статистична сукупність лінгвістичних об’єктів та її організація. Варіаційні ряди лінгвістичних ознак. Дослідження лінгвістичних варіаційних рядів за допомогою емпіричних моментів. | 2 | |
4. | Елементи теорії інформації в лінґвістиці | 2 | |
5. | Імовірнісне моделювання породження тексту та його складових одиниць. Закони розподілу, які моделюють утворення мовних одиниць тексту. | 2 | |
6. | Інформація лінґвістичних подій | 2 | |
7. | Статистична лінгвістика. Статистичні моделі тексту та імовірнісні характеристики норми мови.. Оцінка математичного сподівання за допомогою довірчого інтервалу та статистична параметризація стилів. | 2 | |
8. | Довірчий інтервал для дисперсії та середнього квадратичного відхилення. Довірчі інтервали для ймовірності якісної лінгвістичної ознаки. | 2 | |
9. | Породжувальні граматики. Основні означення, класифікація за Н. Хомським. Дерева виведення. Граматичний аналіз. | 2 | |
10. | Скінченні автомати (детерміновані і недетерміновані). Означення, способи завдання. Застосування скінченних автоматів для пошуку в тексті. | 2 | |
11. | Мережі Петрі. Лінгвістика тексту. | 2 | |
12. | Криптолінґвістика | 2 | |
13. | Лінгвістичний аналіз текстової інформації. Графемний та морфологічний аналіз тексту | 2 | |
14. | Синтаксичний аналіз або парсинг тексту | 2 | |
15. | Семантичний аналіз тексту. Побудова онтологій. | 2 | |
16. | Основи комп’ютерної лексикографії. Автоматичне опрацювання текстів | 2 | |
Усього годин | 32 |
4.3. Самостійна робота
№ з/п |
Найменування робіт | Кількість годин | |
ДФН | ЗФН | ||
1. | Підготовка до практичних та лабораторних занять | 20 | |
2. | Вивчення лекційного матеріалу | 20 | |
3. | Виконання індивідуальних домашніх завдань, заданих на практичних заняттях | 10 | |
4. | Виконання розрахункових та контрольних робіт, передбачених навчальним планом | 32 | |
5. | Підготовка до навчальних занять та контрольних заходів | 20 | |
Усього годин | 102 |
5. Методи діагностики знань
- Проведення опитування на практичних заняттях
- Перевірка знань та виконаних робіт на лабораторних заняттях
- Проведення контрольних робіт за графіком та згідно робочої програми
- Перевірка індивідуальних розрахунково-графічних робіт за графіком та згідно робочої програми
- Проведення письмово екзамену згідно розкладу та перевірка робіт
- Проведення усної компоненти екзамену з додатковим опитуванням
(Для ознайомлення з повним текстом статті необхідно залогінитись)