Публікації

3.3-3.4

3.3. Експериментальне дослідження методу пошуку семантичних аргументів Метод пошуку семантичних аргументів тестувався за таких умов (конфігураціях): 1) На вхід аналізатора подаються морфологічні ознаки та синтаксична розмітка із золотого стандарту. Позначимо таку конфігурацію як Gold_Morph_Synt. 2) На вхід аналізатора подаються морфологічні ознаки та синтаксична розмітка, згенеровані автоматично. Позначимо таку конфігурацію як Morph_Synt. Ця конфігурація відбиває реальне завдання аналізу тексту деякою прикладної системи обробки текстів на ЕЯ. Для тестування методу пошуку семантичних аргументів використовувався розмічений корпус із 200 пропозицій, в якому для кожного предикатного слова було розмічено всі його семантичні аргументи. Розраховувалися точність ??, повнота ?? і ??1 міра. У цих оцінках: • ???? – кількість семантичних аргументів у видачі аналізатора, що збіглися з семантичними аргументами у перевірочному корпусі, у яких також збіглися позиції ПС у реченні; • ???...

3.2. Оцінка якості синтаксичного аналізу, визначення категоріально-семантичних класів, морфологічного аналізу

3.2. Оцінка якості синтаксичного аналізу, визначення категоріально-семантичних класів, морфологічного аналізу У всіх проведених експериментах застосовувався синтаксичний аналізатор на основі MaltParser, який, як відомо з робіт [56, 55, 161], є одним з кращих синтаксичних аналізаторів текстів, що навчаються, російською мовою. Для навчання використовувалося близько 48 000 пропозицій із корпусу СинТагРус сумарним обсягом близько 700 000 токенів без урахування пунктуації. Основна конфігурація аналізатора була з робіт [55, 56]. У навчальному корпусі синтаксичні зв'язки позначалися трьома типами міток: мітки, що позначають види зв'язків, мітка, що вказує на те, що задана вершина пов'язана з віртуальною кореневою вершиною «ROOT» і мітка за умовчанням. Велика кількість синтаксичних міток зв'язків багаторазово уповільнює процедуру синтаксичного аналізу та підвищує вимоги до оперативної пам'яті. Обмежений набір міток дозволяє нівелювати цю проблему. Експерименти навчання Mal...

ГЛАВА 3. ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ МЕТОДІВ СЕМАНТИЧНОГО ТА СЕМАНТИКОСИНТАКСИЧНОГО АНАЛІЗУ. 3.1. Тестові дані та оцінки якості

ГЛАВА 3. ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ МЕТОДІВ СЕМАНТИЧНОГО ТА СЕМАНТИКОСИНТАКСИЧНОГО АНАЛІЗУ 3.1. Тестові дані та оцінки якості Тестування розроблених методів семантичного та семантикосинтаксичного аналізу проводилося на корпусі СінТагРус [162, 67]. СинТагРус – це синтаксично розмічений корпус текстів російською мовою (банк синтаксичних дерев), розроблений ІППІ РАН. Корпус перевірено вручну експертами, в ньому знято морфологічну та синтаксичну омонімію, тому він може виступати як золотий стандарт і як навчальний корпус для синтаксичних аналізаторів. У СинТагРус тексти розбиті на речення, а речення на токени. Для токенів вказано форму слова, лема, частину мови та інші морфологічні характеристики. Синтаксична структура пропозиції є дерево синтаксичних залежностей. Синтаксичні зв'язки між токенами речення мають мітки, що визначають тип зв'язку, і утворюють зв'язне синтаксичне дерево. Пунктуація у корпусі є «висить», тобто. не з'єднується з іншими токенами. Версія корпусу...

2.3. Метод семантико-синтаксичного аналізу текстів. Висновки до розділу.

2.3. Метод семантико-синтаксичного аналізу текстів Семантичні ролі може бути додатковим джерелом інформації для синтаксичного аналізу. Вони несуть у собі знання поєднання предикатних слів з аргументами. Рольова структура предикатного слова визначає набір «обов'язкових» аргументів, які мають приєднати себе предикатне слово. Крім того, у ході встановлення семантичних ролей вирішується завдання вирішення семантичної омонімії предикатних слів (вибір словникової статті). Тому семантична інформація виявляється корисною, наприклад, у випадках неоднозначності підпорядкування іменних (або прийменникових) груп, коли за правилами граматики група може бути доповненням присудка, або бути визначенням всередині деякої іншої іменної групи. На малюнку 15 представлений випадок, у якому синтаксичний аналізатор потенційно може підпорядкувати прийменникову групу «без реформ» або до дієслова «подолати», або до іменника «криза». Важливо зрозуміти, чи можна подо...

ГЛАВА 2. ІНТЕГРАЦІЯ МЕТОДІВ СИНТАКСИЧНОГО ТА СЕМАНТИЧНОГО АНАЛІЗУ ТЕКСТІВ ( 2.1-2.2)

  ГЛАВА 2. ІНТЕГРАЦІЯ МЕТОДІВ СИНТАКСИЧНОГО ТА СЕМАНТИЧНОГО АНАЛІЗУ ТЕКСТІВ      2.1. Задачі  визначення рольових структур висловлювань у текстах російською мовою  Завдання визначення рольових структур висловлювань, як більшість інших завдань комп'ютерної лінгвістики, має кілька інтерпретацій. Немає єдиної думки про те, які конструкції природної мови вважати аргументами предикатних слів, які ролі мають призначатися аргументами: узагальнені, тематичні, специфічні для предикатних слів (PropBank), специфічні для фреймів (FrameNet), і тим більше немає єдиної думки з приводу семантичних інвентарів ролей. Тому, щоб сформулювати постановку завдання визначення рольових структур висловлювань, необхідно конкретизувати всі вищезгадані аспекти, а також визначити формальну структуру, яка в результаті має бути побудована аналізатором.Постановка завдання та методи її вирішення у цій дисертації значною мірою спираються на семантичний словник, розроблений в Інституті...

Висновки першого розділу. Мета та завдання дослідження.

1.4. Висновки Як модель синтаксичної структури пропозиції для семантикосинтаксического аналізу було обрано синтаксичне дерево залежностей. Вибір моделі з урахуванням залежностей замість складових багато в чому зумовлений тим, що з побудови дерев залежностей існують ефективніші методи. Наприклад, алгоритм Ніврі відпрацьовує за лінійний час від довжини речення O(n), що значно швидше, ніж алгоритми аналізу за КОНТЕКСТНО ВІЛЬНІ граматиками, які працюють за O(n3) у загальному випадку. Крім того, дерева залежностей більш адекватно відображають синтаксичну структуру в мовах із довільним порядком слів, таких як російська. У сучасних дослідженнях у галузі синтаксичного аналізу акцент змістився зі створення складних формалізмів завдання граматик на розробку підходів, які використовують машинне навчання. При розробці цих підходів будуються моделі, що відображають особливості та структуру ПРИРОДНА МОВА, які можна відновити за навчальними даними, а також створюються ефективні алгоритми застосуванн...

1.3. Семантико-синтаксичний аналіз

1.3. Семантико-синтаксичний аналіз Ідея про інтеграцію комп'ютерного синтаксичного та семантичного аналізу висловлювалася багатьма дослідниками.  На сьогоднішній день досить очевидно, що через багатозначність конструкцій у ПРИРОДНИЙ МОВА для побудови синтаксичних дерев з високою точністю не можна обмежиться лише знаннями про граматику мови у вузькому значенні – тобто. лінгвістичними знаннями про морфологію слів та про синтаксичні правила розбору конструкцій, які оперують лише такими лінгвістичними категоріями як частини мови та морфологічні ознаки. Щоб добре вирішувати це завдання в загальному випадку необхідні статистичні знання про ПРИРОДНА МОВА, знання про семантику ПРИРОДНА МОВА конструкцій, а в деяких випадках про прагматику дискурсу.Структурна неоднозначність ПРИРОДНА МОВА зажадала синтаксичного аналізу розробки спеціальних аналізаторів, статистичних методів і підходів із застосуванням методів машинного навчання. Багато роботах з синтаксичному аналізу відзначається вел...