3.2. Оцінка якості синтаксичного аналізу, визначення категоріально-семантичних класів, морфологічного аналізу
У всіх проведених експериментах застосовувався синтаксичний аналізатор на основі MaltParser, який, як відомо з робіт [56, 55, 161], є одним з кращих синтаксичних аналізаторів текстів, що навчаються, російською мовою. Для навчання використовувалося близько 48 000 пропозицій із корпусу СинТагРус сумарним обсягом близько 700 000 токенів без урахування пунктуації. Основна конфігурація аналізатора була з робіт [55, 56]. У навчальному корпусі синтаксичні зв'язки позначалися трьома типами міток: мітки, що позначають види зв'язків, мітка, що вказує на те, що задана вершина пов'язана з віртуальною кореневою вершиною «ROOT» і мітка за умовчанням. Велика кількість синтаксичних міток зв'язків багаторазово уповільнює процедуру синтаксичного аналізу та підвищує вимоги до оперативної пам'яті. Обмежений набір міток дозволяє нівелювати цю проблему. Експерименти навчання MaltParser на різних конфігураціях і наборах ознак, а також на різних за розмірами корпусах наведені в додатку 2.
Для тестування використовувався підкорпус розміром 5000 речень, що містить близько 70000 токенів без урахування пунктуації.
Оскільки для методів семантичного аналізу, запропонованих у роботі, пріоритетна якість встановлення зв'язків у синтаксичному дереві, а типи синтаксичних зв'язків відіграють малу роль, як основний критерій оцінки якості синтаксичного аналізу використовувався UAS (unlabeled attachment score). UAS розраховується як частка правильно встановлених синтаксичних зв'язків серед усіх зв'язків золотого стандарту. У всіх експериментах UAS визначався без урахування пунктуації. Характеристики синтаксичного аналізатора, який використовувався в цій роботі, наведені в таблиці 2. Тип морфологічних ознак вказує, чи були вони взяті із золотого стандарту, або вони автоматично отримані від морфологічного аналізатора (у цьому випадку вони містять деяку частку помилок).
Таблиця 2 - Оцінки якості роботи синтаксичного аналізатора
Тип морфологічних ознак UAS
Ознаки золотого стандарту 86,5
Автоматично згенеровані ознаки 84,6
Як морфологічний аналізатор у роботі використовувався модуль з відкритого програмного пакета AOT.ru [166]. Цей модуль вирішує широке коло завдань з графематичного та морфологічного аналізу тексту: здійснює розбиття тексту на токени та речення, проводить лематизацію слів (як словникову, так і несловникову), визначає їх морфологічні ознаки, а також дозволяє морфологічну омонімію. У модулі реалізована прихована Марківська модель, яка дозволяє дозволяти часткову та лексичну види омонімії, а також омонімію повних морфологічних ознак (для включення останньої в модулі AOT.ru необхідна модифікація вихідної реалізації). У роботі [167] автори наводять точність роботи їх модуля при вирішенні морфологічної омонімії: 97,26% - для часткової омонімії; 99,17% – для лексичної омонімії; 94,46% - при дозволі омонімії повних морфологічних ознак.
p align="justify"> Категоріально-семантичні класи слів у проведених експериментах визначалися за допомогою окремого модуля, в основі якого лежить набір словників, а також евристики визначення КСК за афіксами слів. Оцінка цього модуля проводилася на частини семантично розміченого підкорпусу СінТагРус. Використовувалося 1500 семантично розмічених пропозицій, сумарним обсягом близько 25000 токенів без урахування пунктуації. Оцінювалася точність визначення КСК, яка розраховувалася як відношення кількості слів, яким КСК було призначено правильно, і кількості слів, що мають КСК позначки в корпусі. Точність становила 93,7 %.
Коментарі
Дописати коментар