ГЛАВА 3. ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ МЕТОДІВ СЕМАНТИЧНОГО ТА СЕМАНТИКОСИНТАКСИЧНОГО АНАЛІЗУ. 3.1. Тестові дані та оцінки якості
ГЛАВА 3. ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ МЕТОДІВ СЕМАНТИЧНОГО ТА СЕМАНТИКОСИНТАКСИЧНОГО АНАЛІЗУ
3.1. Тестові дані та оцінки якості
Тестування розроблених методів семантичного та семантикосинтаксичного аналізу проводилося на корпусі СінТагРус [162, 67]. СинТагРус – це синтаксично розмічений корпус текстів російською мовою (банк синтаксичних дерев), розроблений ІППІ РАН. Корпус перевірено вручну експертами, в ньому знято морфологічну та синтаксичну омонімію, тому він може виступати як золотий стандарт і як навчальний корпус для синтаксичних аналізаторів.
У СинТагРус тексти розбиті на речення, а речення на токени. Для токенів вказано форму слова, лема, частину мови та інші морфологічні характеристики. Синтаксична структура пропозиції є дерево синтаксичних залежностей. Синтаксичні зв'язки між токенами речення мають мітки, що визначають тип зв'язку, і утворюють зв'язне синтаксичне дерево. Пунктуація у корпусі є «висить», тобто. не з'єднується з іншими токенами. Версія корпусу, яка використовувалася у роботі, містить 53 439 пропозицій та 774 373 токенів без урахування пунктуації. СинТагРус було перетворено на формат CoNLL-2006/2007
[163], а морфологічні характеристики токенів були перетворені на формат, що відповідає стандарту MULTEXT-East Morphosyntactic Specifications, Version 4 (MTE) [164, 165]. На малюнку 21 наведено приклад синтаксичної розмітки корпусу СинТагРус. Детальна інформація про розмітку вказана у сайті корпусу.
Рисунок 21 – Приклад синтаксичної розмітки корпусу СинТагРус
Для оцінки якості розв'язання задачі визначення рольових структур висловлювань створено семантичний корпус. Для цього вручну було розмічено підкорпус СінТагРус. У ньому розмічені предикатні слова, визначено їх семантичні аргументи та зазначено їх семантичні ролі. У підкорпусі також розмічені категоріально-семантичні класи іменників, котрим вказано семантична роль. Зазначимо, що розмічені предикатні слова та ролі лише для тих випадків, які описані семантичним словником. Весь семантичний корпус містить 1730 пропозицій, близько 29000 токенів без урахування пунктуації. У корпусі розмічено близько 3000 предикатних слів і 4000 ролей. На малюнку 22 наведено приклад розмітки семантичного корпусу.
Рисунок 22 – Приклад розмітки предикатних слів, аргументів та ролей у семантичному корпусі
Для оцінки якості виділення семантичних аргументів було розмічено ще один підкорпус розміром 200 пропозицій (близько 1700 токенів без урахування пунктуації). У цьому підкорпусі для кожного предикатного слова було розмічено всі семантичні аргументи. Усього розмічено близько 800 семантичних аргументів для більш ніж 460 предикатних слів.
При тестуванні багатьох методів у цьому розділі використовуються такі метрики: точність ?? (Precision), повнота ?? (Recall) і ??1-мера. Вони розраховуються
наступним чином:
???? ???? 2? ?? ? ?? (7)
.
У загальному випадку ???? (true positives) – кількість правильно розпізнаних позитивних прикладів; ???? (False positives) – кількість прикладів, які були помилково віднесені до позитивних; ???? (False negatives) – кількість позитивних прикладів, які були помилково віднесені до негативних.
У кожному даному випадку обумовлюється, що мається на увазі під ????, ????, ????.
Коментарі
Дописати коментар