3.5. Експериментальне дослідження методу семантико-синтаксичного аналізу
У роботі проводилася оцінка впливу розробленого методу семантикосинтаксичного аналізу на якість побудови синтаксичних дерев залежностей та визначення рольових структур висловлювань.
3.5.1. Оцінка впливу методу семантико-синтаксичного аналізу на якість синтаксичного аналізу
Щоб оцінити вплив розробленого методу на якість побудови синтаксичних дерев залежностей, система семантикосинтаксического аналізу порівнювалася з синтаксичним аналізатором, реалізованим з допомогою MaltParser. Він також використовувався для попереднього синтаксичного аналізу у системі семантикосинтаксичного аналізу. Тестування та навчання проводилося на корпусі СінТагРус, який був поділений на два підкорпуси. До навчального підкорпусу входить близько 48 тис. пропозицій та 700 тис. токенів без урахування пунктуації. До тестового підкорпусу входить 5 тис. пропозицій та понад 70 тис. токенів без урахування пунктуації. Перший підкорпус використовувався для навчання синтаксичного аналізатора на основі MaltParser (див. розділ 3.2 та додаток 2). На ньому ж розраховувалися частоти спільної зустрічальності ознак слів для статистико-евристичного критерію, навчалися класифікатори ??????, ????, ????, які перевіряють виправлення синтаксичної структури перед їх фіксацією, а також за допомогою перехресної перевірки налаштовувалися їх параметри .
На тестовому підкорпусі проводилася оцінка якості встановлення синтаксичних зв'язків між ПС та семантичними аргументами. Це означає, що при оцінці враховувалися тільки синтаксичні зв'язки, де головним словом є дієслово, віддієслівне іменник, короткий прикметник, причастя, дієприслівник, а залежним – іменник, займенник, прийменник, якому підпорядкований іменник або займенник, запитальне слово, а також зв'язки, де головне - іменник або займенник, а залежне - причастя. Як оціночні метрики розраховувалися точність ??, повнота ?? і ??1-мера. Тут:
• ???? – кількість синтаксичних зв'язків між ПС та їх аргументами у тестовому підкорпусі, що збіглися зі зв'язками у видачі аналізатора;
• ???? – кількість зв'язків у видачі аналізатора, встановлених між ПС та словами, що мають ознаки аргументу, які відсутні у тестовому підкорпусі;
• ???? – кількість зв'язків між ПС та їх аргументами, які є у тестовому підкорпусі, але відсутні у видачі аналізатора.
В експериментах порівнювалися два способи перевірки виправлень у семантико-синтаксичному аналізі: за допомогою статистико-евристичного критерію, заснованого на перевірці частоти спільної зустрічальності ознак слів, та критерію на основі ансамблю бінарних класифікаторів, що використовують машинне навчання: ????, ???? , ????. Таким чином, порівнювалися три аналізатори:
• синтаксичний аналізатор на основі MaltParser, позначимо його як MaltParser;
система семантико-синтаксичного аналізу, в якій реалізовано статистико-евристичний критерій перевірки виправлень, позначимо її як «Сім.-син. Стат.»;
• система семантико-синтаксичного аналізу, у якій реалізовано критерій перевірки виправлень з допомогою класифікаторів з урахуванням машинного навчання, позначимо його як «Сім.-син. МО».
Результати експериментальних досліджень цих аналізаторів на тестовому синтаксично розміченому корпусі представлені таблиці 5.
Таблиця 5 - Порівняння якості синтаксичного аналізу системи семантикосинтаксичного аналізу з синтаксичним аналізатором MaltParser
Аналізатор ??, % ??, % ?????, %
MaltParser 90,6 89,0 89,8
Сім.-син. Стат. 90,5 90,2 90,3
Сім.-син. МО 90,6 90,1 90,4
Отримані результати показують, що розроблений метод семантикосинтаксичного аналізу дозволяє підвищити повноту встановлення синтаксичних зв'язків між ПС та аргументами більш ніж на 1,1 %, тим самим йому вдається встановити понад 10 % усіх найбільш складних синтаксичних зв'язків між предикатними словами та аргументами, які не були знайдені. MaltParser. У цьому точність системи семантико-синтаксического аналізу змінюється. Відсутність значного підвищення точності пояснюється тим, що в отриманих оцінках враховуються лише нові зв'язки, додані в синтаксичне дерево, але не враховуються віддалені. Підвищення повноти встановлення синтаксичних зв'язків значно впливає на підвищення ??1 міри.
Перевірялася статистична значущість одержаних результатів. Для цього використовувався метод статистичного бутстропінгу (statistical bootstrapping), як це було запропоновано в роботі [168]. Показано, що приріст повноти та 1-міри системи «Сім.-син. МО» в порівнянні з MaltParser статистично значущий. Довірчий інтервал при рівні значимості ?? = 0,05 для повноти становив (0,9; 1,2) %. На малюнку 25 проілюстровано розподіл приросту повноти (???) системи семантико-синтаксичного аналізу порівняно із системою, в якій синтаксичний та семантичний аналіз виконуються окремо. ?
Малюнок 25 – Розподіл приросту повноти системи семантикосинтаксичного аналізу порівняно із системою, у якій
синтаксичний та семантичний аналіз виконуються окремо
Довірчий інтервал для ??1-заходи при рівні значимості ?? = 0,05 становив (0,4; 0,6) %. На малюнку 26 проілюстровано розподіл приросту ??1-заходи (???1) системи семантико-синтаксичного аналізу в порівнянні з системою, в якій синтаксичний та семантичний аналіз виконуються окремо.
Малюнок 26 – Розподіл приросту ??1-міри системи семантикосинтаксичного аналізу в порівнянні з системою, в якій
синтаксичний та семантичний аналіз виконуються окремо
Експериментальне порівняння методів фільтрації виправлень показало, що в цілому метод на основі ансамблю бінарних класифікаторів працює краще за статистико-евристичний критерій. Він показує більшу точність при невеликому зниженні повноти. Однак варто відзначити, що досить простий критерій також дозволяє досить добре фільтрувати неправильні виправлення. Тестування показало, що точність внесення виправлень до синтаксичного дерева за допомогою системи семантикосинтаксичного становить 82-85% залежно від методу перевірки виправлень, параметрів класифікаторів, а також порогу вирішального правила. На рисунках 27 і 28, а також у додатку 4 представлені приклади, в яких система семантико-синтаксичного аналізу виправила синтаксичні структури речень. На цих малюнках червоним кольором підсвічені синтаксичні зв'язки, які були додані системою семантикосинтаксичного аналізу, внаслідок чого їй вдалося побудувати більш повні рольові структури.
Рисунок 27 – Приклад, у якому система семантико-синтаксичного аналізу виправила синтаксичну зв'язок. На малюнку А) – приклад роботи MaltParser, малюнку Б) – приклад роботи системи семантико-
синтаксичного аналізу
Рисунок 28 – Приклад, у якому система семантико-синтаксичного аналізу виправила синтаксичну зв'язок. На малюнку А) – приклад роботи MaltParser, на малюнку Б) – приклад роботи системи семантикосинтаксичного аналізу
Незважаючи на те, що процедура коригування системи семантикосинтаксичного аналізу працює з високою точністю, у ряді випадків можуть виникати помилки, внаслідок яких правильний синтаксичний зв'язок змінюється на неправильний. По-перше, є випадки семантичної омонімії, коли на рівні аналізу однієї пропозиції неможливо (навіть для носія мови) дозволити неоднозначність побудови як семантичної, так і синтаксичної структури речення. По-друге, існують ситуації, в яких два слова «конфліктують» за право приєднати до себе один і той самий семантичний аргумент, щоб заповнити свою семантичну валентність. Якщо в семантичному словнику аналізатора є знання про валентності обох слів, то таку ситуацію потенційно не складно вирішити. Однак у семантичному словнику є інформація про рольових структурах далеко не всіх предикатних слів. Хоча покриття дієслів досить високе, рольові структури багатьох віддієслівних іменників залишаються невідомими. Тому для вирішення неоднозначності встановлення синтаксичних зв'язків для цих випадків були задіяні статистичні методи. Але статистико-евристичний критерій та класифікатори на основі машинного навчання не завжди можуть точно розв'язати подібні ситуації.
На малюнку 29 представлений приклад, у якому система семантикосинтаксического аналізу правильно коригує синтаксичне дерево, але в малюнку 30 представлений схожий приклад, у якому коригування дерева призводить до помилці.
Рисунок 29 – Приклад, у якому в результаті коригування синтаксичного дерева було виправлено помилку
Рисунок 30 – Приклад, у якому коригування синтаксичного дерева спричинило помилку
Підвищення якості як синтаксичного аналізу, і семантичного аналізу з використанням розробленого методу семантико-синтаксического аналізу пов'язані з повнотою семантичного словника.
3.5.2. Оцінка впливу методу семантико-синтаксичного аналізу на якість розв'язання задачі визначення рольових структур висловлювань
У проведених експериментах порівнювалася якість розв'язання задачі визначення рольових структур висловлювань системою семантикосинтаксичного аналізу, яку позначимо як «Сім.-син.», та системою, в якій синтаксичний та семантичний аналіз виконуються окремо, її позначимо як «Базова». У системі семантико-синтаксичного аналізу використовувався метод перевірки виправлень з допомогою ансамблю бінарних класифікаторів з урахуванням машинного навчання.
Тестування системи семантико-синтаксичного аналізу проводилося аналогічно тестуванню семантичного аналізатора (експерименти описані в розділі 3.4): використовувався семантично розмічений підкорпус (1500 пропозицій, приблизно 25000 токенів без урахування пунктуації, 3300 ролей), розраховувалися точно. і ??1-мера. Результати представлені у таблиці 6.
Таблиця 6 – Порівняння якості семантичного аналізу системи семантикосинтаксичного аналізу з системою, в якій синтаксичний та семантичний аналіз виконуються окремо
Система ??, % ??, % ?????, %
Базова 89,6 61,0 72,6
Сім.-син. 89,6 62,7 73,8
Результати показують, що застосування розробленого методу семантикосинтаксичного аналізу веде до підвищення якості розв'язання задачі визначення рольових структур висловлювань. Зокрема, система семантикосинтаксичного аналізу має велику повноту – на 1,7%, що веде до підвищення 1-ї міри на 1,2%. У цьому точність не зменшується.
За рахунок коригування синтаксичної структури підвищується частка правильно виявлених семантичних аргументів, що дозволяє підняти якість семантичного аналізу загалом. На рисунках 27 і 28 представлені приклади, в яких система семантико-синтаксичного аналізу побудувала повніші рольові структури в порівнянні з системою, в якій синтаксичний та семантичний аналіз виконуються окремо.
3.6. Висновки
Наведено результати експериментальних досліджень розроблених методів семантичного та семантико-синтаксичного аналізу на розмічених корпусах російськомовних текстів.
Отримано результати оцінки якості розв'язання задачі визначення рольових структур висловлювань у текстах російською мовою. Результати показують, що якість розв'язання цієї задачі за допомогою розробленого методу відповідає рівню сучасних семантичних аналізаторів для інших мов з малою кількістю мовних ресурсів.
Досліджено вплив розробленого методу семантико-синтаксичного аналізу на якість побудови синтаксичних дерев залежностей та на якість розв'язання задачі визначення рольових структур висловлювань. Система семантико-синтаксичного аналізу порівнювалася із синтаксичним аналізатором MaltParser, який зарекомендував себе як один із найкращих синтаксичних аналізаторів на основі машинного навчання для російськомовних текстів. Експерименти показали, що розроблений метод семантикосинтаксичного аналізу дозволяє підвищити повноту встановлення синтаксичних зв'язків. Системі семантико-синтаксичного аналізу вдається виправити найскладніші випадки встановлення синтаксичних зв'язків між предикатними словами та аргументами. Незважаючи на те, що вихідний синтаксичний аналізатор показує високу повноту - трохи менше 90%, за допомогою системи семантико-синтаксичного аналізу вдається відновити ще більше 10% синтаксичних зв'язків між предикатними словами і аргументами. Таким чином, вперше було досліджено вплив інформації, закладеної у рольовій структурі висловлювань, на якість встановлення синтаксичних зв'язків між предикатними словами та їх семантичними аргументами, та показано значущість цієї інформації для коригування синтаксичного дерева залежностей.
Результати експериментів демонструють, що метод семантикосинтаксичного аналізу дозволяє підвищити також повноту та 1-міру визначення рольових структур висловлювань. Далі в розділі 3 показується важливість застосування семантичного аналізу при вирішенні прикладних завдань обробки текстів природною мовою, а також демонструється ефект від приросту якості синтаксичного та семантичного аналізу, що досягається за рахунок застосування розробленого методу семантико-синтаксичного аналізу.
Коментарі
Дописати коментар