4.3. Застосування семантичного та семантико-синтаксичного аналізу для вирішення задачі автоматичного вилучення визначень та авторських термінів з текстів наукових публікацій

4.3. Застосування семантичного та семантико-синтаксичного аналізу для вирішення задачі автоматичного вилучення визначень та авторських термінів з текстів наукових публікацій


У наукових публікаціях автори часто вводять нові терміни або зручності сприйняття статті дають визначення (дефініції) відомим термінам. У цьому розділі розглядається завдання вилучення з текстів наукових публікацій визначень та визначених термінів, такі терміни надалі називатимемо авторськими. У прикладних завданнях інформаційного пошуку визначення та авторські терміни можна використовувати для створення термінологічної бази предметної області, поповнення тезаурусів, для формування списку ключових слів документа, його анотації або, наприклад, особливим чином враховувати їх у формулі розрахунку релевантності при пошуку інформації. Повнотекстовий пошук за визначеннями та авторськими термінами може допомогти користувачеві зрозуміти зміст невідомих термінів при експлоративному пошуку в колекціях наукових публікацій [172]. У цьому розділі пропонується метод автоматичного вилучення визначень та авторських термінів з текстів наукових публікацій, що використовує морфологію, синтаксис та семантику, та описуються його експериментальні дослідження на вручну розміченому корпусі наукових публікацій. 4.3.1. Метод вилучення визначень та авторських термінів із текстів наукових публікацій При витягуванні авторських термінів з наукових публікацій треба враховувати, що в їх текстах можуть бути визначені не тільки вже усталені, а й нові, раніше невідомі терміни, самі терміни можуть містити іноземні слова і словосполучення, а публікації можуть бути з різних наукових областей. Все це вимагає від методу отримання визначень і авторських термінів гнучкості, наприклад, підхід, заснований на тезаурусах, в даному випадку був би малоефективним. Для вирішення поставленого завдання було запропоновано метод, заснований на порівнянні лексико-синтаксичної та семантичної структури речення, зі списком фреймів (шаблонів). Такі підходи пропонувалися й інших роботах. Наприклад, в [173 - 176] описується система, що застосовує лексико- синтаксичні шаблони для отримання авторських термінів різного типу з текстів наукових публікацій. У цій роботі було запропоновано крім лексичної, морфологічної та синтаксичної інформації при побудові кадрів використовувати також семантичні ролі. Використання інформації про семантичні ролі дозволяє, з одного боку, спростити створення кадрів, а, з іншого боку, одним кадром покрити більше випадків визначення термінів. Експертами було проаналізовано корпус наукових публікацій, ними було виділено понад 60 стійких контекстів, наявність яких вказує на присутність у реченні визначення терміна. На основі експериментальних даних було уточнено контексти та сформовано набір фреймів (всього близько 15), які дозволяють знайти пропозицію, в якій є визначення терміну та виділити підрядок, відповідний авторському терміну. У таблиці 10 наведено кілька прикладів елементів цих кадрів, що дозволяють знайти пропозицію, в якій є визначення терміна. У кадрах враховується різна інформація про текст: лексика, морфологія, синтаксис та семантика. Таблиця 10 – Приклади кадрів для знаходження визначень та вилучення авторських термінів з текстів наукових публікацій Фрейм Прімери ЧР(Сущ.) && Падіж(Ім.) + * + Л(«–») + Л(«цей») + * + ЧР(сущ.) && Падеж(Им.) дисперсія випадкової величини – міра розкиду цієї випадкової величини, тобто її відхилення від математичного очікування. ЧР(Сущ.) && Сім.роль(естиматив) + Л(«називатися») Перигелієм називається точка орбіти небесного тіла, де воно максимально зближується із Сонцем. сім.роль.(делібератив) + Л(«визначатися») + Л(«як») Філософія традиційно визначається як дослідження першопричин і початків всього сущого — універсальних принципів, у рамках яких існує і змінюється як буття, так і мислення, як осяганий Космос, так і осягає його дух. НФ(«під») + Сем.роль.(естіматів) + НФ(«бути»)&&Час(буд.) + (Л(«розуміти») | | Л(«розумітися») || Л(«мати на увазі») || Л(«матися на увазі»)) Під алгеброю ми розумітимемо лінійний простір A (наприклад, над полем дійсних чисел R), забезпечений асоціативною операцією множення та одиницею, Л(«представляти») + Л(«себе») Ланцюгова ядерна реакція є поділом ядра на дві частини, звані осколками поділу, з одночасним виділенням декількох (2—3) нейтронів, які, у свою чергу, можуть викликати поділ наступних ядер . ЧР(Сущ.)&&Падеж(Ім.) + Л(«–») + * + ЧР(Сущ.)&&Падеж(Ім.) Агенс – виробник дії (закон підписаний президентом) Позначення: "Л" - лема; "ЧР" - частина мови; «Сім.роль» – семантична роль; && – логічне та; || - Логічне або. На вхід аналізатора надходить структуроване уявлення тексту, в якому виділено слова та речення, вказано морфологічні характеристики слів, включаючи леми, у реченнях виділено клаузи, побудовано синтаксичні дерева залежностей та рольові структури речень. Кожна пропозиція тексту зіставляється з кадрами із заданого списку, кожен із яких незалежно від інших витягує один або кілька термінів. Після цього витягнуті терміни фільтруються набором евристик. В результаті, на виході формується список термінів, яким дано визначення, та пропозиції, у яких зустрічаються ці терміни. Пропозиції, у яких зустрічаються вилучені терміни, позначаються як визначення. Процедура зіставлення кадру з пропозицією тексту і двох етапів. На першому етапі у реченні шукаються «ключові» слова фреймів. У кожному кадрі існує перевірка наявності у реченні певної леми. Слово, що має цю лему, називатимемо «ключовим» для кадру. Перед тим як перевіряти інші умови кадрів, здійснюється прохід за пропозицією тексту, в результаті якого знаходяться розташування всіх ключових слів і формується список кадрів, для яких збіглися ключові слова. Такий підхід зручний для подальшого аналізу, оскільки дозволяє швидко відсіяти пропозиції, що не підпадають ні під один кадр, і сформувати скорочений список кадрів, які будуть зіставлятися із заданою пропозицією. На наступному етапі для пропозиції перевіряються інші умови фреймів, які відповідають знайденим у ньому ключовим словам. Пропозиції в наукових текстах зазвичай мають досить складну структуру, тому перевірку зручно проводити не на всій пропозиції, а в рамках однієї клаузи. Наприклад, у реченні «перигелієм називається точка орбіти небесного тіла, де воно максимально зближується із Сонцем» буде спочатку окремо проаналізовано частину «перигелієм називається точка орбіти небесного тіла», а потім частина «де воно максимально зближується із Сонцем», і тільки перша частина буде позначена як відповідна фрейму 2. Після знаходження клаузи, що задовольняє деякий кадр, виділяється безпосередньо авторський термін. Для його вилучення з кожним кадром пов'язане правило, яке визначає, яку частину виразу необхідно виділити як термін. Це правило враховує, що термін може складатися з кількох слів. Наприклад, у п'ятому кадрі з таблиці 10 терміном будуть вважатися всі слова, що знаходяться у відповідній клаузі і лівіше слова «подавати», а в другому кадрі синтаксична група, вершиною якої є слово, відповідне аргументу з роллю «естиматів». Більшість термінів знаходиться за допомогою описаного способу пошуку фреймів, однак існує ряд поширених випадків, які викликають помилки при витягуванні авторського терміну: • Виділений вираз містить слова, які є термінами. У прикладі до третього кадру з таблиці 10: «Філософія зазвичай окреслюється вивчення причин і почав всього сущого…» в такий спосіб буде «зазвичай». • Вирази із запереченням, що містять частинку «не». Приклад: «але процес завантаження не є навалом, в реактор поміщають тепловиділяючі елементи, вже добре нам відомі ТВЕЛ». • Вирази, які задають відносини синонімії, частина-ціле або деякі випадки відношення «що є чим». Приклад: «найпростішим є топічний параметр». Щоб врахувати такі випадки, після знаходження кадру та виділення терміну додатково проводиться процедура фільтрації за допомогою набору евристик. Для першого випадку передбачено правила, які фільтрують список слів, що входять до виділеного терміну. Наприклад, відфільтровуються деякі частинки і спілки («нехай», «якщо», «також» та ін.), прислівники (зазвичай, зазвичай та ін.) короткі прикметники, що стоять безпосередньо наприкінці та на початку багатослівного терміна. Щоб відфільтрувати вирази, що підпадають під другий випадок, у відповідній клаузі перевіряється наявність ключового слова (якщо це дієслово) синтаксичного зв'язку з частинкою «не». Частково вдається вирішити проблему з третього випадку шляхом фільтрації термінів за ключовими словами та формами, в яких ці слова можуть бути присутніми.

Коментарі

Популярні дописи з цього блогу

Література

4.2. Застосування семантичного та семантико-синтаксичного аналізу для запитально-відповідального пошуку

1.3. Семантико-синтаксичний аналіз