Разметка семантических ролей с целью извлечения информации из баз знаний в области авиакосмического приборостроения

Язык труда и переводы:
УДК:
004.891
Дата публикации:
21 декабря 2021, 16:54
Категория:
Секция 11. Наукоемкие технологии в ракетно-космической технике
Авторы
Синева Елизавета Евгеньевна
МГТУ им Н.Э. Баумана
Строганов Юрий Владимирович
МГТУ им. Н.Э. Баумана
Бутенко Юлия Ивановна
МГТУ им. Н.Э. Баумана
Аннотация:
Описан механизм вывода информации из базы знаний на основе падежной грамматики Ч. Филлмора, позволяющей определить семантико-синтаксическую структуру выводимого предложения. Показано, что посредством расстановки ограничений на число участников ситуации, которые могут присоединяться глаголом, можно обеспечить эффективный вывод информации из базы знаний в области авиакосмического приборостроения. Представлена концепция программы для реализации разметки семантических ролей в текстах авиакосмической направленности.
Ключевые слова:
база знаний, авиакосмическое приборостроение, семантические падежи, семантическая разметка
Основной текст труда

Поддержка принятия решений в сложных ситуациях необходима в различных областях деятельности, где требуются обоснованные, логически доказуемые аргументы, в том числе в оперативном и стратегическом управлении технологиями на авиационных предприятиях. При принятии решений необходимо проведение детального моделирования последствий предполагаемого решения, поиск оптимального пути достижения заданного результата c помощью технологий имитационного моделирования. С подобными задачами успешно справляются экспертные системы — комплексы программных средств, способные частично или полностью заменять специалиста при решении сложных задач, возникающих в процессе диагностики, проектирования или эксплуатации аэрокосмической и другой техники [1, 2]. Такие системы основаны на знаниях, полученных в процессе взаимодействия с экспертами в конкретной предметной области.

Параллельно с развитием различных направлений исследований в области искусственного интеллекта происходит развитие информационных структур для представления знаний. Появились новые способы описания и представления данных, возникли фреймовые, списочные и иерархические структуры. Представление знаний — это одно из направлений в исследованиях искусственного интеллекта, изучающее способы описания объектов реального мира. Другое не менее важное направление — это манипулирование знаниями. Сам процесс построения баз знаний достаточно сложен и носит итеративный характер, заключающийся в циклической модификации баз знаний на основе результатов ее тестирования [3, 4].

Основной целью исследования является разработка механизма поддержки вывода информации из баз знаний в области авиакосмического приборостроения. Механизм вывода содержит правила для решения конкретной задачи, ссылается на информацию из базы знаний и выбирает факты и правила, которые будут применяться при попытке ответить на запрос пользователя. Данный механизм обеспечивает аргументацию информации в базе знаний и помогает человеку получать информацию из базы знаний в виде предложений, построенных на естественном языке. В работе предлагается осуществлять вывод на основе падежной грамматики Ч. Филлмора, разработанной в конце 1960-х годов [5].

В рамках данной грамматики глагол является центром предложения и в силу своего значения диктует набор ролей или глубинных падежей, определяющих участников ситуации, место действия, инструмент, с помощью которого осуществлялось действие, и т. д. [5]. Количество падежей, которое может присоединить к себе глагол, называется валентностью. Иными словами, валентность определяет число актантов (участников ситуации) в предложении, что зависит от значения глагола.

Ч. Филлмор выделил шесть семантических падежей («агентив» — объект, который производит действие, «инструменталис» — предмет, посредством которого совершается действие, «локатив» — место действия и др.). Анализ текстов по авиакосмическому приборостроению показал, что шести выделенных падежей недостаточно для описания реальных ситуаций, которые могут произойти, например, на борту воздушного судна или на станции МКС. Таким образом, было решено разработать программу, которая позволит разметить большое количество текстов авиакосмической направленности и выделить все необходимые падежи. Сегодня существует множество инструментов для разметки морфологии и синтаксиса, однако выделение смысла из текста представляется более сложной задачей. В результате разметки можно получить лингвистический корпус — коллекцию размеченных текстов по авиакосмической тематике. Программа находится на стадии разработки, ее концепция представлена на рисунке. Семантические роли будут размечаться разными цветами, а все аргументы будут прикрепляться к глаголу, с которым они связаны семантически. На выходе мы получим информацию о возможных падежах, которые могут присоединять к себе определенные глаголы. Количество падежей значительно увеличится, что позволит обучить систему строить на их основе предложения на естественном языке.

Concept of a program for labeling semantic roles in aerospace instrumentation texts

Разметка семантических ролей на сегодняшний день становится одной из основных задач компьютерной лингвистики. Вопросы, связанные с решением данной задачи, изучались в течение десятилетий и наличие больших корпусов текстов, а также развитие методов статистического машинного обучения позволят в скором времени сделать большой шаг вперед в развитии данной области. Семантическая маркировка ролей заключается в определении основных структур событий: «кто» сделал, «что» сделал, с «кем», «когда» и «где».  Создание программы по разметке семантических ролей может оказать значительное влияние на многие инструменты обработки естественного языка, такие как: извлечение информации из текста, создание вопросно-ответных систем, машинный перевод и др.

Процесс разметки семантических ролей в дальнейшем можно автоматизировать. Для осуществления алгоритма автоматической разметки семантических ролей возможно применить один из методов машинного обучения с частичным привлечением учителя. Эксперт может разметить некоторое количество текстов, однако размечать всю коллекцию текстов корпуса — слишком трудоемкая и дорогостоящая задача. Можно разметить небольшое количество текстов, после чего алгоритм извлечет некоторую информацию из размеченных данных и значительно улучшит точность предсказаний по сравнению с алгоритмом, который обучался исключительно на неразмеченных данных.

Литература
  1. Сидняев Н.И., Бутенко Ю.И., Болотова Е.Е. Экспертная система продукционного типа для создания базы знаний о конструкциях летательных аппаратов // Авиакосмическое приборостроение. 2019. № 6. С. 38–52.
  2. Сидняев Н.И., Бутенко Ю.И., Синева Е.Е. Использование падежной грамматики при информационном поиске в базе знаний экспертной системы о конструкциях летательных аппаратов // Системы и средства информатики. 2021. Т. 31, № 3. С. 75–82.
  3. Сигов А.С., Нечаев В.В., Кошкарёв М.И. Архитектура предметно-ориентированной базы знаний интеллектуальной системы // International Journal of Open Information Technologies. 2014. № 12. С. 1–6.
  4. Helbig H. Knowledge Representation and the Semantics of Natural Language. Berlin: Springer-Verlag, 2006. 655 p. DOI: 10.1017/S1351324908004816
  5. Fillmore Ch. The Case for Case // Universals in Linguistic Theory. New York: Holt, Rinehart, and Winston, 1968. Pp. 1–88.
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.