Поддержка принятия решений в сложных ситуациях необходима в различных областях деятельности, где требуются обоснованные, логически доказуемые аргументы, в том числе в оперативном и стратегическом управлении технологиями на авиационных предприятиях. При принятии решений необходимо проведение детального моделирования последствий предполагаемого решения, поиск оптимального пути достижения заданного результата c помощью технологий имитационного моделирования. С подобными задачами успешно справляются экспертные системы — комплексы программных средств, способные частично или полностью заменять специалиста при решении сложных задач, возникающих в процессе диагностики, проектирования или эксплуатации аэрокосмической и другой техники [1, 2]. Такие системы основаны на знаниях, полученных в процессе взаимодействия с экспертами в конкретной предметной области.
Параллельно с развитием различных направлений исследований в области искусственного интеллекта происходит развитие информационных структур для представления знаний. Появились новые способы описания и представления данных, возникли фреймовые, списочные и иерархические структуры. Представление знаний — это одно из направлений в исследованиях искусственного интеллекта, изучающее способы описания объектов реального мира. Другое не менее важное направление — это манипулирование знаниями. Сам процесс построения баз знаний достаточно сложен и носит итеративный характер, заключающийся в циклической модификации баз знаний на основе результатов ее тестирования [3, 4].
Основной целью исследования является разработка механизма поддержки вывода информации из баз знаний в области авиакосмического приборостроения. Механизм вывода содержит правила для решения конкретной задачи, ссылается на информацию из базы знаний и выбирает факты и правила, которые будут применяться при попытке ответить на запрос пользователя. Данный механизм обеспечивает аргументацию информации в базе знаний и помогает человеку получать информацию из базы знаний в виде предложений, построенных на естественном языке. В работе предлагается осуществлять вывод на основе падежной грамматики Ч. Филлмора, разработанной в конце 1960-х годов [5].
В рамках данной грамматики глагол является центром предложения и в силу своего значения диктует набор ролей или глубинных падежей, определяющих участников ситуации, место действия, инструмент, с помощью которого осуществлялось действие, и т. д. [5]. Количество падежей, которое может присоединить к себе глагол, называется валентностью. Иными словами, валентность определяет число актантов (участников ситуации) в предложении, что зависит от значения глагола.
Ч. Филлмор выделил шесть семантических падежей («агентив» — объект, который производит действие, «инструменталис» — предмет, посредством которого совершается действие, «локатив» — место действия и др.). Анализ текстов по авиакосмическому приборостроению показал, что шести выделенных падежей недостаточно для описания реальных ситуаций, которые могут произойти, например, на борту воздушного судна или на станции МКС. Таким образом, было решено разработать программу, которая позволит разметить большое количество текстов авиакосмической направленности и выделить все необходимые падежи. Сегодня существует множество инструментов для разметки морфологии и синтаксиса, однако выделение смысла из текста представляется более сложной задачей. В результате разметки можно получить лингвистический корпус — коллекцию размеченных текстов по авиакосмической тематике. Программа находится на стадии разработки, ее концепция представлена на рисунке. Семантические роли будут размечаться разными цветами, а все аргументы будут прикрепляться к глаголу, с которым они связаны семантически. На выходе мы получим информацию о возможных падежах, которые могут присоединять к себе определенные глаголы. Количество падежей значительно увеличится, что позволит обучить систему строить на их основе предложения на естественном языке.
Разметка семантических ролей на сегодняшний день становится одной из основных задач компьютерной лингвистики. Вопросы, связанные с решением данной задачи, изучались в течение десятилетий и наличие больших корпусов текстов, а также развитие методов статистического машинного обучения позволят в скором времени сделать большой шаг вперед в развитии данной области. Семантическая маркировка ролей заключается в определении основных структур событий: «кто» сделал, «что» сделал, с «кем», «когда» и «где». Создание программы по разметке семантических ролей может оказать значительное влияние на многие инструменты обработки естественного языка, такие как: извлечение информации из текста, создание вопросно-ответных систем, машинный перевод и др.
Процесс разметки семантических ролей в дальнейшем можно автоматизировать. Для осуществления алгоритма автоматической разметки семантических ролей возможно применить один из методов машинного обучения с частичным привлечением учителя. Эксперт может разметить некоторое количество текстов, однако размечать всю коллекцию текстов корпуса — слишком трудоемкая и дорогостоящая задача. Можно разметить небольшое количество текстов, после чего алгоритм извлечет некоторую информацию из размеченных данных и значительно улучшит точность предсказаний по сравнению с алгоритмом, который обучался исключительно на неразмеченных данных.