Обучение с подкреплением в задаче управления ориентацией космического аппарата с деформируемыми элементами

Язык труда и переводы:
УДК:
531.133.2
Дата публикации:
17 декабря 2021, 14:23
Категория:
Секция 05. Прикладная небесная механика и управление движением
Авторы
Валиуллин Айрат Анасович
Московский физико-технический институт (национальный исследовательский университет)
Притыкин Дмитрий Аркадьевич
Московский физико-технический институт (национальный исследовательский университет)
Лукашевичус Алексей Арунасович
Московский физико-технический институт (национальный исследовательский университет)
Аннотация:
Рассмотрен подход к построению алгоритмов управления ориентацией космического аппарата с деформируемыми элементами посредством обучения с подкреплением. Космический аппарат движется по круговой околоземной орбите; в качестве исполнительных органов системы ориентации выбраны управляющие двигатели-маховики. Модель углового движения аппарата включает действие гравитационного момента, случайные возмущения и колебания, возникающие в деформируемых элементах. Квазиоптимальные законы управления для разворотов на большие углы получены с помощью алгоритма Proximal Policy Optimization.
Ключевые слова:
управление, ориентация спутника, деформируемые элементы, обучение с подкреплением, proximal policy optimization
Основной текст труда

Обучение с подкреплением зарекомендовало себя как перспективный подход  к разработке автономных и адаптивных алгоритмов управления в системах, которые могут быть описаны как Марковские процессы принятия решений. Этот подход показал хорошие результаты на классических задачах управления и в настоящее время применяется в реальных технических системах: в частности, в контуре управления беспилотными летательными аппаратами. Суть обучения с подкреплением состоит в обучении агента посредством его взаимодействия с внешней средой, которое позволяет агенту выработать стратегию управления, представляющую собой распределение вероятностей для принятия допустимых решений (управляющих воздействий) при попадании в то или иное состояние. Агент, обучившийся таким образом стратегии управления, эквивалентен закону управления с обратной связью по состоянию. Преимуществом обучения с подкреплением является возможность подстройки стратегии управления во время работы системы, то есть возможность обучения агента в процессе получения нового опыта. Улучшение работы системы управления и ее адаптация к меняющимся условиям позволяют системе обладать большей автономностью, что особенно важно для космических миссий, тем более выполняемых в условиях неопределенности. Кроме того, при проектировании космических миссий всё чаще предпочтение отдаётся решениям, подразумевающим совместную работу групп космических аппаратов (КА). Такая архитектура благоприятна для адаптивных алгоритмов обучения с подкреплением, поскольку позволяет группе обмениваться опытом, в то время как траектории разных КА попадают в разные области пространства состояний.

Авторам работы известно несколько успешных опытов применения алгоритмов обучения с подкреплением к модельным задачам ориентации космических аппаратов [1–4]. Перечисленные работы, впрочем, скорее  посвящены задаче управления динамикой твердого тела с неподвижной точкой, движущегося по инерции, кроме работы [4], в которой в качестве обучающей среды использован симулятор динамики космического полета. Все указанные работы используют метод Proximal Policy Optimization (PPO) для получения стратегии управления, а в работе [4] этот метод дополнительно сравнивается с алгоритмом Soft-Actor Critic. Следуя устоявшейся практике, мы также применяем алгоритм PPO, преимуществами которого являются устойчивость обучения и относительная нетребовательность к вычислительным ресурсам [3]. Поставленная задача управления формулируется нами в терминах Марковского процесса принятия решений, что подразумевает описание пространства состояний системы S, описание пространства управляющих воздействий A, доступных агенту, задание оператора эволюции системы (правила перехода из какого-то состояния к новому учитывая примененное воздействие), а также обоснованный выбор системы вознаграждений. Последний шаг является наиболее важным, поскольку именно накопленное вознаграждение (интеграл вознаграждений вдоль траектории) и является функционалом, оптимизируемым в алгоритме PPO для отыскания квазиоптимальной стратегии управления. Важно отметить, что решение находится не в виде формулы или таблицы значений для всех возможных состояний системы, а определяется как аппроксимация закона управления с помощью нейронной сети, обучаемой при поиске стратегии управления.

Рассматривается движение КА по круговой околоземной орбите. Модель углового движения КА включает действие гравитационного момента, а остальные возмущения моделируются как трехмерная нормально распределенная случайная величина. Вращательное движение КА описывается кинематическими уравнениями Пуассона в кватернионах и динамическими уравнения Эйлера. Цель управления ориентацией — совмещение собственных осей КА с осями орбитальной системы координат (например, для ориентации в надир). Рассматриваемые маневры — повороты на большие углы с нулевой начальной и конечной относительной угловой скоростью. Алгоритмы определения ориентации и соответствующие им ошибки в этой работе не рассматриваются. Первая часть результатов состоит в постановке задачи, формировании вознаграждения и обучении агента с последующим сравнением полученных результатов с работами [1–4], а также с работой классического алгоритма управления ориентацией КА (ПД регулятор, синтезированный методом функций Ляпунова). Во второй части рассматривается управление ориентацией аналогичного КА, в состав которого входят деформируемые элементы. Уравнения вращательной динамики твердого тела дополняются уравнениями колебаний, возбуждаемых в упругих элементах, причем и в те, и в другие уравнения входят перекрестные члены. В такой постановке от стратегии управления требуется учитывать возникающие в деформируемых элементах колебания и гасить их для достижения цели управления. Модель упругих элементов, использованная в работе, следует подходу, изложенному в [5]. Расширенная за счет колебательных уравнений система становится новой моделью среды, и стратегия управления ориентацией КА вновь аппроксимируется с помощью алгоритма PPO.

Отметим, что аппроксимируемая с помощью методов обучения с подкреплением стратегия управления демонстрирует качество управления, сравнимое с классическим регулятором (в условиях идеального знания ориентации и при полном отсутствии неопределенности). Кроме того, показано, что методы обучения с подкреплением позволяют получить стратегию управления, адаптирующуюся к существенно нелинейной динамике, возникающей вследствие присутствия в системе деформируемых элементов, колебания которых необходимо гасить при достижении целевой ориентации. Перспективным продолжением этой работы может стать изучение адаптации стратегии управления к изменениям параметров системы (например, к изменению свойств шарнирных соединений солнечных панелей с КА).

Литература
  1. Wang Y., Ma Z., Yang Y., Wang Z., and Tang L. A new spacecraft attitude stabilization mechanism using deep reinforcement learning method // 8th European Conference for Aeronautics and Space Sciences (EUCASS). 2019. DOI: 10.13009/EUCASS2019-33
  2. Vedant A.J.T., West M., Ghosh A. Reinforcement learning for spacecraft attitude control // Proceedings of the International Astronautical Congress. Washington DC, October 2019. Available at: https://www.researchgate.net/project/Reinforcement-Learning-for-Co-Design (accessed November 17, 2021).
  3. Elkins J., Sood R., Rumpf C. Autonomous spacecraft attitude control using deep reinforcement learning // 71st International Astronautical Congress. The CyberSpace Edition, October 2020.
  4. Tan V., Labrador JL, Talampas MC. MATA-RL: Continuous Reaction Wheel Attitude Control using the MATA Simulation Software and Reinforcement Learning // Small Satellite Conference: Proceedings of the AIAA/USU Conference. Project: PHL-50 Software, August 2021. Available at: https://digitalcommons.usu.edu/smallsat/2021/all2021/246/ (accessed November 17, 2021).
  5. Alazard D., Cumer C., Tantawi K. Linear dynamic modeling of spacecraft with various flexible appendages and on-board angular momentums // In ESA Guidance, Navigation, and Control Conference. 2008. Available at: https://www.researchgate.net/publication/265105698_Linear_Dynamic_Modeling_of_Spacecraft_With_Various_Flexible_Appendages (accessed November 17, 2021).
Ваш браузер устарел и не обеспечивает полноценную и безопасную работу с сайтом.
Установите актуальную версию вашего браузера или одну из современных альтернатив.