On-off Spacecraft Relative Control in Sliding Mode Via Reinforcement Learning

dc.contributor.authorSorochinskii, V. V.en
dc.contributor.authorKhoroshylov, S. V.en
dc.contributor.authorLevchuk, Ihor L.en
dc.contributor.authorDubovyk, Tetiana M.en
dc.contributor.authorHuz, Hanna M.en
dc.contributor.authorRomanchuk, Oleksandr O.en
dc.date.accessioned2026-03-24T10:20:04Z
dc.date.issued2025
dc.descriptionIhor L. Levchuk: ORCID 0000-0002-8983-0558; Tetiana M. Dubovyk: ORCID 0000-0002-2359-2569; Hanna M. Huz: ORCID 0009-0002-2908-8985; Oleksandr O. Romanchuk: ORCID 0000-0003-2623-350Xen
dc.description.abstractENG: The paper addresses the problem of on-off spacecraftrelative control in sliding mode for autonomous on-orbit servicing operations under actuator amplitude limits, action discreteness, and parametric uncertainties. The goal is to develop and assess an approach that combines sliding-mode control with modern reinforcement-learning methods tailored for resource-constrained onboard implementation. Relative motion dynamics is formulated in an orbital coordinate frame with normalized states and discretized in time. Binary actions with pulse-width modulation, subject to constraints on the thrust level, pulse duration, and duty cycle, represent the impulsive nature of actuation. We propose a combined synthesis in which the sliding-surface parameters and switching rules are tuned via proximal policy optimization within an actor-critic architecture. The actor and critic are implemented as neural networks that approximate the policy and the value function, respectively. The actor neural network takes the state vector as input information and outputs the mean and standarddeviation of the parameters of the sliding mode control law. The value function penalizes both the state error and control effort, thus enabling a trade-off among the response speed, accuracy, and propellant consumption. Two uncoupled agents are designed to control spacecraft relative orbital motion in in-plane and out-of-plane directions independently. The proximal policy optimization hyperparameters are selected to ensure a trade-off among the learning time, stability, and control performance. The reinforcement-learning agents are trained and analyzed considering four cases that differ in the thrust levels and weighting matrices. The quality functional combines state deviation and thrust use penalties, thus enabling a trade-off among the response speed, accuracy, and propellant consumption. The results confirm the potential of this approach for autonomous spacecraft control under constraints and uncertainty. Compared with reported baselines, the trained agent shows superior robustness to plant-parameter uncertainty, which we attribute to the inherent robust properties of sliding-mode control. These findings have the potential to improve the efficiency and autonomy of on-orbit servicing operations.en
dc.description.abstractUKR: Розглянуто задачу відносного імпульсного керування рухом космічного апарата у ковзному режимі для автономних орбітальних сервісних операцій за наявності обмежень на амплітуду керуючих впливів, дискретності дій та параметричних невизначеностей. Метою роботиє розробка й оцінювання підходу, що поєднує принципи ковзного керування з сучасними методами навчання з підкріпленням, орієнтованими на бортову реалізацію з обмеженими ресурсами. Динаміку відносного руху задано в орбітальній системі координат у нормалізованих змінних і дискредитовано. Імпульсний характер впливів виконавчих органів відображено через бінарні дії з широтно-імпульсною модуляцією та обмеженнями на рівень тяги, тривалість і період увімкнень. Запропоновано комбінований синтез, у якому параметри поверхні ковзання та правила перемикання налаштовуються методом проксимальної оптимізації політики з використанням архітектури актор-критик. Актор і критик реалізовані у виглядінейроннихмереж, які відповідно апроксимують політику та функцію цінності. Нейронна мережа актора приймає вектор стану як вхідну інформацію і видає середнє значення та стандартне відхилення параметрів закону керування уковзномурежимі. Функція цінності штрафуєяк за помилку стану, так і за витрати на керування, що дозволяє забезпечити компроміс між швидкістю реагування, точністю та витратою палива. Два незалежні агенти розроблені для керування відносним орбітальним рухом космічного апарата окремо в напрямку площини орбітита у перпендикулярному напрямку. Гіперпараметри оптимізації проксимальноїполітики обранодля забезпечення компромісуміж часом навчання, стабільністю та якістюкерування. Агенти навчання з підкріпленнямнавчeніта проаналізованіз урахуванням чотирьох випадків, що відрізняються рівнями тяги та ваговими матрицями.Функціонал якості об’єднує штрафи за відхилення стану та використання тяги, що дає змогу знаходити компроміс між швидкодією, точністю та витратами робочого тіла. Отримані результати підтверджують потенціал такого підходу для задач автономного керування космічних апаратів в умовах обмежень та невизначеності. У порівнянні з відомими результатами навчений агент продемонстрував кращу робастність по відношенню до невизначенності параметрів моделі об’єкта керування, що пояснюється сильними робастними властивостями керування в ковзному режимі. Отримані результати мають потенціал підвищити ефективність та автономність орбітальних сервісних операцій.uk_UA
dc.description.sponsorshipІnstitute of Technical Mechanics of the National Academy of Science of Ukraine and the State Space Agency of Ukraine; Ukrainian State University of Science and Technologiesen
dc.identifier.citationOn-off spacecraft relative control in sliding mode via reinforcement learning. V. V. Sorochinskii et al. Technical mechanics. 2025. Vol. 2025, № 4. P. 77–92. DOI: 10.15407/itm2025.04.077en
dc.identifier.issn1561-9184 (Print)en
dc.identifier.issn2616-6380 (Online)en
dc.identifier.urihttps://journal-itm.dp.ua/ojs/index.php/ITM_j1/article/view/157/66en
dc.identifier.urihttps://crust.ust.edu.ua/handle/123456789/21912en
dc.language.isoen
dc.publisherTechnical mechanicsen
dc.subjecteinforcement learningen
dc.subjectproximal policy optimizationen
dc.subjectspacecraft controlen
dc.subjecton-orbit servicingen
dc.subjecton–off controlen
dc.subjectautonomous control systemsen
dc.subjectнавчання з підкріпленнямuk_UA
dc.subjectпроксимальна оптимізація політикиuk_UA
dc.subjectкерування космічним апаратомuk_UA
dc.subjectорбітальні сервісні операціїuk_UA
dc.subjecton-off керуванняuk_UA
dc.subjectавтономні системи керуванняuk_UA
dc.subjectККІТтаАuk_UA
dc.subject.classificationNATURAL SCIENCESen
dc.subject.classificationChemistryen
dc.subject.classificationTECHNOLOGYen
dc.subject.classificationAutonomous systemsen
dc.titleOn-off Spacecraft Relative Control in Sliding Mode Via Reinforcement Learningen
dc.typeArticleen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Ст_07.pdf
Size:
757.63 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: