Метод доверенной оркестрации роботизированных агентов в децентрализованных средах на основе глубокого обучения с подкреплением

В. И. Петренко; Ф. Б. Тебуева; П. А. Соболева

doi:10.54708/SIIT-2026-no1-p75

Метод доверенной оркестрации роботизированных агентов в децентрализованных средах на основе глубокого обучения с подкреплением

В. И. Петренко, Ф. Б. Тебуева, П. А. Соболева

Аннотация

В работе предложен новый метод Trust-MADDPG Orchestration (TMO), интегрирующий архитектуру централизованного обучения с децентрализованным исполнением на основе алгоритма глубокого обучения с подкреплением. Ключевым элементом метода является динамический механизм оценки доверия, который использует экспоненциальную функцию. Данный механизм обеспечивает быструю адаптацию системы к расхождениям между ожидаемым и фактическим вознаграждением. Разработанный был протестирован в реалистичной симуляционной среде MultiDroneSim на задаче совместного исследования территории с помехами и сбойными агентами. Эксперименты продемонстрировали превосходство TMO над базовыми методами: успешность выполнения миссии увеличена на 22,5%, а устойчивость к внедрению сбойных агентов повышена более чем в 4 раза (снижение эффективности всего на 5% по сравнению с 22% у базового метода). Эти результаты подтверждают, что интеграция механизма динамического доверия является ключевым фактором для обеспечения надежной оркестрации в децентрализованных мультиагентных системах.

Ключевые слова

Роботизированные агенты; децентрализованные системы; глубокое обучение с подкреплением; доверенная оркестрация; механизм доверия; координация; интеллектуальные системы

Полный текст:

PDF

Литература

Al-Maslamani N. M., Abdallah M., Al-Qutayri M. (2023). Reputation-aware multi-agent DRL for secure hierarchical federated learning in IoT // IEEE Open Journal of the Communications Society, 4, 1-20. DOI: 10.1109/ojcoms.2023.3280359. EDN: FYIGWN.

Al-Tarawneh M.A.B., Kanj H., Aly W.H.F. An integrated MCDM framework for trust-aware and fair task offloading in heterogeneous multi-provider Edge-Fog-Cloud systems // Results in Engineering, June 2025, vol. 26, Pp. 105228. DOI: 10.1016/j.rineng.2025.105228. EDN: IEGHCD.

Baccarelli E., Scarpiniti M., Momenzadeh A., Naranjo P.G.V. Learning-powered migration of social digital twins at the network edge // Computer Communications, October 2024, vol. 226-227, Pp. 107918. 10.1016/j.comcom.2024.07.019. EDN: ANHRKV.

Baroud S.Y., Yahaya N.A. ML2MAS: a multi-agent reinforcement learning and BNNs-GAN integration framework for smart manufacturing optimization // Sustainable Operations and Computers, 2025, vol. 6, Pp. 217-228. DOI: 10.1016/j.susoc.2025.07.003. EDN: https://elibrary.ru/cbdlnr.

Hammoud A., Iskandar A., Kovács B. Dynamic foraging in swarm robotics: a hybrid approach with modular design and deep reinforcement learning intelligence // Informatics and Automation. 2025. Т. 24. № 1. С. 51-71. DOI: 10.15622/ia.24.1.3. EDN: FYIGWN.

Huo X., Huang H., et al. (2024). A Review of Scalable and Privacy-Preserving Multi-Agent Frameworks for Distributed Energy Resources // arXiv preprint arXiv:2409.14499. URL: https://arxiv.org/abs/2409.14499.

Iftikhar A., Qureshi K.N., Shiraz M., Albahli S. Security, trust and privacy risks, responses, and solutions for high-speed smart cities networks: A systematic literature review // Journal of King Saud University - Computer and Information Sciences, October 2023, vol. 35, issue 9, Pp. 101788. DOI: 10.1016/j.jksuci.2023.101788. EDN: HPLUUW.

Iturbe E., Rego A., Llorente-Vazquez O., Rios E., Dalamagkas C., Merkouris D., Toledo N. Reinforcement Learning in action: Powering intelligent intrusion responses to advanced cyber threats in realistic scenarios // Expert Systems with Applications, 15 January 2026, vol. 296, part c, Pp. 129168. DOI: 10.1016/j.eswa.2025.129168. EDN: VEVCSQ.

Lowe R., Wu Y., Tamar A., et al. Multi-agent actor-critic for mixed cooperative-competitive environments // Advances in Neural Information Processing Systems 30 (NIPS 2017). P. 6380. DOI: 10.48550/arXiv.1706.02275.

Луканов С. Ю., Хришкевич Г. А. и др. Разработка модели управления группой беспилотных летательных аппаратов с помощью глубокого обучения с подкреплением // Научно-технический вестник Поволжья. 2024. № 11. С. 158-162. EDN: ARBVPT. [[Lukanov S. Yu., Khrishkevich G. A., et al. Development of a control model for a group of unmanned aerial vehicles using deep reinforcement learning // Scientific and Technical Bulletin of the Volga Region. 2024. No. 11, pp. 158-162. (In Russian).]]

Nguyen T., Nguyen H., Gia T.N. Exploring the integration of edge computing and blockchain IoT: Principles, architectures, security, and applications // Journal of Network and Computer Applications, June 2024, vol. 226, Pp. 103884. DOI: 10.1016/j.jnca.2024.103884. EDN: PDMWVP.

Петренко В. И. Метод глубокого мультиагентного обучения с подкреплением для мобильных киберфизических систем с повышенными требованиями к функциональной безопасности // Системы управления, связи и безопасности. 2021. № 3. С. 179-206. DOI: 10.24412/2410-9916-2021-3-179-206. EDN: GVUUPE. [[Petrenko V. I. A method of deep multi-agent reinforcement learning for mobile cyber-physical systems with increased requirements for functional safety // Control, Communications and Security Systems. 2021. No. 3, pp. 179-206. (In Russian). ]]

Piccialli F., Chiaro D., et al. AgentAI: A comprehensive survey on autonomous agents in distributed AI for industry 4.0 // Expert Systems with Applications, 1 October 2025, vol. 291, Pp. 128404. 10.1016/j.eswa.2025.128404. EDN: WQAFUL.

Ruan S., Lu K. Adaptive deep reinforcement learning for personalized learning pathways: A multimodal data-driven approach with real-time feedback optimization // Computers and Education: Artificial Intelligence, December 2025, vol. 9, Pp. 100463. DOI: 10.1016/j.caeai.2025.100463. EDN: KEDAMO.

Sarker S.K., Shafei H., Li L., Aguilera R.P., Hossain M.J., Muyeen S.M. Advancing microgrid cyber resilience: Fundamentals, trends and case study on data-driven practices // Applied Energy, 2025, vol. 401, part C, Pp. 126753. 10.1016/j.apenergy.2025.126753. EDN: PNNGGH.

Tian S., Wei C., Jian S., Ji Z. Preference-based deep reinforcement learning with automatic curriculum learning for map-free UGV navigation in factory-like environments // Engineering Science and Technology, an International Journal, 2025, vol. 70, Pp. 102147. 10.1016/j.jestch.2025.102147

Zhang C., Juraschek M., Herrmann C. Deep reinforcement learning-based dynamic scheduling for resilient and sustainable manufacturing: A systematic review // Journal of Manufacturing Systems, December 2024, vol. 77, Pp. 962-989. DOI: 10.1016/j.jmsy.2024.10.026. EDN: https://elibrary.ru/riyvwn.

Zhu C., Zhu X., Qin T. Joint trajectory and incentive optimization for privacy-preserving UAV crowdsensing via multi-agent federated reinforcement learning // Internet of Things, 2025, vol. 33, Pp. 101689. DOI: 10.1016/j.iot.2025.101689. EDN: CUXJER.

Гурчинский М. М., Тебуева Ф. Б. Обнаружение нарушителя агентами роевых робототехнических систем в условиях недетерминированной среды функционирования // СИИТ.2024. Т. 6, № 3(18). С. 71-82. DOI: 10.54708/2658-5014-SIIT-2024-no3-p71. EDN: AUVYOX. [[Gurchinsky M. M., Tebueva F. B. Detection of an intruder by agents of swarm robotic systems in a non-deterministic operating environment // SIIT.2024. Vol. 6, No. 3(18). P. 71-82. (In Russian).]]

Миронов К. В. Transport-by-Throwing - робототехнический переброс: эксперименты и реализация // СИИТ.2025. Т. 7, № 5(24). С. 40-56. DOI: 10.54708/2658-5014-SIIT-2025-no5-p40. EDN: UDALGS. [[Transport-by-Throwing - robotic transfer: experiments and implementation // SIIT.2025. Vol. 7, No. 5(24). P. 40-56. (In Russian).]]

Муслимов Т. З. Методы и алгоритмы группового управления беспилотными летательными аппаратами самолетного типа // СИИТ. 2024. Т. 6, № 1(16). С. 3-15. DOI: 10.54708/2658-5014-SIIT-2024-no1-p3. EDN: HOTUZU. [[Muslimov T. Z. Methods and algorithms for group control of unmanned aerial vehicles of the aircraft type // SIIT. 2024. Vol. 6, No. 1(16). P. 3-15. (In Russian).]]

Петренко В. И., Тебуева Ф. Б. и др. Алгоритм машинного обучения системы управления антропоморфными манипуляторами // СИИТ. 2021. Т. 3, № 2(6). С. 35-43. DOI: 10.54708/26585014_2021_32635. EDN: USZJSM. [[Petrenko V. I., Tebueva F. B., et al. Machine learning algorithm for the control system of anthropomorphic manipulators // SIIT. 2021. Vol. 3, No. 2(6). P. 35-43. (In Russian).]]

Приходько В. Е., Тепляшин и др. Практическая реализация коммуникационной системы мобильной группы на основе нейронных сетей // СИИТ. 2025. Т. 7, № 1(20). С. 96-104. DOI: 10.54708/2658-5014-SIIT-2025-no1-p96. EDN: UYDDVC. [[Prikhodko V. E., Teplyashin et al. Practical implementation of a mobile group communication system based on neural networks // SIIT. 2025. Vol. 7, No. 1(20). P. 96-104. (In Russian).]]

DOI: https://doi.org/10.54708/SIIT-2026-no1-p75

Ссылки

На текущий момент ссылки отсутствуют.