Мультиагентная система для решения задачи мультимодального преобразования видеолекции в текстовый документ

М. Е. Исмагулов

Аннотация


В статье рассматривается мультиагентная система, разработанная для автоматизированного преобразования видеолекций в полноценный текстовый конспект, который отражает содержание исходного видеофайла с учетом информации из аудио- и видеомодальностей. Целью исследования является создание решения для автоматической трансформации образовательного видеоконтента в структурированный текст, пригодный для дальнейшего использования в учебных целях. В работе применяются методы машинного обучения, включая глубокие нейронные сети, а также подходы мультиагентных систем для координации сложных процессов обработки данных. Разработан прототип системы, реализованный на основе архитектуры «оркестратор-исполнитель». Данная архитектура включает три типа агентов: оркестратор, отвечающий за управление и координацию процессов, агент исполнитель, использующий интеллектуальные модели машинного обучения для анализа контента и агент-инструмент, выполняющий детерминированную обработку данных. На текущем этапе прототип способен обрабатывать один из трех запланированных форматов видеолекций, создавая текстовый документ в формате Markdown. Для обучения и тестирования системы сформирован набор данных, основанный на реальных записях, онлайн-курсов. Метрики прототипа включают: для модели OpenAI Whisper Medium — WER 16,3%; для конвейера YOLO11-PySceneDetect-pHash — Precision: 0.94, Recall: 1.00, F1-Score: 0.97; точность оптического распознавания символов составила 94,89% по результатам бенчмарка. Особенность мультиагентной системы заключается в использовании последовательных конвейеров обработки данных, объединяющих несколько алгоритмов и моделей. В заключение представлены результаты текущего этапа разработки, а также намечены направления дальнейшего совершенствования системы, такие как расширение поддержки форматов и улучшение производительности.

Ключевые слова


Мультимодальная обработка видеолекции; мультиагент-ные системы; паттерн оркестратор-исполнитель; конвейер-ная обработка данных; прототип мультиагентной системы.

Полный текст:

PDF

Литература


Agrawal K., Nargund N. Neural Orchestration for Multi-Agent Systems: A Deep Learning Framework for Optimal Agent Selection in Multi-Domain Task Environments // arXiv. 2025. — arXiv: 2503.04479.

Ataallah K., Shen X., Abdelrahman E., Sleiman E., Zhu D., Ding J., Elhoseiny M. MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens // arXiv. 2024. — arXiv: 2404.03413.

Dorri A., Kanhere S. S., Jurdak R. Multi-Agent Systems: A Survey // IEEE Access. 2018. Vol. 6. P. 28573–28593. EDN: YGWJGH.

Fourney A., Bansal G., et al. Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks // arXiv. 2024. — arXiv: 2411.04468.

Gonzalez H., Jin H., Baker R., et al. Automatically Generated Summaries of Video Lectures // Proceedings of the 2023 Workshop on Natural Language Generation, Evaluation, and Metrics (BEA). 2023.

Li Y., Jiang S., et al. Uni-MoE: Scaling Unified Multimodal LLMs With Mixture of Experts // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024. Vol. 47. P. 3424–3439.

Luo H., Ji L., et al. UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation // arXiv. 2020. — arXiv: 2002.06353.

Milev I., Balunovi'c M., et al. ToolFuzz - Automated Agent Tool Testing // arXiv. 2025. — arXiv: 2503.04479.

Takeuchi M., Ito A., Nose T. Selection of key sentences from lecture video transcription and its application to feedback to the learner // Proc. 8th Int. Conf. Education and Multimedia Technology ICEMT’2024. Tokyo, Japan, 2024. P. 22–24.

Wang Y., He Y., et al. InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation // arXiv. 2023. — arXiv: 2307.06942.

Wu J., Gan W., et al. Multimodal Large Language Models: A Survey // Proc. 2023 IEEE Int. Conf. on Big Data (BigData). 2023. P. 2247–2256.

Xu M., Yin W., et al. A Survey of Resource-efficient LLM and Multimodal Foundation Models // arXiv. 2024. — arXiv: 2401.08092.

Yang X., Huang S., et al. Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation // arXiv. 2023. — arXiv: 2302.04094. P. 1652–1660.

Ye Q., Xu H., et al. mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality // arXiv. 2023. — arXiv: 2304.14178.

Zou H., Luo T., et al. From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding // arXiv. 2024. — arXiv: 2409.18938.

Буреев А. С., Антонов В. В., Сапожников А. Ю. Метод валидации электронной конструкторской документации с использованием API КОМПАС-3D // СИИТ. 2025. Т. 7, № 4(23). С. 49-57. EDN: SSNPDM. [[Bureev A. S., Antonov V. V., Sapozhnikov A. Yu. Method of validation of electronic design documentation using KOMPAS-3D API // SIIT. 2025. Vol. 7, No. 4(23). P. 49-57. (In Russian).]]

Исмагулов М. Е. Конвейерный мультимодальный нейросетевой метод обработки видео // СИИТ. 2025. Т. 7, № 1(20). С. 78-85. EDN: TDHVVF. [[Ismagulov M. E. Conveyor-based multimodal neural network method for video processing // SIIT. 2025. Vol. 7, No. 1(20). P. 78-85. (In Russian).]]

Резников Г. А., Синицын Р. Д., Шулик А. М. Современные архитектуры нейронных сетей для тегирования и аннотирования изображений: достижения, вызовы и перспективы // СИИТ. 2025. Т. 7, № 2(21). С. 78-85. EDN: TJFUGV. [[Reznikov G. A., Sinitsyn R. D., Shulik A. M. Modern neural network architectures for image tagging and annotation: achievements, challenges and prospects // SIIT. 2025. Vol. 7, No. 2(21). P. 78-85. (In Russian).]]




DOI: https://doi.org/10.54708/SIIT-2026-no1-p101

Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2026 М. Е. Исмагулов