Мультиагентная система для решения задачи мультимодального преобразования видеолекции в текстовый документ
Аннотация
Ключевые слова
Полный текст:
PDFЛитература
Agrawal K., Nargund N. Neural Orchestration for Multi-Agent Systems: A Deep Learning Framework for Optimal Agent Selection in Multi-Domain Task Environments // arXiv. 2025. — arXiv: 2503.04479.
Ataallah K., Shen X., Abdelrahman E., Sleiman E., Zhu D., Ding J., Elhoseiny M. MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens // arXiv. 2024. — arXiv: 2404.03413.
Dorri A., Kanhere S. S., Jurdak R. Multi-Agent Systems: A Survey // IEEE Access. 2018. Vol. 6. P. 28573–28593. EDN: YGWJGH.
Fourney A., Bansal G., et al. Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks // arXiv. 2024. — arXiv: 2411.04468.
Gonzalez H., Jin H., Baker R., et al. Automatically Generated Summaries of Video Lectures // Proceedings of the 2023 Workshop on Natural Language Generation, Evaluation, and Metrics (BEA). 2023.
Li Y., Jiang S., et al. Uni-MoE: Scaling Unified Multimodal LLMs With Mixture of Experts // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024. Vol. 47. P. 3424–3439.
Luo H., Ji L., et al. UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation // arXiv. 2020. — arXiv: 2002.06353.
Milev I., Balunovi'c M., et al. ToolFuzz - Automated Agent Tool Testing // arXiv. 2025. — arXiv: 2503.04479.
Takeuchi M., Ito A., Nose T. Selection of key sentences from lecture video transcription and its application to feedback to the learner // Proc. 8th Int. Conf. Education and Multimedia Technology ICEMT’2024. Tokyo, Japan, 2024. P. 22–24.
Wang Y., He Y., et al. InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation // arXiv. 2023. — arXiv: 2307.06942.
Wu J., Gan W., et al. Multimodal Large Language Models: A Survey // Proc. 2023 IEEE Int. Conf. on Big Data (BigData). 2023. P. 2247–2256.
Xu M., Yin W., et al. A Survey of Resource-efficient LLM and Multimodal Foundation Models // arXiv. 2024. — arXiv: 2401.08092.
Yang X., Huang S., et al. Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation // arXiv. 2023. — arXiv: 2302.04094. P. 1652–1660.
Ye Q., Xu H., et al. mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality // arXiv. 2023. — arXiv: 2304.14178.
Zou H., Luo T., et al. From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding // arXiv. 2024. — arXiv: 2409.18938.
Буреев А. С., Антонов В. В., Сапожников А. Ю. Метод валидации электронной конструкторской документации с использованием API КОМПАС-3D // СИИТ. 2025. Т. 7, № 4(23). С. 49-57. EDN: SSNPDM. [[Bureev A. S., Antonov V. V., Sapozhnikov A. Yu. Method of validation of electronic design documentation using KOMPAS-3D API // SIIT. 2025. Vol. 7, No. 4(23). P. 49-57. (In Russian).]]
Исмагулов М. Е. Конвейерный мультимодальный нейросетевой метод обработки видео // СИИТ. 2025. Т. 7, № 1(20). С. 78-85. EDN: TDHVVF. [[Ismagulov M. E. Conveyor-based multimodal neural network method for video processing // SIIT. 2025. Vol. 7, No. 1(20). P. 78-85. (In Russian).]]
Резников Г. А., Синицын Р. Д., Шулик А. М. Современные архитектуры нейронных сетей для тегирования и аннотирования изображений: достижения, вызовы и перспективы // СИИТ. 2025. Т. 7, № 2(21). С. 78-85. EDN: TJFUGV. [[Reznikov G. A., Sinitsyn R. D., Shulik A. M. Modern neural network architectures for image tagging and annotation: achievements, challenges and prospects // SIIT. 2025. Vol. 7, No. 2(21). P. 78-85. (In Russian).]]
DOI: https://doi.org/10.54708/SIIT-2026-no1-p101
Ссылки
- На текущий момент ссылки отсутствуют.
(c) 2026 М. Е. Исмагулов



