Конвейерный мультимодальный нейросетевой метод обработки видео

М. Е. Исмагулов

Аннотация


В данной работе рассматривается метод построения алгоритма автоматического преобразования видеолекций в текстовый документ с использованием мультимодального нейросетевого конвейера. Предложенная архитектура конвейера позволяет обрабатывать видеолекцию, разбивая её на видео и аудиосоставляющую, с последующим преобразованием в текст и объединением результатов обработки в готовый документ. Рассмотрены три типа видеолекций: с присутствием лектора в кадре, с закадровым голосом и с использованием классической доски. Реализованы алгоритмы для лекций и оценены ключевые метрики качества работы выбранных моделей.

Ключевые слова


нейросетевой конвейер, мультимодальность, видеолекция, преобразование видео в текст, нейронные сети, обработка текста

Полный текст:

PDF

Литература


Григорьев Д. И., Романов О. А. Алгоритмы и архитектуры мультимодальных нейросетей // Вестник Тверского государственного университета. Серия "Технические науки". 2021. № 3. С. 25-39. [[ Grigoriev D. I., Romanov O. A. “Algorithms and architectures of multimodal neural networks” // Bulletin of Tver State University. Series "Engineering Sciences". 2021. No. 3, pp. 25-39. (In Russian). ]]

Савельев В. М. Мультимодальные конвейеры для обработки видео и текста // Программные продукты и системы. 2019. № 4. С. 37-46. [[ Saveliev V. M. “Multimodal pipelines for video and text processing” // Software Products and Systems. 2019. No. 4, pp. 37-46. (In Russian). ]]

Ахметов М. Р., Ибрагимов Л. Т. Принципы разделения модальностей в глубоких нейронных сетях // Искусственный интеллект и принятие решений. 2022. № 2. С. 45-59. [[ Akhmetov M. R., Ibragimov L. T. “Principles of separation of modalities in deep neural networks” // Artificial Intelligence and Decision Making. 2022. No. 2, pp. 45-59. (In Russian). ]]

Богданова Н. В., Сидоров А. С. Исследование методов объединения и разделения модальностей в мультимодальных моделях // Вестник Московского университета. Серия «Математика и кибернетика». 2023. № 1. С. 89-104. [[ Bogdanova N. V., Sidorov A. S. “Study of methods of combining and separating modalities in multimodal models” // Bulletin of Moscow University. Series "Mathematics and Cybernetics". 2023. No. 1, pp. 89-104. (In Russian). ]]

Нурмагомедов К. З. Разделение модальностей в современных мультимодальных системах // Компьютерная оптика. 2020. Т. 44, № 5. С. 753-762. [[ Nurmagomedov K. Z. “Separation of modalities in modern multimodal systems” // Computer Optics. 2020. Vol. 44, No. 5, pp. 753-762. (In Russian). ]]

Виноградов В. В. Мультимодальные нейросети: теоретические и прикладные аспекты. М.: Наука, 2019. 256 с. [[ Vinogradov V. V. Multimodal Neural Networks: Theoretical and Applied Aspects. Moscow: Nauka, 2019. (In Russian). ]]

Петров А. А., Смирнов И. Б. Применение нейросетевых моделей для обработки данных различных модальностей. СПб.: Питер, 2020. 342 с. [[ Petrov A. A., Smirnov I. B. Application of Neural Network Models for Processing Data of Various Modalities. St. Petersburg: Piter, 2020. (In Russian). ]]

Сидоров Д. В., Петренко Л. А. Архитектуры нейронных сетей для мультимодальных данных: теория и практика. СПб.: Политехника, 2020. 302 с. [[ Sidorov D. V., Petrenko L. A. Neural Network Architectures for Multimodal Data: Theory and Practice. St. Petersburg: Polytechnic, 2020. (In Russian). ]]

Zhang Z., Sun Y., Su S. “Multimodal learning for automatic summarization: a survey” // Advanced Data Mining and Applications (ADMA 2023): Proceedings of the International Conference. 2023, pp. 362–376.

Иванова Е. Н. Конвейерные нейросетевые модели для обработки мультимодальных данных. Новосибирск: Изд-во СО РАН, 2021. 301 с. [[ Ivanova E. N. Conveyor Neural Network Models for Processing Multimodal Data. Novosibirsk: Publishing house of the Siberian Branch of the Russian Academy of Sciences, 2021. (In Russian). ]]

Saini P., Kumar K., Kashid S., Saini A., Negi A. “Video summarization using deep learning techniques: a detailed analysis and investigation” // Artificial Intelligence Review. 2023. V. 56, pp. 12347–12385. EDN MUMNNA.

Kumar R., Prakash D., Saha S., Sharma S. “IndicBART alongside visual element: multimodal summarization in diverse Indian languages” // Document Analysis and Recognition – ICDAR 2024: Proc. Int. Conf. 2024, pp. 264-280.

Ngiam J. et al. “Multimodal deep learning // Proc. 28th Int. Conf. on Machine Learning. Bellevue, WA, USA. 2011, pp. 689-696.

Srivastava N., Salakhutdinov R. “Multimodal learning with deep Boltzmann machines” // Advances in Neural Information Processing Systems. 2016 Vol. 25, pp. 2222-2230.

Tsai Y.-H. et al. “Multimodal transformer for unaligned multimodal language sequences” // Proc. 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy, 2019, pp. 6558-6569.

Baltrušaitis T. et al. “Multimodal machine learning: a survey and taxonomy // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Vol. 41, No. 2, pp. 423-443.

Gunes H. et al. “Emotion recognition in the wild: from alignment to fusion // IEEE Transactions on Affective Computing. 2016 Vol. 4, No. 2, pp. 97-110.

Wang W. et al. “On the origins of deep learning // Frontiers in Neurorobotics. 2020. Vol. 14. Article 57.

Swamy, V., Satayeva, M., Frej, J., et al. MultiModN: Multimodal, Multi-Task, Interpretable Modular Networks // NeurIPS, 2023. Available at: https://arxiv.org/abs/2309.14118. [[ (In Russian). ]]

Кучкарова Н. В. Оценка актуальных угроз и уязвимостей объектов критической информационной инфраструктуры с использованием технологий интеллектуального анализа текстов // СИИТ. 2024. Т. 6, № 2(17). С. 50-65. EDN NLDWBE. [[ Kuchkarova N.V. “Assessment of current threats and vulnerabilities of critical information infrastructure objects using text mining technologies” // SIIT. 2024. Vol. 6, No. 2(17), pp. 50-65. EDN NLDWBE. (In Russian). ]]

Шалфеева Е. А. Методология производства жизнеспособных систем доверительного искусственного интеллекта // СИИТ. 2023. Т. 5, № 4(13). С. 28-49. EDN CJTKQH. [[ Shalfeeva E. A. “Methodology to produce viable systems of trustworthy artificial intelligence” // SIIT. 2023. Vol. 5, No. 4(13). P. 28-49. EDN CJTKQH. (In Russian). ]]

Гаянова М. М., Вульфин А. М. Структурно-семантический анализ научных публикаций выделенной предметной области // СИИТ. 2022. Т. 4, № 1(8). С. 37-43. EDN SRLPRF. [[ Gayanova M. M., Vulfin A. M. “Structural and semantic analysis of scientific publications in a selected subject area” // SIIT. 2022. T. 4, No. 1(8). pp. 37-43. EDN SRLPRF. (In Russian). ]]


Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2025 М. Е. Исмагулов