Современные архитектуры нейронных сетей для тегирования и аннотирования изображений: достижения, вызовы и перспективы

Г. А. Резников, Р. Д. Синицын, А. М. Шулик

Аннотация


В статье исследуется растущая роль тегирования изображений в условиях стремительного увеличения объема визуальных данных, который наблюдается в таких областях, как социальные сети, медицина, безопасность. Тегирование, включая хэштеги и автоматическую маркировку, становится важнейшим инструментом для систематизации, поиска и фильтрации контента, что значительно улучшает пользовательский опыт, облегчает доступ к информации и позволяет эффективно обрабатывать большие массивы данных. Научная новизна работы заключается в комплексном анализе современных архитектур нейронных сетей, применяемых для распознавания и аннотирования изображений. В исследовании рассматриваются не только традиционные методы, такие как сверточные нейронные сети (CNN) и остаточные сети (ResNet), но и новые гибридные модели, а также подходы, основанные на трансформаторах, которые демонстрируют высокую эффективность при решении задач автоматического тегирования и аннотирования изображений. Особое внимание уделяется анализу точности этих моделей, их преимуществ и ограничений в контексте обработки изображений. В статье также обсуждаются актуальные проблемы и риски, связанные с применением нейронных сетей для аннотирования изображений, включая нехватку размеченных данных, низкую интерпретируемость моделей, проблемы обобщенности, а также этические вопросы, такие как предвзятость алгоритмов, защита персональных данных и вопросы конфиденциальности. В заключении делается вывод о значимости нейронных сетей для развития технологий распознавания изображений и подчеркивается необходимость дальнейших исследований для повышения точности, эффективности и этичности существующих подходов в данной области, что открывает новые горизонты для применения технологий в различных отраслях, включая медицину, автомобильную промышленность и другие.

Ключевые слова


нейронные сети; маркировка; классификация; архитектура нейронной сети; машинное обучение

Литература


Global Photography Statistics: Booming Market, Smartphone Dominance, Social Media Influence / Worldmetrics [Online]. Available: https://worldmetrics.org/photography-statistics [Accessed Oct. 30, 2024].

Insights from Googles Remarkable Word Search Statistics Worldwide / Worldmetrics [Online]. Available: https://worldmetrics.org/google-word-search-statistics/ [Accessed Oct. 30, 2024]

Andrew G. Howard, Menglong Zhu, Bo Chen, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv preprint arXiv:2101.12491, 2017.

Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size. arXiv preprint arXiv:1602.07360, 2016.

Mingxing Tan, Quoc V. Le. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. arXiv preprint arXiv:1905.11946, 2019.

Vittorio Mazzia, Francesco Salvetti, Marcello Chiaberge. Efficient-CapsNet: capsule network with self-attention routing. arXiv preprint arXiv:2101.12491, 2019.

Ramla Bensaci, Belal Khaldi, Oussama Aiadi, Ayoub Benchabana, “Deep Convolutional Neural Network with KNN Regression for Automatic Image Annotation,” Applied Sciences, vol. 11(21), 2021.

Myasar Mundher Adnan, Mohd Shafry Mohd Rahim, et al. “Automatic Image Annotation Based on Deep Learning Models: A Systematic Reviewand Future Challenges,” IEEE Access vol. 9, 2021.

Oscar Ondeng, Heywood Ouma, Peter Akuon, “A Review of Transformer-Based Approaches for Image Captioning,” Applied Sciences, vol. 13(19), 2023.

He, K., Zhang, X., Ren, S., Sun, J. Deep Residual Learning for Image Recognition. arXiv preprint arXiv:1512.03385, 2015.

Andrew G. Howard, Menglong Zhu, Bo Chen, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv preprint arXiv:1704.04861, 2017.

Tan, M. and Le, Q.V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. arXiv preprint arXiv: 1905.11946, 2020.

Sabour, S., Frosst, N., Hinton, G. E. Dynamic Routing Between Capsules. arXiv preprint arXiv:1710.09829, 2017.

Sander van der Hoog. Deep Learning in Agent-Based Models: A Prospectus. Bielefeld University Working Papers in Econom-ics and Managemen No. 02-2016, January 2016 ISSN 2196−2723

Chao-Yuan Wu, R. Manmatha, Alexander J. Smola, Philipp Krähenbühl. Sampling Matters in Deep Embedding Learning. arXiv preprint arXiv: 1706.07567, 2017.

Gong, Y., Jia, Y., et al. Deep Convolutional Ranking for Multilabel Image Annotation. arXiv preprint arXiv:1312.4894, 2013.

Deldjoo, Y., Schedl, M., Hidasi, B., Wei, Y., He, X. Multimedia Recommender Systems: Algorithms and Challenges. In: Ricci, F., Rokach, L., Shapira, B. (eds) Recommender Systems Handbook Springer, New York, NY, 2022

Ren, S., He, K., Girshick, R., Sun, J. Faster R-CNN. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. arXiv preprint arXiv:1506.01497, 2015. Jinseok Nam, Jungi Kim, Eneldo Loza Mencía, Iryna Gurevych, Johannes Fürnkranz. Large-scale Multi-label Text Classification - Revisiting Neural Networks. arXiv preprint arXiv: 1312.5419, 2014.

Yan Xu, Tao Mo, Qiwei Feng, Peilin Zhon, Maode Lai, Eric I-Chao Chang. “Deep learning of feature representation with multiple instance learning for medical image analysis” In Proc. IEEE International Conference on Acoustics, Speech and Signal Processing ’05, 2014, pp. 1626-1630.

Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick. Mask R-CNN. arXiv preprint arXiv: 1703.06870, 2017.

Yunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi Feng. Dual Path Networks. arXiv preprint arXiv: 1707.01629, 2017.

Tan, M., Pang, R., Le, Q. V. EfficientDet: Scalable and Efficient Object Detection. arXiv preprint arXiv:1911.09070, 2020.

He, K., Zhang, X., Ren, S., Sun, J. Identity Mappings in Deep Residual Networks. arXiv preprint arXiv:1603.05027, 2016.

Xie, S., Girshick, R., Dollár, P., et al. Aggregated Residual Transformations for Deep Neural Networks. arXiv preprint arXiv:1611.05431, 2017.

Prakash, A., Moran, N., et al. Deflecting Adversarial Attacks with Pixel Deflection. arXiv preprint arXiv:1801.08926, 2018.

Xi, E., Bing, S., Jin, Y. Capsule Network Performance on Complex Data. arXiv preprint arXiv:1712.03480, 2017.

Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin Multi-label Image Recognition by Recurrently Discovering Attentional Regions. arXiv preprint arXiv: 1711.02816, 2017.

Khondaker Tasrif Noor, Antonio Robles-Kelly, Brano Kusy. A Capsule Network for Hierarchical Multi-Label Image Classification. arXiv preprint arXiv:2209.05723, 2022.

Xialei Liu, Hao Yang, Avinash Ravichandran, Rahul Bhotika, Stefano Soatto. Multi-Task Incremental Learning for Object Detection. arXiv preprint arXiv:2002.05347, 2020.

Girshick, R., Donahue, J., Darrell, T., Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. arXiv preprint arXiv:1311.2524, 2014.

Зиновьев М. С., Нургаянова О. С. Прогнозирование вероятности развития диабетической ретинопатии у пациентов с сахарным диабетом: анализ методов машинного обучения // СИИТ. 2024. Т. 6, № 3(18). С. 95-101. EDN VLFFLP. [[ Zinoviev M. S., Nurgayanova O. S. “Predicting the probability of developing diabetic retinopathy in patients with diabetes mellitus: analysis of machine learning methods” // SIIT. 2024. Vol. 6, No. 3(18), pp. 95-101. EDN VLFFLP. (In Russian. ]]

Сулавко А. Е. Высоконадежная биометрическая аутентификация на основе защищенного исполнения нейросетевых моделей и алгоритмов искусственного интеллекта // СИИТ. 2024. Т. 6, № 2(17). С. 11-32. EDN VNIEEV. [[ Sulavko A. E. “Highly reliable biometric authentication based on secure execution of neural network models and artificial intelligence algorithms” // SIIT. 2024. Vol. 6, No. 2(17), pp. 11-32. EDN VNIEEV. (In Russian. ]]

Кучкарова Н. В. Оценка актуальных угроз и уязвимостей объектов критической информационной инфраструктуры с использованием технологий интеллектуального анализа текстов // СИИТ. 2024. Т. 6, № 2(17). С. 50-65. EDN NLDWBE. [[ Kuchkarova N. V. “Assessment of current threats and vulnerabilities of critical information infrastructure objects using text mining technologies” // SIIT. 2024. Vol. 6, No. 2(17), pp. 50-65. EDN NLDWBE. (In Russian. ]]

Елизарова А. В., Саитова Г. А., Момзиков Н. В. Выбор архитектуры нейронной сети для прогнозирования состояния заряда аккумулятора // СИИТ. 2023. Т. 5, № 4(13). С. 123-131. EDN RXSDIA. [[ Elizarova A. V., Saitova G. A., Momzikov N. V. “Selecting a neural network architecture for predicting the battery charge state” // SIIT. 2023. Vol. 5, No. 4(13), pp. 123-131. EDN RXSDIA. (In Russian. ]]

Шалфеева Е. А. Методология производства жизнеспособных систем доверительного искусственного интеллекта // СИИТ. 2023. Т. 5, № 4(13). С. 28-49. EDN CJTKQH. [[ Shalfeeva E. A. “Methodology to produce viable systems of trustworthy artificial intelligence” // SIIT. 2023. Vol. 5, No. 4(13), pp. 28-49. EDN CJTKQH. (In Russian. ]]


Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2024 Г. А. Резников, Р. Д. Синицын, А. М. Шулик