Классификация текстов на основе семантической близости с использованием встраиваемых моделей
Аннотация
Ключевые слова
Полный текст:
PDFЛитература
Aggarwal C. C. Machine Learning for Text. Cham: Springer, 2018.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. Minneapolis, 2019. P. 4171–4186.
Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques. 3rd ed. Waltham: Morgan Kaufmann, 2012. 744 p.
Joulin A., Grave E., Bojanowski P., et al. FastText.zip: Compressing text classification models // arXiv preprint arXiv:1612.03651. 2016.
Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification // Proc. 15th Conf. EACL. 2017. Vol. 2. P. 427–431.
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proc. EMNLP-IJCNLP. Hong Kong, 2019. P. 3982–3992.
Salton G., Wong A., Yang C. S. A vector space model for automatic indexing // Communications of the ACM. 1975. Vol. 18, No. 11. P. 613–620.
Shalyapina A., Kobozeva I. Comparative Analysis of Russian Text Embedding Models for Classification Tasks // Proc. AINL. 2023. P. 112–121.
Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks // Information Processing & Management. 2009. Vol. 45, № 4. P. 427–437. EDN: YZWCTH.
Song K., Tan X., Qin T., et al. MPNet: Masked and Permuted Pre-training for Language Understanding // Advances in NeurIPS. 2020. Vol. 33. P. 16857–16867.
Wang L., Yang N., Huang X., et al. Text Embeddings by Weakly-Supervised Contrastive Pre-training // Proc. 17th Conf. EACL. Dubrovnik, 2023. P. 450–465.
Воронцов К. В. Лекции по алгоритмам восстановления регрессии и классификации. М., 2022. 71 с. [[Vorontsov K. V. Lectures on regression and classification algorithms. M., 2022. 71 p. (In Russian).]]
Гусаренко А. С., Миронов В. В. Совместная программная обработка разнородных конструкторских документов в учебном ИТ-проектировании // СИИТ. 2024. Т. 6, № 3(18). С. 102-118. EDN: QATAMS. [[Gusarenko A. S., Mironov V. V. Joint software processing of heterogeneous design documents in educational IT design // SIIT. 2024. Vol. 6, No. 3(18). P. 102-118. (In Russian).]]
Коровин Е. А., Чиглинцева С. А., Сазонова Е. Ю., Сметанина О. Н. Медицинская рекомендательная система на основе автоматического извлечения знаний из текстов // СИИТ. 2024. Т. 6, № 4(19). С. 111-121. EDN: OTVTXR. [[Korovina E. A., Chiglintseva S. A., Sazonova E. Yu., Smetanina O. N. Medical recommender system based on automatic knowledge extraction from texts // SIIT. 2024. Vol. 6, No. 4(19). P. 111-121. (In Russian).]]
Котельников Е. В., Сысоев А. А. Сравнительный анализ методов классификации коротких текстов на русском языке // Онтология проектирования. 2021. Т. 11, № 2. С. 222–234. [[Kotelnikov E. V., Sysoev A. A. "Comparative analysis of short text classification methods in Russian" // Ontology of Designing. 2021. Vol. 11, No. 2. P. 222–234. (In Russian).]]
Куратов Ю. А., Артамонов М. С. Адаптация многоязычных трансформерных моделей для русского языка // Труды ИСП РАН. 2020. Т. 32, № 2. С. 135–146. [[Kuratov Yu. A., Artamonov M. S. "Adaptation of multilingual transformer models for Russian" // Proc. ISP RAS. 2020. Vol. 32, No. 2. P. 135–146. (In Russian).]]
Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск / пер. с англ. М.: Вильямс, 2011. 528 с. EDN: QYIRXL. [[Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. Moscow: Williams, 2011. (In Russian).]]
Пескова О. В., Романов Д. А. Применение векторных представлений текстов для задачи классификации обращений граждан // Программные продукты и системы. 2022. Т. 35, № 4. С. 605–614. [[Peskova O. V., Romanov D. A. "Application of text vector representations for citizen appeals classification" // Software & Systems. 2022. Vol. 35, No. 4. P. 605–614. (In Russian).]]
Петров А. В. Методы семантического анализа текстов нормативных документов на основе трансформерных моделей: дис. ... канд. техн. наук. СПб., 2024. 145 с. [[Petrov A. V. Methods of semantic analysis of regulatory documents based on transformer models: PhD thesis. St. Petersburg, 2024. (In Russian).]]
DOI: https://doi.org/10.54708/SIIT-2026-no1-p127
Ссылки
- На текущий момент ссылки отсутствуют.
(c) 2026 Р. А. Ишкинин, Д. А. Ризванов



