Оптимизация математической основы IRT с помощью LLM-моделей

Д. С. Алексеева, Е. В. Пальчевский, В. В. Антонов, В. А. Суворова

Аннотация


Оптимизация математической основы IRT (Item Response Theory) основанная на теории реакции на предметы, с помощью LLM (Large Language Models) — это довольно новая и многообещающая область исследований, которая сочетает в себе статистику, психологию, образование и машинное обучение. LLM могут быть использованы для анализа данных прошлых тестов и выявления тенденций и закономерностей. Модели могут помочь в оценке наиболее эффективных типов вопросов для оценки определенных навыков или знаний. Они могут оценить, как изменения в формулировках вопросов или формате тестирования могут повлиять на ответы испытуемых. Модели могут предсказать, как изменения в содержании теста могут повлиять на уровень знаний и успеваемость студентов. Также модели могут использоваться для создания адаптивных тестов, которые подстраиваются под уровень знаний и способностям испытуемых. Оптимизация математической основы IRT с применением LLM может привести к более точным и эффективным тестам. Это может быть полезно в различных областях, где требуется оценка уровня знаний или навыков, таких как образование, медицина, психология и другие.

Ключевые слова


IRT, LLM, Large Language Models, большие языковые модели, оптимизация, нейронные сети, тестирование, адаптивные методики.

Полный текст:

PDF

Литература


Chen Y., Li X., Liu J., Ying Z. Item response theory — a statistical framework for educational and psychological measurement. LSE Research Online Documents on Economics, No 120810, London School of Economics and Political Science, 2025. DOI: 10.1214/23-STS896.

Cronbach LJ. Coefficient Alpha and the Internal Structure of Tests. Psychometrika. 1951;16(3):297-334. DOI: 10.1007/BF02310555. EDN: EGXXRL.

Google. Bard and new AI features in Search — official Google AI blog update [Электронный ресурс]. 2023. URL: https://blog.google/technology/ai/bard-google-ai-search-updates (дата обращения: 12.10.2025).

Guizani, S., Mazhar, T., Shahzad, T. et al. A systematic literature review to implement large language model in higher education: issues and solutions. Discov Educ 4, 35 (2025). DOI: 10.1007/s44217-025-00424-7. EDN: YEAJWD.

Hambleton R. K., Swaminathan H., Rogers H. J. Fundamentals of Item Response Theory. Newbury Park, CA: Sage, 1991.

Huang S., Luo J., Jeon M. A response time-based mixture item response theory model for dynamic item-response strategies. Behavior Research Methods. 2025; 57(1):54. DOI: 10.3758/s13428-024-02555-5. EDN: HPEEXF.

Kuder GF, Richardson MW. The Theory of the Estimation of Test Reliability. Psychometrika. 1937;2(3):151-160. DOI: 10.1007/BF02288391. EDN: KOOOMO.

Linden W. J. van der, Hambleton R. K. (Eds.). Handbook of Modern Item Response Theory. New York: Springer, 1997. DOI: 10.1007/978-1-4757-2691-6.

Lord F. M., Novick M. R. Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley, 1968.

Noventa S, Ye S, Kelava A, Spoto A. On the Identifiability of 3- and 4-Parameter Item Response Theory Models From the Perspective of Knowledge Space Theory. Psychometrika. 2024;89(2):486-516. DOI: 10.1007/s11336-024-09950-z. EDN: XHSHYW.

OpenAI. GPT-4 technical report [Электронный ресурс]. 2024. 98 с. URL: https://arxiv.org/abs/2303.08774 (дата обращения: 12.10.2025).

Rasch, G. (1960). Studies in mathematical psychology: I. Probabilistic models for some intelligence and attainment tests. Nielsen & Lydiche.

Raykov, T., & Zhang, B. (2025). The One-Parameter Logistic Model Can Be True With Zero Probability for a Unidimensional Measuring Instrument: How One Could Go Wrong Removing Items Not Satisfying the Model. Educational and Psychological Measurement, 0(0). DOI: 10.1177/00131644251345120.

Rumelhart, D., Hinton, G. & Williams, R. Learning representations by back-propagating errors. Nature 323, 533–536 (1986). DOI: 10.1038/323533a0.

Sber Developers. GigaChat API: Large Language Models — What They Are and How They Work [Электронный ресурс]. 2025. URL: https://developers.sber.ru/docs/ru/gigachat_api (дата обращения: 12.10.2025).

Shao Z., Wang P., Zhu Q. et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [Электронный ресурс]. arXiv preprint arXiv:2402.03300. 2024. 37 с. URL: https://arxiv.org/abs/2402.03300 (дата обращения: 12.10.2025).

Vaswani A., Shazeer N., Parmar N. et al. Attention Is All You Need // Advances in Neural Information Processing Systems — 2017. Vol. 30. P. 5998–6008. URL: https://arxiv.org/abs/1706.03762 (дата обращения: 12.10.2025).

Yandex Cloud. YandexGPT 5 — Generative AI for Business [Электронный ресурс]. 2025. URL: https://yandex.cloud/en/services/yandexgpt (дата обращения: 12.10.2025).

Коровин Е. А., Чиглинцева С. А., Сазонова Е. Ю., Сметанина О. Н. Медицинская рекомендательная система на основе автоматического извлечения знаний из текстов // СИИТ. 2024. Т. 6, № 4(19). С. 111-121. DOI: 10.54708/2658-5014-SIIT-2024-no4-p111. EDN: OTVTXR.

Кучкарова Н. В. Оценка актуальных угроз и уязвимостей объектов критической информационной инфраструктуры с использованием технологий интеллектуального анализа текстов // СИИТ. 2024. Т. 6, № 2(17). С. 50-65. DOI: 10.54708/2658-5014-SIIT-2024-no2-p50. EDN: NLDWBE.

Морозов М. И. Предсказание наступления страхового случая с помощью трансформерных нейросетей // СИИТ. 2025. Т. 7, № 2(21). С. 96-102. DOI: 10.54708/2658-5014-SIIT-2025-no2-p100. EDN: FEFPBE.

Резников Г. А., Синицын Р. Д., Шулик А. М. Современные архитектуры нейронных сетей для тегирования и аннотирования изображений: достижения, вызовы и перспективы // СИИТ. 2025. Т. 7, № 2(21). С. 78-85. DOI: 10.54708/2658-5014-SIIT-2025-no2-p82. EDN: TJFUGV.

Шалфеева Е. А. Методология производства жизнеспособных систем доверительного искусственного интеллекта // СИИТ. 2023. Т. 5, № 4(13). С. 28-49. DOI: 10.54708/2658-5014-SIIT-2023-no3-p114. EDN: CJTKQH.

Ширинов Р. А., Гардашова Л. А. г., Богданова Д. Р. Краткий анализ методов Deep Learning для распознавания эмоционального состояния человека для принятия решений // СИИТ. 2025. Т. 7, № 2(21). С. 68-77. DOI: 10.54708/2658-5014-SIIT-2025-no2-p68. EDN: DAWGEI.




DOI: https://doi.org/10.54708/SIIT-2026-no1-p3

Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2025 Д. С. Алексеева, Е. В. Пальчевский, В. В. Антонов, В. А. Суворова