Разработка модели нейронного машинного перевода для мансийского языка

О. О. Негматулоев, Д. О. Жорник, А. В. Мельников

Аннотация


В работе представлено описание процесса обучения трансформерной нейронной сети для решения задачи машинного перевода для мансийского языка (< обско-угорские < финно-угорские < уральские), являющегося в настоящее время малоресурсным. Целью работы является проведение экспериментов по сравнению результатов дообучения мультиязычных моделей для языковой пары: русского и мансийского языков. В работе приведен обзор современных методов машинного перевода и архитектур нейронных сетей, включая трансформерные сети. В результате работы были дообучены нейронные сети с использованием библиотек PyTorch и Transformers. Качество перевода оценивалось метриками BLEU и chrF. Лучший результат был получен для модели NLLB-200-3.3B, которая достигла показателей BLEU 27% и chrF 57% для перевода с русского на мансийский язык. Проведены дополнительные эксперименты и анализ для выявления сильных и слабых сторон методов c помощью экспертной оценки. Работа демонстрирует эффективность применения трансформерных моделей в задаче машинного перевода и может быть использована в практических приложениях.

Ключевые слова


малоресурсные языки; машинный перевод; финно-угорские языки; мансийский язык

Литература


Transfer Learning for Low-Resource Neural Machine Translation. Available at: https://arxiv.org/pdf/1604.02201

Trivial Transfer Learning for Low-Resource Neural Machine Translation. Available at: https://aclanthology.org/W18-6325.pdf

Multilingual Denoising Pre-training for Neural Machine Translation. Available at: https://arxiv.org/pdf/2001.08210

Extending the Subwording Model of Multilingual Pretrained Models for New Languages. Available at: https://arxiv.org/pdf/2211.15965

Low-Resource Multilingual Neural Translation Using Linguistic Feature-based Relevance Mechanisms. Available at: https://dl.acm.org/doi/10.1145/3594631

When and Why are Pre-Trained Word Embeddings Useful for Neural Machine Translation? Available at: https://arxiv.org/pdf/1804.06323

Pre-Training Multilingual Neural Machine Translation by Leveraging Alignment Information. Available at: https://aclanthology.org/2020.emnlp-main.210.pdf

No Language Left Behind: Scaling Human-Centered Machine Translation. Available at: https://arxiv.org/pdf/2207.04672

MADLAD-400: A Multilingual and Document-Level Large Audited Dataset. Available at: https://arxiv.org/pdf/2309.04662

BLEU: a Method for Automatic Evaluation of Machine Translation. Available at: https://aclanthology.org/P02-1040.pdf

METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. Available at: https://aclanthology.org/W05-0909.pdf

A Study of Translation Edit Rate with Targeted Human Annotation. Available at: https://aclanthology.org/2006.amta-papers.25.pdf

CHRF: character n-gram F-score for automatic MT evaluation. Available at: https://aclanthology.org/W15-3049.pdf

BERTSCORE: EVALUATING TEXT GENERATION WITH BERT. Available at: https://arxiv.org/pdf/1904.09675

COMET: A Neural Framework for MT Evaluation. Available at: https://arxiv.org/pdf/2009.09025

MQM (Multidimensional Quality Metrics) . Available at: https://themqm.org/

The MQM-Full Master File Instructions. Available at: https://themqm.org/wp-content/uploads/2024/03/MQM-Full-Master-Instructions_2024_01_30.pdf

Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean. Available at: https://arxiv.org/html/2403.12666v1

Translation Quality Assessment: MQM (Multidimensional Quality Metrics). Available at: https://sites.miis.edu/runyul/2018/03/04/translation-quality-assessment-mqm-multidimensional-quality-metrics/

Expert-based Human Evaluations for the Submissions of WMT 2020, WMT 2021, WMT 2022 and WMT 2023. Available at: https://github.com/google/wmt-mqm-human-evaluation/blob/main/README.md

Results of WMT23 Metrics Shared Task: Metrics might be Guilty, but References are not Innocent. Available at: https://www2.statmt.org/wmt23/pdf/2023.wmt-1.51.pdf

Summary of the tokenizers. Available at: https://huggingface.co/docs/transformers/tokenizer_summary

How to fine-tune a NLLB-200 model for translating a new language. Available at: https://cointegrated.medium.com/how-to-fine-tune-a-nllb-200-model-for-translating-a-new-language-a37fc706b865


Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2025 О. О. Негматулоев, Д. О. Жорник, А. В. Мельников