DIDACTIC POTENTIAL OF SMALL LANGUAGE MODELS: A LOCAL MT AGENT IN AN EDUCATIONAL CAT ENVIRONMENT
Keywords:
CAT environment, local machine translation agent, small language models (SLM), offline inference, Qwen, OmegaT, Chinese script normalization (OpenCC), parallel corpora (OPUS, UN), parameter-efficient finetuning (LoRA/QLoRA), translation evaluation (sacreBLEU)Abstract
We present an offline-first deployment of a local machine-translation agent based on small language models (Qwen 2.5, 1.5B/3B/7B) integrated into the OmegaT CAT system for classroom use. A portable software stack enables work without internet or cloud APIs and fits the translate-post-edit-translation-memory cycle. We outline procedures for evaluating quality, speed, and learning outcomes. The setup turns the LLM from a “black box” into a teachable tool: students control architecture, data, and metrics, ensuring reproducibility and clarifying the limits of automation.References
Тарева, Е. Г. Цифровая эпоха и педагогические профессии / Е. Г. Тарева // Вестник МГПУ. Серия «Философские науки». - 2018. - С. 85-90.
Suleimanova, O. A. Towards synergetic combination of traditional and innovative digital teaching and research practices / О. А. Suleimanova // Training, Language and Culture. - 2020. - Vol. 4, No. 4. - P. 39-50.
Тарева, Е. Г., Тарев, Б. В., Савкина, Е. А. Полиподходность и междисциплинарность - perpetum mobile развития лингводидактики / Е. Г. Тарева, Б. В. Тарев, Е. А. Савкина // Язык и культура. - 2022. - № 57. - С. 274-291.
OmegaT. User Manual. - URL: официальный сайт OmegaT (дата обращения: 14.10.2025).
Xu J., et al. On-Device Language Models: A Comprehensive Review. -2024. - arXiv:2409.00088. - URL: arXiv (дата обращения: 14.10.2025).
Qwen2.5-7B-Instruct: карточка модели (Apache-2.0). - URL: Hugging Face (дата обращения: 14.10.2025).
llama.cpp: репозиторий проекта (OpenAI-совместимый HTTP-сервер). - URL: GitHub (дата обращения: 14.10.2025).
llama-cpp-python: OpenAI-совместимый веб-сервер. - URL: документация (дата обращения: 14.10.2025).
Tuning Educational Structures in Europe. Final Report. - Bilbao: University of Deusto, 2009. - 309 с. - URL: Tuning Academy (дата обращения: 14.10.2025).
Вуорикари Р., и др. DigComp 2.2: The Digital Competence Framework for Citizens. - Luxembourg: Publications Office of the EU, 2022. - 188 с. - URL: репозиторий Европейской комиссии (дата обращения: 14.10.2025).
Сулейманова, О. А.; Нерсесова, Э. В.; Вишневская, Е. М. Технологический аспект подготовки современного переводчика / О. А. Сулейманова, Э. В. Нерсесова, Е. М. Вишневская // Филологические науки. Вопросы теории и практики. - 2019. - Т. 12, № 7. - С. 313-317.
Гулиянц, А. Б.; Гулиянц, С. Б. Применение интегративного подхода в профессиональной подготовке переводчиков в вузе / А. Б. Гулиянц, С. Б. Гулиянц // Филологические науки. Вопросы теории и практики. - 2022. - Т. 15, № 11. - С. 72-74.
Open Chinese Convert (OpenCC): репозиторий проекта. - URL: GitHub (дата обращения: 14.10.2025).
Ziemski M., et al. The United Nations Parallel Corpus v1.0. - 2016. - URL: ACL Anthology / UN (дата обращения: 14.10.2025).
Tiedemann J. OPUS - The Open Parallel Corpus. - URL: OPUS (каталог корпусов) (дата обращения: 14.10.2025).
Schwenk H., et al. WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs. - 2021. - URL: ACL Anthology / OPUS (дата обращения: 14.10.2025).
Hu E. J., et al. LoRA: Low-Rank Adaptation of Large Language Models. - 2021. - URL: arXiv:2106.09685 / OpenReview (дата обращения: 14.10.2025).
Detmers T., et al. QLoRA: Efficient Finetuning of Quantized LLMs. - 2023. - URL: arXiv:2305.14314 / ACM DL / GitHub (дата обращения: 14.10.2025).
Post M. A Call for Clarity in Reporting BLEU Scores (sacreBLEU). - 2018. - arXiv:1804.08771. - URL: arXiv (дата обращения: 14.10.2025).
No Language Left Behind (FLORES-200). - 2022. - arXiv:2207.04672. - URL: arXiv / Hugging Face (дата обращения: 14.10.2025).
Qu G., et al. Mobile Edge Intelligence for Large Language Models: A Contemporary Survey. - 2024. - URL: Предпубл. / TechRxiv (дата обращения: 14.10.2025).
CTranslate2: быстрый движок инференса для Transformer-моделей. - URL: GitHub (дата обращения: 14.10.2025).
NLLB-200 в CTranslate2: руководство/примеры. - URL: OpenNМП Forum / HF (дата обращения: 14.10.2025).
Гераймович, Е. О., Коптев, Д. А., Любашев, Н. А., Рожковская, Э. Д., Шаренкин, Д. Р., Шипунов, М. А. Практическое использование цифровых технологий в проведении лингвистических исследований: учебно-методическое пособие / Е. О. Гераймович, Д. А. Коптев, Н. А. Любашев, Э. Д. Рожковская, Д. Р. Шаренкин, М. А. Шипунов. - Москва : Языки Народов Мира, 2024. - 111 с.