DIDACTIC POTENTIAL OF SMALL LANGUAGE MODELS: A LOCAL MT AGENT IN AN EDUCATIONAL CAT ENVIRONMENT

Authors

  • R.I. Bulando Московский государственный педагогический университет

Keywords:

CAT environment, local machine translation agent, small language models (SLM), offline inference, Qwen, OmegaT, Chinese script normalization (OpenCC), parallel corpora (OPUS, UN), parameter-efficient finetuning (LoRA/QLoRA), translation evaluation (sacreBLEU)

Abstract

We present an offline-first deployment of a local machine-translation agent based on small language models (Qwen 2.5, 1.5B/3B/7B) integrated into the OmegaT CAT system for classroom use. A portable software stack enables work without internet or cloud APIs and fits the translate-post-edit-translation-memory cycle. We outline procedures for evaluating quality, speed, and learning outcomes. The setup turns the LLM from a “black box” into a teachable tool: students control architecture, data, and metrics, ensuring reproducibility and clarifying the limits of automation.

Author Biography

R.I. Bulando, Московский государственный педагогический университет

старший преподаватель кафедры японского языка института иностранных языков

References

Тарева, Е. Г. Цифровая эпоха и педагогические профессии / Е. Г. Тарева // Вестник МГПУ. Серия «Философские науки». - 2018. - С. 85-90.

Suleimanova, O. A. Towards synergetic combination of traditional and innovative digital teaching and research practices / О. А. Suleimanova // Training, Language and Culture. - 2020. - Vol. 4, No. 4. - P. 39-50.

Тарева, Е. Г., Тарев, Б. В., Савкина, Е. А. Полиподходность и междисциплинарность - perpetum mobile развития лингводидактики / Е. Г. Тарева, Б. В. Тарев, Е. А. Савкина // Язык и культура. - 2022. - № 57. - С. 274-291.

OmegaT. User Manual. - URL: официальный сайт OmegaT (дата обращения: 14.10.2025).

Xu J., et al. On-Device Language Models: A Comprehensive Review. -2024. - arXiv:2409.00088. - URL: arXiv (дата обращения: 14.10.2025).

Qwen2.5-7B-Instruct: карточка модели (Apache-2.0). - URL: Hugging Face (дата обращения: 14.10.2025).

llama.cpp: репозиторий проекта (OpenAI-совместимый HTTP-сервер). - URL: GitHub (дата обращения: 14.10.2025).

llama-cpp-python: OpenAI-совместимый веб-сервер. - URL: документация (дата обращения: 14.10.2025).

Tuning Educational Structures in Europe. Final Report. - Bilbao: University of Deusto, 2009. - 309 с. - URL: Tuning Academy (дата обращения: 14.10.2025).

Вуорикари Р., и др. DigComp 2.2: The Digital Competence Framework for Citizens. - Luxembourg: Publications Office of the EU, 2022. - 188 с. - URL: репозиторий Европейской комиссии (дата обращения: 14.10.2025).

Сулейманова, О. А.; Нерсесова, Э. В.; Вишневская, Е. М. Технологический аспект подготовки современного переводчика / О. А. Сулейманова, Э. В. Нерсесова, Е. М. Вишневская // Филологические науки. Вопросы теории и практики. - 2019. - Т. 12, № 7. - С. 313-317.

Гулиянц, А. Б.; Гулиянц, С. Б. Применение интегративного подхода в профессиональной подготовке переводчиков в вузе / А. Б. Гулиянц, С. Б. Гулиянц // Филологические науки. Вопросы теории и практики. - 2022. - Т. 15, № 11. - С. 72-74.

Open Chinese Convert (OpenCC): репозиторий проекта. - URL: GitHub (дата обращения: 14.10.2025).

Ziemski M., et al. The United Nations Parallel Corpus v1.0. - 2016. - URL: ACL Anthology / UN (дата обращения: 14.10.2025).

Tiedemann J. OPUS - The Open Parallel Corpus. - URL: OPUS (каталог корпусов) (дата обращения: 14.10.2025).

Schwenk H., et al. WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs. - 2021. - URL: ACL Anthology / OPUS (дата обращения: 14.10.2025).

Hu E. J., et al. LoRA: Low-Rank Adaptation of Large Language Models. - 2021. - URL: arXiv:2106.09685 / OpenReview (дата обращения: 14.10.2025).

Detmers T., et al. QLoRA: Efficient Finetuning of Quantized LLMs. - 2023. - URL: arXiv:2305.14314 / ACM DL / GitHub (дата обращения: 14.10.2025).

Post M. A Call for Clarity in Reporting BLEU Scores (sacreBLEU). - 2018. - arXiv:1804.08771. - URL: arXiv (дата обращения: 14.10.2025).

No Language Left Behind (FLORES-200). - 2022. - arXiv:2207.04672. - URL: arXiv / Hugging Face (дата обращения: 14.10.2025).

Qu G., et al. Mobile Edge Intelligence for Large Language Models: A Contemporary Survey. - 2024. - URL: Предпубл. / TechRxiv (дата обращения: 14.10.2025).

CTranslate2: быстрый движок инференса для Transformer-моделей. - URL: GitHub (дата обращения: 14.10.2025).

NLLB-200 в CTranslate2: руководство/примеры. - URL: OpenNМП Forum / HF (дата обращения: 14.10.2025).

Гераймович, Е. О., Коптев, Д. А., Любашев, Н. А., Рожковская, Э. Д., Шаренкин, Д. Р., Шипунов, М. А. Практическое использование цифровых технологий в проведении лингвистических исследований: учебно-методическое пособие / Е. О. Гераймович, Д. А. Коптев, Н. А. Любашев, Э. Д. Рожковская, Д. Р. Шаренкин, М. А. Шипунов. - Москва : Языки Народов Мира, 2024. - 111 с.

Published

2026-02-06

Issue

Section

Материалы всероссийской конференции с международным участием