ДИДАКТИЧЕСКИЙ ПОТЕНЦИАЛ МАЛЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ: ЛОКАЛЬНЫЙ АГЕНТ МАШИННОГО ПЕРЕВОДА В УЧЕБНОЙ CAT-СРЕДЕ
Ключевые слова:
CAT-среда, локальный агент машинного перевода, малые языковые модели (SLM), офлайн-инференс, Qwen, OmegaT, нормализация китайского письма (OpenCC), параллельные корпусы (OPUS, UN), дообучение (LoRA/QLoRA), оценивание перевода (sacreBLEU)Аннотация
Предлагается офлайн-first внедрение локального агента машинного перевода на базе малых языковых моделей (Qwen 2.5, 1.5B/3B/7B) в учебную CAT-среду OmegaT. Описывается portable-стек для аудиторной работы без сети и облачных API, его встраивание в цикл «перевод - пост-редактирование - память переводов», а также план оценивания качества, производительности и образовательных результатов. Показано, что такой стенд превращает LLM из «чёрного ящика» в объект учебного действия: студент управляет архитектурой, данными и метриками, фиксируя воспроизводимость эксперимента и пределы автоматизации.Библиографические ссылки
Тарева, Е. Г. Цифровая эпоха и педагогические профессии / Е. Г. Тарева // Вестник МГПУ. Серия «Философские науки». - 2018. - С. 85-90.
Suleimanova, O. A. Towards synergetic combination of traditional and innovative digital teaching and research practices / О. А. Suleimanova // Training, Language and Culture. - 2020. - Vol. 4, No. 4. - P. 39-50.
Тарева, Е. Г., Тарев, Б. В., Савкина, Е. А. Полиподходность и междисциплинарность - perpetum mobile развития лингводидактики / Е. Г. Тарева, Б. В. Тарев, Е. А. Савкина // Язык и культура. - 2022. - № 57. - С. 274-291.
OmegaT. User Manual. - URL: официальный сайт OmegaT (дата обращения: 14.10.2025).
Xu J., et al. On-Device Language Models: A Comprehensive Review. -2024. - arXiv:2409.00088. - URL: arXiv (дата обращения: 14.10.2025).
Qwen2.5-7B-Instruct: карточка модели (Apache-2.0). - URL: Hugging Face (дата обращения: 14.10.2025).
llama.cpp: репозиторий проекта (OpenAI-совместимый HTTP-сервер). - URL: GitHub (дата обращения: 14.10.2025).
llama-cpp-python: OpenAI-совместимый веб-сервер. - URL: документация (дата обращения: 14.10.2025).
Tuning Educational Structures in Europe. Final Report. - Bilbao: University of Deusto, 2009. - 309 с. - URL: Tuning Academy (дата обращения: 14.10.2025).
Вуорикари Р., и др. DigComp 2.2: The Digital Competence Framework for Citizens. - Luxembourg: Publications Office of the EU, 2022. - 188 с. - URL: репозиторий Европейской комиссии (дата обращения: 14.10.2025).
Сулейманова, О. А.; Нерсесова, Э. В.; Вишневская, Е. М. Технологический аспект подготовки современного переводчика / О. А. Сулейманова, Э. В. Нерсесова, Е. М. Вишневская // Филологические науки. Вопросы теории и практики. - 2019. - Т. 12, № 7. - С. 313-317.
Гулиянц, А. Б.; Гулиянц, С. Б. Применение интегративного подхода в профессиональной подготовке переводчиков в вузе / А. Б. Гулиянц, С. Б. Гулиянц // Филологические науки. Вопросы теории и практики. - 2022. - Т. 15, № 11. - С. 72-74.
Open Chinese Convert (OpenCC): репозиторий проекта. - URL: GitHub (дата обращения: 14.10.2025).
Ziemski M., et al. The United Nations Parallel Corpus v1.0. - 2016. - URL: ACL Anthology / UN (дата обращения: 14.10.2025).
Tiedemann J. OPUS - The Open Parallel Corpus. - URL: OPUS (каталог корпусов) (дата обращения: 14.10.2025).
Schwenk H., et al. WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs. - 2021. - URL: ACL Anthology / OPUS (дата обращения: 14.10.2025).
Hu E. J., et al. LoRA: Low-Rank Adaptation of Large Language Models. - 2021. - URL: arXiv:2106.09685 / OpenReview (дата обращения: 14.10.2025).
Detmers T., et al. QLoRA: Efficient Finetuning of Quantized LLMs. - 2023. - URL: arXiv:2305.14314 / ACM DL / GitHub (дата обращения: 14.10.2025).
Post M. A Call for Clarity in Reporting BLEU Scores (sacreBLEU). - 2018. - arXiv:1804.08771. - URL: arXiv (дата обращения: 14.10.2025).
No Language Left Behind (FLORES-200). - 2022. - arXiv:2207.04672. - URL: arXiv / Hugging Face (дата обращения: 14.10.2025).
Qu G., et al. Mobile Edge Intelligence for Large Language Models: A Contemporary Survey. - 2024. - URL: Предпубл. / TechRxiv (дата обращения: 14.10.2025).
CTranslate2: быстрый движок инференса для Transformer-моделей. - URL: GitHub (дата обращения: 14.10.2025).
NLLB-200 в CTranslate2: руководство/примеры. - URL: OpenNМП Forum / HF (дата обращения: 14.10.2025).
Гераймович, Е. О., Коптев, Д. А., Любашев, Н. А., Рожковская, Э. Д., Шаренкин, Д. Р., Шипунов, М. А. Практическое использование цифровых технологий в проведении лингвистических исследований: учебно-методическое пособие / Е. О. Гераймович, Д. А. Коптев, Н. А. Любашев, Э. Д. Рожковская, Д. Р. Шаренкин, М. А. Шипунов. - Москва : Языки Народов Мира, 2024. - 111 с.