Какие подходы используются для мультилингвальных моделей?

Мультилингвальные модели (multilingual models) — это модели, которые способны понимать и/или генерировать текст на нескольких языках, обычно без необходимости иметь отдельную модель для каждого. Они применяются в таких задачах, как машинный перевод, извлечение информации, многоязычные чат-боты, генерация текстов и кросс-языковой поиск. Подходы к созданию и обучению таких моделей охватывают уровни данных, архитектуры, токенизации и обучения.

1. Универсальные модели (Shared multilingual models)

Это модели, в которых одинаковая архитектура и набор параметров используется для всех языков. Примеры: mBERT, XLM-RoBERTa, mT5, BLOOM, XGLM.

Основные характеристики:

  • Один и тот же словарь токенов (shared vocabulary).

  • Обучаются одновременно на нескольких языках (multilingual pretraining).

  • Поддерживают от десятков до сотен языков.

Преимущества:

  • Эффективность по памяти: одна модель для всех языков.

  • Возможность кросс-языкового переноса знаний (transfer learning).

  • Хорошая производительность на low-resource языках, если используется мульти-язычное обучение.

Ограничения:

  • Ограниченный контекст на каждый язык (конкуренция за параметры).

  • Возможна деградация качества на high-resource языках из-за interference.

  • Проблемы с редкими языками и письменностями.

2. Перевод-основанные подходы (Translate-train и Translate-test)

Когда модель не обучена на определённом языке, можно использовать машинный перевод.

Translate-train:

  • Перевод корпуса с низкоресурсного языка на английский → обучение на английском тексте → применение к новому тексту.

Translate-test:

  • Модель обучается на английском → перед инференсом входной текст переводится на английский → результат применяется.

Преимущества:

  • Не требует многоязычной модели.

  • Используются сильные одноязычные модели.

Недостатки:

  • Ошибки перевода влияют на производительность.

  • Задержка из-за этапов перевода.

  • Зависимость от качества MT-системы.

3. Многоязычная токенизация (Multilingual Tokenization)

Shared subword vocabulary:

  • Часто используется общий словарь BPE/SentencePiece (например, у mBERT — 110K токенов для 104 языков).

  • Нужен баланс: часто встречающиеся сабворды из разных языков включаются вместе, чтобы повысить общее покрытие.

Специфика:

  • Алфавиты и символы, встречающиеся только в одном языке, могут быть разрезаны на редкие сабворды.

  • Латиница и кириллица конкурируют за позиции в словаре.

  • Модели типа XLM-R обучены на SentencePiece с единым кодировщиком на 100 языках.

4. Кросс-языковой трансфер (Cross-lingual Transfer Learning)

Это способность модели, обученной на одном языке, работать на другом без прямого дообучения.

Подходы:

  • Zero-shot cross-lingual transfer: обучение на английском, инференс на другом языке.

  • Few-shot transfer: минимальное количество примеров на новом языке.

  • Используются архитектуры типа mBERT, XLM-R, XLM, которые способны к обобщению.

Области применения:

  • Named Entity Recognition

  • Sentiment Analysis

  • Question Answering

  • Classification

Проблемы:

  • Дрейф значений токенов при переходе между языками.

  • Культурные и контекстуальные различия.

5. Language-Adaptive Fine-Tuning (LAFT)

Это fine-tuning модели на неразмеченных текстах одного языка перед основным дообучением.

Этапы:

  1. Предобученная мультилингвальная модель (например, XLM-R).

  2. Дополнительный MLM-файнтюнинг на целевом языке (без разметки).

  3. Обучение на задачах (NER, классификация и т.п.).

Преимущества:

  • Улучшает представления для конкретного языка.

  • Повышает эффективность на low-resource языках.

6. Multilingual Pretraining с балансировкой языков

Проблема:

  • High-resource языки доминируют в данных, например, английский и китайский → ухудшение качества для low-resource языков.

Подходы:

  • Sampling strategies:

    • Temperature-based sampling: регулирует, как часто данные языка попадают в батч (T=1 — пропорционально, T<1 — выравнивание).
  • Oversampling языков с малым количеством данных.

  • Under-sampling английского или других богатых языков.

Примеры:

  • XLM-R использует "T=0.7" sampling для балансировки 100 языков.

7. Mixture-of-Experts (MoE) для мультилингвальности

Это архитектура, где разные языки активируют разные подмодули модели, но при этом часть параметров общая.

Как работает:

  • В модели есть N экспертов (нейросетей).

  • В каждый момент активны только некоторые из них.

  • Языки могут "специализироваться" на отдельных экспертах.

Пример:

  • GShard, Switch Transformer, Sparsely-Gated MoE.

Преимущества:

  • Модель масштабируется без увеличения вычислений на инференсе.

  • Эксперты могут адаптироваться под отдельные языки.

8. Prompt-based и instruction-тюнинг в мультилингвальном контексте

Multilingual prompts:

  • Инструкции формулируются на разных языках.

  • Модели, такие как mT5, XGLM, mGPT, способны интерпретировать prompts на десятках языков.

Cross-lingual prompting:

  • Prompt на одном языке → ответ на другом (например, англ. prompt → русский ответ).

  • Задачи типа Zero-shot Cross-lingual QA, Summarization.

Instruction tuning:

  • Модели дообучаются на множестве задач с естественно-языковыми инструкциями.

  • Пример: FLAN-mT5 обучен на мультизадачном корпусе с более чем 50 языками.

9. Low-resource и zero-resource языки

Approaches:

  • Backtranslation: синтетическая генерация пар переводов для обучения.

  • Data augmentation: словарные замены, переформулировки.

  • Cross-lingual knowledge distillation:

    • Модель учителя (на английском) → студента (на редком языке).
  • Few-shot адаптация: дообучение на нескольких размеченных примерах.

10. Эвалюация мультилингвальных моделей

Метрики:

  • Accuracy, F1, BLEU, ROUGE — применяются как и в одноязычных задачах.

Бенчмарки:

  • XTREME / XTREME-R: набор задач на 40+ языках.

  • XGLUE: классификация, QA, NER.

  • Flores-200: для оценки машинного перевода на 200 языках.

  • Mewsli-X, TyDi QA: QA и IR для разных языков.

Проблемы:

  • Качество метрик может варьироваться от языка к языку.

  • Для некоторых языков вообще нет хороших эталонных датасетов.

11. Этические и культурные аспекты

  • Удаление bias из моделей, склонных к англоцентризму или европоцентризму.

  • Учет региональных, социокультурных различий в интерпретации значений слов и фраз.

  • Возможность цензуры/цензурирования определённых языков или тем.