Машинный перевод на основе примеров - Example-based machine translation

Машинный перевод на основе примеров ( EBMT ) - это метод машинного перевода, часто характеризующийся использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения. По сути, это перевод по аналогии, и его можно рассматривать как реализацию подхода к машинному обучению на основе прецедентов .

Перевод по аналогии

В основе машинного перевода на основе примеров лежит идея перевода по аналогии. Применительно к процессу человеческого перевода идея о том, что перевод осуществляется по аналогии, является отказом от идеи о том, что люди переводят предложения, выполняя глубокий лингвистический анализ. Вместо этого он основан на убеждении, что люди переводят, сначала разбивая предложение на определенные фразы, затем переводя эти фразы и, наконец, правильно составляя эти фрагменты в одно длинное предложение. Фразовые переводы переводятся аналогично предыдущим переводам. Принцип перевода по аналогии кодируется в машинном переводе на основе примеров через примеры переводов, которые используются для обучения такой системы.

Другие подходы к машинному переводу, включая статистический машинный перевод , также используют двуязычные корпуса для изучения процесса перевода.

История

Машинный перевод на основе примеров был впервые предложен Макото Нагао в 1984 году. Он отметил, что он особенно адаптирован для перевода между двумя совершенно разными языками, такими как английский и японский. В этом случае одно предложение может быть переведено в несколько хорошо структурированных предложений на другом языке, поэтому нет смысла проводить глубокий лингвистический анализ, характерный для машинного перевода на основе правил .

Пример

Пример двуязычного корпуса
английский Японский
Сколько стоит этот красный зонт ? Ано акай каса ва икура десу ка.
Сколько стоит эта маленькая камера ? Ano chiisai kamera wa ikura desu ka.

Системы машинного перевода на основе примеров обучаются из двуязычных параллельных корпусов, содержащих пары предложений, как в примере, показанном в таблице выше. Пары предложений содержат предложения на одном языке с их переводами на другой. В конкретном примере показан пример минимальной пары , что означает, что предложения различаются только одним элементом. Эти предложения упрощают изучение переводов частей предложения. Например, основанная на примерах система машинного перевода изучит три единицы перевода из приведенного выше примера:

  1. Сколько стоит этот X ? соответствует Ano X wa ikura desu ka.
  2. красный зонт соответствует акай каса
  3. маленькая камера соответствует chiisai kamera

Составление этих единиц может быть использовано для создания новых переводов в будущем. Например, если мы были обучены с использованием некоторого текста, содержащего предложения:

Президент Кеннеди был застрелен во время парада. и 15 июля осужденный сбежал. Мы могли перевести приговор . Осужденный был застрелен во время парада. путем замены соответствующих частей предложений.

Фразовые глаголы

Машинный перевод на основе примеров лучше всего подходит для таких подъязыковых явлений, как фразовые глаголы . Значение фразовых глаголов сильно зависит от контекста. Они распространены в английском языке, где они состоят из глагола, за которым следует наречие и / или предлог , которые называются частицами глагола. Фразовые глаголы производят специализированные контекстно-зависимые значения, которые не могут быть производными от значений составляющих. При дословном переводе с исходного на целевой язык почти всегда возникает двусмысленность.

В качестве примера рассмотрим фразовый глагол «надеть» и его перевод на хиндустани . Его можно использовать любым из следующих способов:

  • Рам включил свет. (Включено) (перевод на хиндустанский: Джалана )
  • Рам надел кепку. (Носить) (перевод на хиндустанский: Пахенна )

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки

  • Cunei - платформа с открытым исходным кодом для машинного перевода на основе данных, которая выросла из исследований в области EBMT, но также включает последние достижения в области SMT