Нейронный машинный перевод Google - Google Neural Machine Translation

Google Neural Machine Translation (GNMT) - это система нейронного машинного перевода (NMT), разработанная Google и представленная в ноябре 2016 года, которая использует искусственную нейронную сеть для повышения беглости и точности Google Translate .

GNMT улучшает качество перевода, применяя метод машинного перевода на основе примеров (EBMT), при котором система «учится на миллионах примеров». Предложенная GNMT архитектура системного обучения была сначала протестирована более чем на ста языках, поддерживаемых Google Translate. Благодаря большой сквозной структуре система со временем учится создавать более качественные и естественные переводы. GNMT пытается переводить целые предложения за раз, а не просто по частям. Сеть GNMT может выполнять межъязыковой машинный перевод путем кодирования семантики предложения, а не запоминания переводов фразы в фразу.

История

Проект Google Brain был основан в 2011 году в «секретной исследовательской лаборатории Google X» сотрудником Google Джеффом Дином , исследователем Google Грегом Коррадо и профессором компьютерных наук Стэнфордского университета Эндрю Нг . Работа Нг привела к одним из крупнейших достижений в Google и Стэнфорде.

В сентябре 2016 года исследовательская группа Google объявила о разработке системы нейронного машинного перевода Google (GNMT), и к ноябрю Google Translate начал использовать нейронный машинный перевод (NMT) вместо своих предыдущих статистических методов (SMT), которые использовались с тех пор. Октябрь 2007 г., с использованием собственной технологии SMT.

Система NMT Google Translate использует большую искусственную нейронную сеть, способную к глубокому обучению . Используя миллионы примеров, GNMT улучшает качество перевода, используя более широкий контекст для определения наиболее релевантного перевода. Затем результат перестраивается и адаптируется к грамматически основанному человеческому языку. Предложенная GNMT архитектура системного обучения была сначала протестирована более чем на ста языках, поддерживаемых Google Translate. GNMT не создавала своего собственного универсального интерлингва, а скорее была направлена ​​на поиск общности между многими языками, используя идеи из психологии и лингвистики. Новый механизм перевода был впервые включен для восьми языков: на английский и французский, немецкий, испанский, португальский, китайский, японский, корейский и турецкий и обратно в 2016 году. В марте 2017 года были включены три дополнительных языка: русский, хинди и вьетнамский. с тайским языком, поддержка которого была добавлена ​​позже. Поддержка иврита и арабского языка была также добавлена ​​с помощью сообщества Google Translate в том же месяце. В середине апреля 2017 года компания Google в Нидерландах объявила о поддержке голландского и других европейских языков, связанных с английским. В конце апреля 2017 года была добавлена ​​дополнительная поддержка для девяти индийских языков: хинди, бенгали, маратхи, гуджарати, пенджаби, тамильского, телугу, малаялам и каннада.

Оценка

Говорят, что система GNMT представляет собой усовершенствование по сравнению с прежним переводчиком Google Translate в том смысле, что она сможет обрабатывать «нулевой перевод», то есть напрямую переводить один язык на другой (например, с японского на корейский). Google Translate ранее сначала переводил исходный язык на английский, а затем переводил английский на целевой, а не переводил напрямую с одного языка на другой.

Исследование, проведенное в июле 2019 года, опубликованное в Annals of Internal Medicine, показало, что «Google Translate - жизнеспособный и точный инструмент для перевода испытаний на неанглоязычный язык». Только одно разногласие между рецензентами, читающими испытания с машинным переводом, было связано с ошибкой перевода. Поскольку многие медицинские исследования исключаются из систематических обзоров, поскольку рецензенты не понимают языка, GNMT может снизить систематическую ошибку и повысить точность таких обзоров.

Языки, поддерживаемые GNMT

По состоянию на октябрь 2020 года количество языков, поддерживаемых Google Translate, выросло до 109, включая киргизский, белорусский, латинский, мальтийский и сунданский.

  1. африкаанс
  2. албанский
  3. Амхарский
  4. арабский
  5. Армянский
  6. Азербайджанский
  7. Баскский
  8. Белорусский
  9. Бенгальский
  10. Боснийский
  11. болгарский
  12. Бирманский
  13. Каталонский
  14. Себуано
  15. Чичева
  16. Упрощенный китайский)
  17. Китайский традиционный)
  18. Корсиканский
  19. хорватский
  20. чешский язык
  21. Датский
  22. Голландский
  23. английский
  24. эсперанто
  25. эстонский
  26. Филиппинский
  27. Финский
  28. французкий язык
  29. Галицкий
  30. Грузинский
  31. Немецкий
  32. Греческий
  33. Гуджарати
  34. Гаитянский креольский
  35. Хауса
  36. Гавайский
  37. иврит
  38. хинди
  39. Хмонг
  40. венгерский язык
  41. исландский
  42. Игбо
  43. индонезийский
  44. Ирландский
  45. Итальянский
  46. Японский
  47. Яванский
  48. Каннада
  49. Казахский
  50. Кхмерский
  51. корейский язык
  52. Курдский ( курманджи )
  53. Лаосский
  54. Латышский
  55. Литовский язык
  56. Люксембургский
  57. македонский
  58. Малагасийский
  59. малайский
  60. Малаялам
  61. Мальтийский
  62. маори
  63. Маратхи
  64. Монгольский
  65. Непальский
  66. Норвежский ( букмол )
  67. Пушту
  68. Персидский
  69. Польский
  70. португальский
  71. Пенджаби
  72. румынский
  73. русский
  74. Самоанский
  75. Шотландский гэльский
  76. сербский
  77. Сесото
  78. Шона
  79. Синдхи
  80. Сингальский
  81. словацкий
  82. словенский
  83. Сомалийский
  84. испанский
  85. Суданский
  86. суахили
  87. Шведский
  88. Таджикский
  89. Тамильский
  90. телугу
  91. Тайский
  92. турецкий
  93. украинец
  94. Урду
  95. Узбекский
  96. вьетнамский
  97. валлийский
  98. Западно-фризский
  99. Коса
  100. идиш
  101. Йоруба
  102. Зулусский

Смотрите также

использованная литература

внешние ссылки