Автоматический переводчик языков - Automatic Language Translator

Автоматический переводчик языков IBM - это система машинного перевода , которая переводит русские документы на английский . Он использовал оптический диск, на котором хранилось 170 000 дословных переводов и переводов «утверждение за утверждением», а также специальный компьютер для их просмотра на высокой скорости. Построенный для Отдела зарубежных технологий ВВС США , AN / GSQ-16 (или XW-2 ), как он был известен в ВВС, в основном использовался для преобразования советской технической документации для распространения среди западных ученых. Переводчик был установлен в 1959 году, радикально модернизирован в 1964 году и в конечном итоге заменен мэйнфреймом с SYSTRAN в 1970 году.

История

Фотографиикопический магазин

Переводчик начал работу в июне 1953 года по контракту ВМС США с Международной телеметрической корпорацией (ITC) в Лос-Анджелесе. Это была не система перевода, а чистый контракт на исследования и разработки для высокопроизводительного онлайн-хранилища фотографий, состоящего из маленьких черных прямоугольников, встроенных в пластиковый диск. Когда истек срок первоначального контракта, Римский центр развития авиации (RADC) продолжил финансирование в 1954 году и позже.

Система была разработана Гилбертом Кингом, главным инженером ITC, вместе с командой, в которую входил Луи Риденур . Он превратился в 16-дюймовый пластиковый диск с данными, записанными в виде серии микроскопических черных прямоугольников или прозрачных пятен. Для хранения использовались только крайние 4 дюйма диска, что увеличивало линейную скорость доступной части. Когда диск вращался со скоростью 2400 об / мин, он имел скорость доступа около 1 Мбит / с. В общей сложности система хранит 30 Мбит / с, что делает ее онлайн-системой с самой высокой плотностью размещения в своей эпохе.

Марк I

В 1954 году IBM провела впечатляющую демонстрацию машинного перевода, известную сегодня как « эксперимент Джорджтауна-IBM ». Запуск на IBM 704 мэйнфреймов , система перевода знала только 250 слов русского языка ограничиваются области органической химии, а только 6 правил грамматики для их объединения. Тем не менее, результаты были многообещающими и широко освещались в прессе.

В то время большинство исследователей в области зарождающегося машинного перевода считали, что основной проблемой для обеспечения разумных переводов было создание большой библиотеки, поскольку устройства хранения того времени были слишком маленькими и слишком медленными, чтобы их можно было использовать в этой роли. Кинг считал, что фотомагазин был естественным решением проблемы, и предложил ВВС идею автоматизированной системы перевода, основанной на фотомагазине. RADC проявил интерес и предоставил исследовательский грант в мае 1956 года. В то время ВВС также предоставили грант исследователям из Вашингтонского университета , которые работали над проблемой создания оптимального словаря перевода для этого проекта.

Кинг выступал за простой дословный подход к переводам. Он думал, что естественная избыточность в языке позволит понять даже плохой перевод, и что одного местного контекста достаточно, чтобы дать разумные догадки при столкновении с двусмысленными терминами. Он заявил, что «успех человека в достижении вероятности 0,50 в ожидании слов в предложении во многом обусловлен его опытом и реальным значением уже обнаруженных слов». Другими словами, простой перевод одних слов позволит человеку эффективно прочитать документ, потому что он сможет понять правильное значение из контекста, предоставленного более ранними словами.

В 1958 году Кинг перешел в Исследовательский центр Томаса Дж. Ватсона IBM и продолжил разработку переводчика на базе фотошопа. Со временем Кинг изменил подход с чистого дословного переводчика на тот, который хранит «основы и окончания», разбивая слова на части, которые можно было объединить вместе, чтобы снова сформировать законченные слова.

Первая машина, «Mark I», была продемонстрирована в июле 1959 года и состояла из словаря на 65 000 слов и специального лампового компьютера для поиска. Тексты вручную копировались на перфокарты с использованием специальных кириллических терминалов, а затем вводились в машину для перевода. Результаты были менее чем впечатляющими, но их было достаточно, чтобы предположить, что более крупная и быстрая машина была бы разумной разработкой. Тем временем марка I была нанесена на переводы советской газеты « Правда» . Результаты по-прежнему оставались сомнительными, но Кинг объявил это успешным, заявив в Scientific American, что система «... при оперативной оценке была признана правительством весьма полезной».

Марк II

4 октября 1957 года в СССР был запущен первый искусственный спутник Земли - Спутник-1 . Это вызвало волну беспокойства в США, чей собственный проект «Авангард» был застигнут врасплох, а затем доказал, что он неоднократно зрелищно проваливался. Этот неловкий поворот событий привел к огромным инвестициям в науку и технологии США, включая создание DARPA , NASA и различных разведывательных служб, которые попытались бы снова избежать подобных сюрпризов.

По прошествии короткого периода времени, разведывательные работы централизовались на базе ВВС Райт Паттерсон в качестве Отдела зарубежных технологий (FTD, ныне известного как Национальный центр воздушной и космической разведки ), которым управляют ВВС при участии DIA и других организаций. Перед FTD была поставлена ​​задача переводить советские и другие технические и научные журналы Варшавского блока, чтобы исследователи на «западе» могли быть в курсе событий за « железным занавесом» . Большинство этих документов были общедоступными, но FTD также сделала несколько разовых переводов других материалов по запросу.

Допуская нехватку квалифицированных переводчиков, FTD чрезвычайно заинтересовалась усилиями Кинга в IBM. Вскоре появилось финансирование для модернизированной машины, и началась работа над системой «Mark II», основанной на транзисторном компьютере с более быстрым и емким 10-дюймовым оптическим диском на стеклянной основе, вращающимся со скоростью 2400 об / мин. Еще одним дополнением был оптический считыватель символов, предоставленный третьей стороной, который, как они надеялись, устранит трудоемкий процесс копирования русского текста на машиночитаемые карты.

В 1960 году команда из Вашингтона также присоединилась к IBM, взяв с собой свои словарные разработки. Словарь продолжал расширяться по мере появления дополнительных хранилищ, достигнув 170 000 слов и терминов к тому времени, когда он был установлен в FTD. В Mark II было также включено крупное обновление программного обеспечения, которое Кинг назвал «набивкой словаря». Набивка была попыткой решить проблему неоднозначных слов путем "вставки" в них префиксов из более ранних слов в тексте. Эти измененные слова будут совпадать с аналогичными словами в словаре, уменьшая количество ложных срабатываний.

В 1962 году Кинг ушел из IBM в Itek , военного подрядчика, стремящегося быстро осваивать новые технологии. Разработка в IBM продолжалась, и в феврале 1964 года система была полностью запущена в FTD. Система была продемонстрирована на Всемирной выставке в Нью-Йорке в 1964 году . Версия, представленная на Ярмарке, включала словарь на 150 000 слов, где примерно 1/3 слов состояла из фраз. Около 3500 из них были сохранены в основной памяти для повышения производительности, и была заявлена ​​средняя скорость 20 слов в минуту. Результаты тщательно подобранного ввода текста были весьма впечатляющими. После возвращения в FTD он использовался непрерывно до 1970 года, когда был заменен машиной, работающей на SYSTRAN .

Отчет ALPAC

В 1964 году Министерство обороны США поручило Национальной академии наук США (NAS) подготовить отчет о состоянии машинного перевода. NAS сформировало «Консультативный комитет по автоматической обработке языков» ( ALPAC) и опубликовало свои выводы в 1966 году. В отчете « Язык и машины: компьютеры в переводе и лингвистике» содержалась резкая критика существующих усилий, демонстрирующих, что системы не работают быстрее. чем человеческий перевод, а также демонстрирует, что предполагаемая нехватка переводчиков на самом деле была излишком, и в результате проблем со спросом и предложением человеческий перевод был относительно недорогим - около 6 долларов за 1000 слов. Хуже того, FTD тоже был медленнее; тесты с использованием работ по физике в качестве входных данных показали, что переводчик был «на 10 процентов менее точен, на 21 процент медленнее и имел уровень понимания на 29 процентов ниже, чем когда он использовал человеческий перевод».

Отчет ALPAC имел такое же влияние, как и эксперимент в Джорджтауне десятью годами ранее; сразу после его публикации правительство США приостановило почти все финансирование исследований в области машинного перевода. Текущая работа в IBM и Itek закончилась к 1966 году, оставив поле деятельности европейцам, которые продолжили разработку таких систем, как SYSTRAN и Logos.

Рекомендации

Заметки

^ ^ Эти цифры для ранних дисковых систем кажутся неточными - другой документ от того же автора предполагает, что эти цифры на самом деле относятся к более поздней версии, используемой в переводчике Mark II.

Библиография

  • GW King, GW Brown и LN Ridenour, «Фотографические методы для хранения информации», Proceedings of the IRE , Volume 41 Issue 10 (октябрь 1953 г.), стр. 1421–1428
  • GW King, «Стохастические методы механического перевода», « Механический перевод» , том 3, выпуск 2 (1956), стр. 38–39.
  • JL Craft, EH Goldman, WB Strohm, "Таблица поиска для обработки естественных языков" , журнал IBM , июль 1961 г., стр. 192–203
  • Консультативный комитет по обработке языков, «Язык и машины: компьютеры в переводе и лингвистике» , Национальный исследовательский совет , 1966 г. (широко известный как «Отчет ALPAC»)
  • Джон Хатчинс (редактор), «Гилберт В. Кинг и переводчик IBM-USAF» , « Первые годы машинного перевода» , Joh Benjamins, 2000, ISBN   90-272-4586-X (RADC-TDR-62-105)
  • Чарльз Борн и Труди Беллардо Хан, «История информационных служб Интернета, 1963–1976» , MIT Press, 2003, ISBN   0-262-02538-8