Модель языка кеширования - Cache language model

Модель языка кеширования - это тип статистической языковой модели . Они происходят в подполе компьютерных наук в области обработки естественного языка и присваивают вероятности заданным последовательностям слов с помощью распределения вероятностей . Статистические языковые модели являются ключевыми компонентами систем распознавания речи и многих систем машинного перевода : они сообщают таким системам, какие возможные последовательности выходных слов вероятны, а какие - маловероятны. Особенностью модели языка кэширования является то, что она содержит компонент кэширования и присваивает относительно высокие вероятности словам или последовательностям слов, которые встречаются в другом месте данного текста. Основное, но ни в коем случае не единственное, использование языковых моделей кэширования - это системы распознавания речи.

Чтобы понять, почему статистическая языковая модель должна содержать компонент кеша, можно рассмотреть человека, который диктует письмо о слонах системе распознавания речи. Стандартные (не кешированные) языковые модели N-граммы приписывают очень низкую вероятность слову «слон», потому что это очень редкое слово в английском языке . Если система распознавания речи не содержит компонента кэша, человек, диктующий букву, может быть раздражен: каждый раз, когда произносится слово «слон», может распознаваться другая последовательность слов с более высокой вероятностью согласно языковой модели N-граммы (например, , «расскажи план»). Эти ошибочные последовательности придется удалять вручную и заменять в тексте словом «слон» каждый раз, когда произносится «слон». Если в системе есть модель языка кеширования, «слон», вероятно, будет неправильно распознан при первом разговоре, и его придется вводить в текст вручную; однако с этого момента система знает, что «слон», вероятно, появится снова - оценочная вероятность появления «слона» была увеличена, что делает более вероятным, что если он произнесен, он будет распознан правильно. Если слово «слон» встречается несколько раз, система, вероятно, будет правильно распознавать его каждый раз, когда на нем говорят, пока буква не будет полностью продиктована. Это увеличение вероятности появления «слона» является примером последствий машинного обучения и, в частности, распознавания образов .

Существуют варианты модели языка кеширования, в которых не только отдельным словам, но и последовательностям из нескольких слов, которые встречались ранее, назначаются более высокие вероятности (например, если "Сан-Франциско" встречается в начале текста, последующие его экземпляры будут назначены более высокая вероятность).

Модель языка кэширования была впервые предложена в статье, опубликованной в 1990 году, после чего группа специалистов IBM по распознаванию речи экспериментировала с этой концепцией. Группа обнаружила, что реализация модели языка кеширования привела к снижению количества ошибок по словам на 24% после того, как были продиктованы первые несколько сотен слов документа. Подробный обзор методов языкового моделирования пришел к выводу, что модель языка кеширования была одним из немногих новых методов языкового моделирования, которые привели к улучшениям по сравнению со стандартным подходом с N-граммами: «Наши результаты кэширования показывают, что кэширование является, безусловно, наиболее полезным методом для уменьшения сложности. при малых и средних размерах обучающих данных ".

Разработка модели языка кэширования вызвала значительный интерес среди тех, кто занимается компьютерной лингвистикой в целом и статистической обработкой естественного языка в частности: в последнее время появился интерес к применению модели языка кэширования в области статистического машинного перевода.

Успех модели кэшированного языка в улучшении предсказания слов основан на склонности человека использовать слова «всплесками»: когда кто-то обсуждает определенную тему в определенном контексте, частота, с которой он использует определенные слова, будет сильно отличаться от их частота, когда кто-то обсуждает другие темы в другом контексте. Традиционные языковые модели N-граммы, которые полностью полагаются на информацию из очень небольшого числа (четыре, три или два) слов, предшествующих слову, которому должна быть присвоена вероятность, не адекватно моделируют эту «всплеск».

Недавно концепция модели языка кэширования, первоначально задуманная для парадигмы модели статистического языка N-грамм, была адаптирована для использования в нейронной парадигме. Например, недавняя работа над языковыми моделями непрерывного кеширования в настройке рекуррентной нейронной сети (RNN) применила концепцию кеширования к гораздо более широким контекстам, чем раньше, что привело к значительному уменьшению затруднений. Другое недавнее направление исследований включает включение компонента кэша в модель нейронного языка с прямой связью (FN-LM) для достижения быстрой адаптации предметной области.

Смотрите также

Рекомендации

дальнейшее чтение