Модель отступления Каца - Katz's back-off model

Katz back-off - это порождающая модель языка n -грамм, которая оценивает условную вероятность слова с учетом его истории в n -грамме. Он выполняет эту оценку, отступая от прогрессивно более коротких исторических моделей при определенных условиях. Таким образом, модель с наиболее надежной информацией о данной истории используется для получения лучших результатов.

Модель была представлена ​​в 1987 году Славой М. Кац. До этого языковые модели n-граммов были построены путем обучения отдельных моделей для различных порядков n-граммов с использованием оценки максимального правдоподобия и последующей их совместной интерполяции.

Метод

Уравнение модели отката Каца:

где

C ( x ) = количество раз, когда x появляется в обучении
w i = i- е слово в данном контексте

По сути, это означает, что если n -грамма просматривалась более k раз во время обучения, условная вероятность слова с учетом его истории пропорциональна оценке максимального правдоподобия этой n -граммы. В противном случае условная вероятность равна условной вероятности отката ( n  - 1) -граммы.

Более сложная часть - это определение значений k , d и  α .

наименее важный из параметров. Обычно его выбирают равным 0. Однако эмпирическое тестирование может найти лучшие значения для k.

Обычно это величина дисконтирования, рассчитанная по оценке Гуда – Тьюринга . Другими словами, если Гуд – Тьюринг оценивает как , то

Для вычисления полезно сначала определить величину β, которая является массой оставшейся вероятности для ( n  - 1) -граммы:

Затем вес отката α вычисляется следующим образом:

Вышеприведенная формула применима, только если есть данные для «( n  - 1) -граммы». Если нет, алгоритм полностью пропускает n-1 и использует оценку Каца для n-2. (и так до тех пор, пока не будет найден н-грамм с данными)

Обсуждение

Эта модель обычно хорошо работает на практике, но в некоторых случаях не работает. Например, предположим, что биграмма «a b» и униграмма «c» очень распространены, но триграмма «ab c» никогда не видна. Поскольку «a b» и «c» очень распространены, может иметь значение (то есть не случайно), что «ab c» никогда не встречается. Возможно, это не разрешено правилами грамматики. Вместо того, чтобы присвоить более подходящее значение 0, метод вернется к биграмме и оценит P ( c  |  b ), которое может быть слишком большим.

Ссылки

  1. ^ "N-граммовые модели" (PDF) . Корнелл.
  2. ^ Кац, SM (1987). Оценка вероятностей из разреженных данных для компонента языковой модели распознавателя речи. Транзакции IEEE по акустике, речи и обработке сигналов, 35 (3), 400–401.
  3. ^ Мэннинг и Шютце, Основы статистической обработки естественного языка, MIT Press (1999), ISBN  978-0-262-13360-9 .