Модель отступления Каца - Katz's back-off model

Katz back-off - это порождающая модель языка n -грамм, которая оценивает условную вероятность слова с учетом его истории в n -грамме. Он выполняет эту оценку, отступая от прогрессивно более коротких исторических моделей при определенных условиях. Таким образом, модель с наиболее надежной информацией о данной истории используется для получения лучших результатов.

Модель была представлена в 1987 году Славой М. Кац. До этого языковые модели n-граммов были построены путем обучения отдельных моделей для различных порядков n-граммов с использованием оценки максимального правдоподобия и последующей их совместной интерполяции.

Метод

Уравнение модели отката Каца:

{\ displaystyle {\ begin {align} & P_ {bo} (w_ {i} \ mid w_ {i-n + 1} \ cdots w_ {i-1}) \\ [4pt] = {} & {\ begin { case} d_ {w_ {i-n + 1} \ cdots w_ {i}} {\ dfrac {C (w_ {i-n + 1} \ cdots w_ {i-1} w_ {i})} {C ( w_ {i-n + 1} \ cdots w_ {i-1})}} & {\ text {if}} C (w_ {i-n + 1} \ cdots w_ {i})> k \\ [10pt ] \ alpha _ {w_ {i-n + 1} \ cdots w_ {i-1}} P_ {bo} (w_ {i} \ mid w_ {i-n + 2} \ cdots w_ {i-1}) & {\ text {иначе}} \ end {case}} \ end {align}}}

где

C ( x ) = количество раз, когда x появляется в обучении

w _i = i- е слово в данном контексте

По сути, это означает, что если n -грамма просматривалась более k раз во время обучения, условная вероятность слова с учетом его истории пропорциональна оценке максимального правдоподобия этой n -граммы. В противном случае условная вероятность равна условной вероятности отката ( n - 1) -граммы.

Более сложная часть - это определение значений k , d и α .

${\ displaystyle k}$ наименее важный из параметров. Обычно его выбирают равным 0. Однако эмпирическое тестирование может найти лучшие значения для k.

${\ displaystyle d}$ Обычно это величина дисконтирования, рассчитанная по оценке Гуда – Тьюринга . Другими словами, если Гуд – Тьюринг оценивает как , то ${\ displaystyle C}$ ${\ displaystyle C ^ {*}}$ ${\ displaystyle d = {\ frac {C ^ {*}} {C}}}$

Для вычисления полезно сначала определить величину β, которая является массой оставшейся вероятности для ( n - 1) -граммы: ${\ displaystyle \ alpha}$

{\ displaystyle \ beta _ {w_ {i-n + 1} \ cdots w_ {i-1}} = 1- \ sum _ {\ {w_ {i}: C (w_ {i-n + 1} \ cdots w_ {i})> k \}} d_ {w_ {i-n + 1} \ cdots w_ {i}} {\ frac {C (w_ {i-n + 1} \ cdots w_ {i-1} w_ {i})} {C (w_ {i-n + 1} \ cdots w_ {i-1})}}}

Затем вес отката α вычисляется следующим образом:

{\ Displaystyle \ альфа _ {w_ {i-n + 1} \ cdots w_ {i-1}} = {\ frac {\ beta _ {w_ {i-n + 1} \ cdots w_ {i-1}} } {\ sum _ {\ {w_ {i}: C (w_ {i-n + 1} \ cdots w_ {i}) \ leq k \}} P_ {bo} (w_ {i} \ mid w_ {i -n + 2} \ cdots w_ {i-1})}}}

Вышеприведенная формула применима, только если есть данные для «( n - 1) -граммы». Если нет, алгоритм полностью пропускает n-1 и использует оценку Каца для n-2. (и так до тех пор, пока не будет найден н-грамм с данными)

Обсуждение

Эта модель обычно хорошо работает на практике, но в некоторых случаях не работает. Например, предположим, что биграмма «a b» и униграмма «c» очень распространены, но триграмма «ab c» никогда не видна. Поскольку «a b» и «c» очень распространены, может иметь значение (то есть не случайно), что «ab c» никогда не встречается. Возможно, это не разрешено правилами грамматики. Вместо того, чтобы присвоить более подходящее значение 0, метод вернется к биграмме и оценит P ( c | b ), которое может быть слишком большим.

Ссылки

^ "N-граммовые модели" (PDF) . Корнелл.
^ Кац, SM (1987). Оценка вероятностей из разреженных данных для компонента языковой модели распознавателя речи. Транзакции IEEE по акустике, речи и обработке сигналов, 35 (3), 400–401.
^ Мэннинг и Шютце, Основы статистической обработки естественного языка, MIT Press (1999), ISBN 978-0-262-13360-9 .

[1] "N-граммовые модели" (PDF) . Корнелл.

[2] Кац, SM (1987). Оценка вероятностей из разреженных данных для компонента языковой модели распознавателя речи. Транзакции IEEE по акустике, речи и обработке сигналов, 35 (3), 400–401.

[3] Мэннинг и Шютце, Основы статистической обработки естественного языка, MIT Press (1999), ISBN 978-0-262-13360-9 .

Languages

In other projects

Модель отступления Каца - Katz's back-off model

Метод

Обсуждение

Ссылки