Биграмма - Bigram

Биграммы или биграмма представляет собой последовательность из двух смежных элементов из строки из маркеров , которые , как правило , буквы, слоги или слова. Биграмма - это n -грамма для n = 2. Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, включая вычислительную лингвистику, криптографию, распознавание речи и т. Д.

Биграммы с ошибками или пропускающие биграммы - это пары слов, которые допускают пропуски (возможно, избегая соединительных слов или позволяя некоторое моделирование зависимостей, как в грамматике зависимостей ).

Биграммы заглавных слов - это биграммы с пробелами с явным отношением зависимости.

Подробности

Биграммы помогают обеспечить условную вероятность токена с учетом предыдущего токена, когда применяется отношение условной вероятности :

То есть вероятность токена, заданного предыдущим токеном , равна вероятности их биграммы или одновременного появления двух токенов , деленной на вероятность предыдущего токена.

Приложения

Биграммы используются в большинстве успешных языковых моделей для распознавания речи . Это частный случай N-грамм .

Частотные атаки Bigram могут использоваться в криптографии для решения криптограмм . См. Частотный анализ .

Частота биграмм - один из подходов к статистической идентификации языка .

Некоторые виды деятельности в области логологии или развлекательной лингвистики используют биграммы. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, или слова, содержащие последовательность повторяющихся биграмм, например, logogogue .

Частота биграмм в английском языке

Частота наиболее распространенных буквенных биграмм в маленьком корпусе английского языка:

th 1.52       en 0.55       ng 0.18
he 1.28       ed 0.53       of 0.16
in 0.94       to 0.52       al 0.09
er 0.94       it 0.50       de 0.09
an 0.82       ou 0.50       se 0.08
re 0.68       ea 0.47       le 0.08
nd 0.63       hi 0.46       sa 0.06
at 0.59       is 0.46       si 0.05
on 0.57       or 0.43       ar 0.04
nt 0.56       ti 0.34       ve 0.04
ha 0.56       as 0.33       ra 0.04
es 0.56       te 0.27       ld 0.02
st 0.55       et 0.19       ur 0.02

Доступны полные биграммные частоты для большего корпуса.

Смотрите также

Рекомендации

  1. ^ Коллинз, Майкл Джон (1996-06-24). «Новый статистический анализатор, основанный на лексических зависимостях биграмм» . Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики - . Ассоциация компьютерной лингвистики. С. 184–191. arXiv : cmp-lg / 9605012 . DOI : 10.3115 / 981863.981888 . S2CID   12615602 . Проверено 9 октября 2018 .
  2. ^ Коэн, Филип М. (1975). «Начальные биграммы» . Word Ways . 8 (2) . Проверено 11 сентября 2016 года .
  3. ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы» . Word Ways . 22 (3) . Проверено 11 сентября 2016 года .
  4. ^ Проект Cornell Math Explorer - Шифры замещения
  5. ^ Джонс, Майкл N; DJK Mewhort (август 2004 г.). «Подсчет частот букв и биграмм с учетом регистра в больших английских корпусах» . Методы, приборы и компьютеры исследования поведения . 36 (3): 388–396. DOI : 10.3758 / bf03195586 . ISSN   0743-3808 . PMID   15641428 .
  6. ^ "Частота английских букв: пересмотр Майзнера или ETAOIN SRHLDCU" . norvig.com . Проверено 28 октября 2019 .