Биграмма - Bigram
Биграммы или биграмма представляет собой последовательность из двух смежных элементов из строки из маркеров , которые , как правило , буквы, слоги или слова. Биграмма - это n -грамма для n = 2. Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, включая вычислительную лингвистику, криптографию, распознавание речи и т. Д.
Биграммы с ошибками или пропускающие биграммы - это пары слов, которые допускают пропуски (возможно, избегая соединительных слов или позволяя некоторое моделирование зависимостей, как в грамматике зависимостей ).
Биграммы заглавных слов - это биграммы с пробелами с явным отношением зависимости.
Подробности
Биграммы помогают обеспечить условную вероятность токена с учетом предыдущего токена, когда применяется отношение условной вероятности :
То есть вероятность токена, заданного предыдущим токеном , равна вероятности их биграммы или одновременного появления двух токенов , деленной на вероятность предыдущего токена.
Приложения
Биграммы используются в большинстве успешных языковых моделей для распознавания речи . Это частный случай N-грамм .
Частотные атаки Bigram могут использоваться в криптографии для решения криптограмм . См. Частотный анализ .
Частота биграмм - один из подходов к статистической идентификации языка .
Некоторые виды деятельности в области логологии или развлекательной лингвистики используют биграммы. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, или слова, содержащие последовательность повторяющихся биграмм, например, logogogue .
Частота биграмм в английском языке
Частота наиболее распространенных буквенных биграмм в маленьком корпусе английского языка:
th 1.52 en 0.55 ng 0.18 he 1.28 ed 0.53 of 0.16 in 0.94 to 0.52 al 0.09 er 0.94 it 0.50 de 0.09 an 0.82 ou 0.50 se 0.08 re 0.68 ea 0.47 le 0.08 nd 0.63 hi 0.46 sa 0.06 at 0.59 is 0.46 si 0.05 on 0.57 or 0.43 ar 0.04 nt 0.56 ti 0.34 ve 0.04 ha 0.56 as 0.33 ra 0.04 es 0.56 te 0.27 ld 0.02 st 0.55 et 0.19 ur 0.02
Доступны полные биграммные частоты для большего корпуса.
Смотрите также
Рекомендации
- ^ Коллинз, Майкл Джон (1996-06-24). «Новый статистический анализатор, основанный на лексических зависимостях биграмм» . Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики - . Ассоциация компьютерной лингвистики. С. 184–191. arXiv : cmp-lg / 9605012 . DOI : 10.3115 / 981863.981888 . S2CID 12615602 . Проверено 9 октября 2018 .
- ^ Коэн, Филип М. (1975). «Начальные биграммы» . Word Ways . 8 (2) . Проверено 11 сентября 2016 года .
- ^ Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы» . Word Ways . 22 (3) . Проверено 11 сентября 2016 года .
- ^ Проект Cornell Math Explorer - Шифры замещения
- ^ Джонс, Майкл N; DJK Mewhort (август 2004 г.). «Подсчет частот букв и биграмм с учетом регистра в больших английских корпусах» . Методы, приборы и компьютеры исследования поведения . 36 (3): 388–396. DOI : 10.3758 / bf03195586 . ISSN 0743-3808 . PMID 15641428 .
- ^ "Частота английских букв: пересмотр Майзнера или ETAOIN SRHLDCU" . norvig.com . Проверено 28 октября 2019 .