Статистический анализ - Statistical parsing

Статистический анализ - это группа методов анализа в рамках обработки естественного языка . Общим для этих методов является то, что они связывают грамматические правила с вероятностью. Грамматические правила традиционно рассматриваются в компьютерной лингвистике как определение допустимых предложений языка. В рамках этого мышления идея связать каждое правило с вероятностью затем обеспечивает относительную частоту любого данного правила грамматики и, путем дедукции, вероятность полного синтаксического анализа предложения. (Вероятность, связанная с правилом грамматики, может быть индуцирована, но применение этого правила грамматики в дереве синтаксического анализа и вычисление вероятности дерева синтаксического анализа на основе правил его компонентов является формой дедукции.) Используя эту концепцию, статистические данные синтаксические анализаторы используют процедуру для поиска в пространстве всех синтаксических разборов кандидатов и вычисления вероятности каждого кандидата для получения наиболее вероятного синтаксического анализа предложения. Алгоритм Витерби является один популярный метод поиска для наиболее вероятного синтаксического анализа.

«Поиск» в данном контексте - это применение алгоритмов поиска в искусственном интеллекте .

В качестве примера подумайте о предложении «Банка выдерживает критику». Читатель сразу же увидел бы, что существует объект, называемый «банка», и что этот объект выполняет действие «может» (то есть может); и то, что объект может делать, - это «удерживать»; и то, что объект может удерживать, - это «вода». Используя более лингвистическую терминологию, «может» - это именная фраза, состоящая из определителя, за которым следует существительное, а «может держать воду» - это глагольная фраза, которая сама состоит из глагола, за которым следует глагольная фраза. Но разве это единственное толкование предложения? Разумеется, «The can can » - это вполне допустимая существительная фраза, относящаяся к типу танца, и «hold water» также является допустимой глагольной фразой, хотя принудительное значение комбинированного предложения неочевидно. Это отсутствие смысла не рассматривается как проблема большинством лингвистов (обсуждение этого вопроса см. В разделе Бесцветные зеленые идеи яростно спят ), но с прагматической точки зрения желательно получить первую интерпретацию, а не вторую и статистические синтаксические анализаторы. добиться этого путем ранжирования интерпретаций на основе их вероятности.

(В этом примере были сделаны различные предположения о грамматике , такие как простая деривация слева направо, а не управляемая головой, использование словосочетаний-существительных, а не модных в настоящее время определителей-фраз, и отсутствие проверки типов, предотвращающих конкретное существительное, объединенное с абстрактной глагольной фразой. Ни одно из этих предположений не влияет на тезис аргумента, и сопоставимый аргумент не может быть получен с использованием любого другого грамматического формализма.)

Существует ряд методов, которые часто используются в алгоритмах статистического анализа. Хотя немногие алгоритмы будут использовать все это, они дают хороший обзор общей области. Большинство алгоритмов статистического анализа основаны на модифицированной форме анализа диаграмм . Модификации необходимы для поддержки чрезвычайно большого количества грамматических правил и, следовательно, пространства поиска, и по существу включают применение классических алгоритмов искусственного интеллекта к традиционно исчерпывающему поиску. Некоторые примеры оптимизации - это поиск только вероятного подмножества пространства поиска ( поиск по стеку ), для оптимизации вероятности поиска ( алгоритм Баума-Велча ) и для отбрасывания синтаксических анализов, которые слишком похожи, чтобы обрабатывать их отдельно ( алгоритм Витерби ).

Известные люди в статистическом анализе

Смотрите также