Статистическое расстояние - Statistical distance

В статистике , теории вероятностей и теории информации , A статистическое расстояние квантифицирует расстояние между двумя статистическими объектами, которые могут быть две случайные величины , или два распределения вероятностей или образца , или расстояние может находиться между отдельной точки выборки и населения или более широкая выборка точек.

Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей, и, следовательно, они, по сути, являются мерой расстояний между мерами вероятности . Если меры статистического расстояния связаны с различиями между случайными величинами , они могут иметь статистическую зависимость , и, следовательно, эти расстояния не связаны напрямую с мерами расстояний между мерами вероятности. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.

Статистические меры расстояния обычно не являются метриками и не обязательно должны быть симметричными. Некоторые типы мер расстояния называются (статистическими) расхождениями .

Терминология

Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. В дополнение к «расстоянию» аналогичные термины включают в себя отклонение , отклонение , несоответствие , дискриминацию и расхождение , а также другие, такие как функция контраста и метрика . Термины из теории информации включают кросс-энтропию , относительную энтропию , информацию о различении и получение информации .

Расстояния как метрики

Метрики

Метрика на множестве X является функцией (называется функция расстояния или просто расстояние ) d  : X × XR + (где R + представляет собой набор неотрицательных действительных чисел ). Для всех x , y , z в X эта функция должна удовлетворять следующим условиям:

  1. d ( x , y ) ≥ 0 ( неотрицательность )
  2. d ( x , y ) = 0 тогда и только тогда, когда   x = y     ( тождество неразличимых . Обратите внимание, что условия 1 и 2 вместе дают положительную определенность )
  3. d ( x , y ) = d ( y , x ) ( симметрия )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( субаддитивность / неравенство треугольника ).

Обобщенные метрики

Многие статистические расстояния не являются метриками , потому что им не хватает одного или нескольких свойств правильных метрик. Например, псевдометрия нарушает свойство « положительной определенности » (альтернативно, «тождество неразличимых» ) (1 и 2 выше); квазиметрики нарушают свойство симметрии (3); а полуметрики нарушают неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расходимостями .

Примеры

Некоторые важные статистические расстояния включают следующее:

Смотрите также

Заметки

Внешние ссылки

Рекомендации

  • Додж Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN  0-19-920613-9