Расстояние Бхаттачарьи - Bhattacharyya distance

В статистике , то Бхаттачариа расстояние измеряет сходство двух вероятностных распределений . Это тесно связано с коэффициентом Бхаттачарьи, который является мерой степени перекрытия между двумя статистическими выборками или популяциями. Оба показателя названы в честь Анила Кумара Бхаттачарьи , статистика , работавшего в 1930-х годах в Индийском статистическом институте . Он разработал метод измерения расстояния между двумя ненормальными распределениями и проиллюстрировал это с помощью классических полиномиальных совокупностей, а также распределений вероятностей, которые абсолютно непрерывны относительно меры Лебега. Последняя работа частично появилась в 1943 г. в Бюллетене Калькуттского математического общества [т. 35, pp. 99-109], тогда как первая часть, несмотря на то, что была представлена ​​к публикации в 1941 году, появилась почти пятью годами позже в Sankhya [vol. 7, 1946, pp. 401-406].

Коэффициент может использоваться для определения относительной близости двух рассматриваемых выборок. Он используется для измерения разделимости классов при классификации и считается более надежным, чем расстояние Махаланобиса , поскольку расстояние Махаланобиса является частным случаем расстояния Бхаттачарьи, когда стандартные отклонения двух классов одинаковы. Следовательно, когда два класса имеют одинаковые средние значения, но разные стандартные отклонения, расстояние Махаланобиса будет стремиться к нулю, тогда как расстояние Бхаттачарьи растет в зависимости от разницы между стандартными отклонениями.

Определение

Для вероятностных распределений p и q в одной и той же области X расстояние Бхаттачарьи определяется как

куда

- коэффициент Бхаттачарьи для дискретных распределений вероятностей .

Для непрерывных распределений вероятностей коэффициент Бхаттачарьи определяется как

В любом случае и . не подчиняется неравенству треугольника , но расстояние Хеллингера , которое задается, подчиняется неравенству треугольника.

В своей простейшей формулировке расстояние Бхаттачарьи между двумя классами при нормальном распределении может быть вычислено путем извлечения среднего значения и дисперсии двух отдельных распределений или классов:

куда:

  - дисперсия p -го распределения,
  - среднее значение p -го распределения, а
  это два разных дистрибутива.

Расстояние Махаланобиса, используемое в линейном дискриминантном анализе Фишера, является частным случаем расстояния Бхаттачарьи.

Для многомерных нормальных распределений ,

где и - средние и ковариации распределений, а

Обратите внимание, что в этом случае первый член расстояния Бхаттачарьи связан с расстоянием Махаланобиса .

Коэффициент Бхаттачарьи

Коэффициент Бхаттачарьи - это приблизительное измерение степени перекрытия между двумя статистическими выборками. Коэффициент может использоваться для определения относительной близости двух рассматриваемых выборок.

Расчет коэффициента Бхаттачарьи включает элементарную форму интегрирования перекрытия двух выборок. Интервал значений двух выборок разбивается на выбранное количество разделов , и количество членов каждой выборки в каждом разделе используется в следующей формуле:

где, учитывая выборки p и q , n - количество разделов, а , - количество членов выборок p и q в i -м разделе.

Следовательно, эта формула больше для каждого раздела, в котором есть элементы из обеих выборок, и больше для каждого раздела, который имеет большое перекрытие двух элементов в нем. Выбор количества разделов зависит от количества членов в каждом образце; слишком мало разделов потеряет точность из-за переоценки области перекрытия, а слишком много разделов потеряют точность из-за создания отдельных разделов без элементов, несмотря на то, что они находятся в густонаселенном пространстве выборки.

Коэффициент Бхаттачарьи будет равен 0, если нет никакого перекрытия из-за умножения на ноль в каждом разделе. Это означает, что расстояние между полностью разделенными образцами не будет зависеть только от этого коэффициента.

Коэффициент Бхаттачарьи используется при построении полярных кодов .

Приложения

Расстояние Бхаттачарьи широко используется в исследованиях выделения и выбора признаков, обработки изображений, распознавания говорящих и кластеризации телефонов.

«Пространство Бхаттачарьи» было предложено в качестве метода выбора признаков, который можно применять для сегментации текстуры.

Смотрите также

использованная литература

  • Nielsen, F .; Больц, С. (2010). «Центроиды Бурбеа-Рао и Бхаттачарья». IEEE Transactions по теории информации . 57 (8): 5455–5466. arXiv : 1004.5049 . DOI : 10.1109 / TIT.2011.2159046 .
  • Кайлат, Т. (1967). «Расхождение и меры расстояния Бхаттачарьи в выборе сигнала». IEEE Transactions по коммуникационным технологиям . 15 (1): 52–60. DOI : 10.1109 / TCOM.1967.1089532 .

внешние ссылки