Энергетическое расстояние - Energy distance

Энергетическое расстояние - это статистическое расстояние между распределениями вероятностей . Если X и Y являются независимыми случайными векторами в R d с кумулятивными функциями распределения (cdf) F и G соответственно, то энергетическое расстояние между распределениями F и G определяется как квадратный корень из

где (X, X ', Y, Y') независимы, cdf для X и X '- это F, cdf для Y и Y' - это G, является ожидаемым значением и || . || обозначает длину вектора. Энергетическое расстояние удовлетворяет всем аксиомам метрики, таким образом, энергетическое расстояние характеризует равенство распределений: D (F, G) = 0 тогда и только тогда, когда F = G. Энергетическое расстояние для статистических приложений было введено в 1985 г. Габором Дж. Секели , который доказал что для действительных случайных величин ровно в два раза превышает расстояние Харальда Крамера :

Простое доказательство этой эквивалентности см. В Székely (2002).

Однако в более высоких измерениях эти два расстояния различаются, потому что энергетическое расстояние инвариантно относительно вращения, а расстояние Крамера - нет. (Обратите внимание , что расстояние Крамера не совпадает с распределением свободного критерия Крамера-Мизеса .)

Обобщение на метрические пространства

Можно обобщить понятие энергетического расстояния на распределения вероятностей в метрических пространствах. Позвольте быть метрическим пространством с его борелевской сигма-алгеброй . Обозначим через набор всех вероятностных мер на измеримом пространстве . Если μ и ν - вероятностные меры в , то энергетическое расстояние μ и ν можно определить как квадратный корень из

Однако это не обязательно неотрицательно. Если - сильно отрицательно определенное ядро, то - метрика , и наоборот. Это состояние выражается в том, что имеет отрицательный тип. Отрицательного типа недостаточно, чтобы быть метрикой; последнее состояние выражается выражением сильного отрицательного типа. В этой ситуации энергетическое расстояние равно нулю тогда и только тогда, когда X и Y одинаково распределены. Примером метрики отрицательного типа, но не сильно отрицательного типа является самолет с метрикой такси . Все евклидовы пространства и даже сепарабельные гильбертовы пространства имеют сильный отрицательный тип.

В литературе по методам ядра для машинного обучения , эти обобщенные понятия расстояния энергии изучаются под названием максимального среднего расхождения. Эквивалентность дистанционных и ядерных методов для проверки гипотез рассматривается несколькими авторами.

Статистика энергетики

Родственная статистическая концепция, понятие электронной статистики или статистики энергии, было введено Габором Дж. Секели в 1980-х годах, когда он читал лекции на коллоквиуме в Будапеште, Венгрия, а также в Массачусетском технологическом институте, Йельском университете и Колумбии. Эта концепция основана на представлении о потенциальной энергии Ньютона . Идея состоит в том, чтобы рассматривать статистические наблюдения как небесные тела, управляемые статистической потенциальной энергией, которая равна нулю только тогда, когда истинна лежащая в основе статистическая нулевая гипотеза . Статистика энергии - это функция расстояний между статистическими наблюдениями.

Энергетическое расстояние и E-статистика рассматривались как N -расстояния и N-статистика в Зингере А.А., Какосян А.В., Клебанов Л.Б. Характеристика распределений с помощью средних значений некоторых статистик в связи с некоторыми вероятностными метриками, Проблемы устойчивости для стохастических моделей. Москва, ВНИИСИ, 1989,47-55. (на русском), английский перевод: Характеристика распределений средними значениями статистики и некоторыми вероятностными метриками А. А. Зингер, А. В. Какосян, Л. Б. Клебанов в Journal of Soviet Mathematics (1992). В той же статье было дано определение сильно отрицательно определенного ядра и дано обобщение на метрические пространства, о котором говорилось выше. В книге также приводятся эти результаты и их приложения для статистического тестирования. Книга также содержит некоторые приложения для восстановления потенциала меры.

Тестирование на равное распределение

Рассмотрим нулевую гипотезу , что две случайные величины, X и Y имеют одинаковые распределения вероятностей: . Для статистических выборок из X и Y :

и ,

следующие средние арифметические расстояния вычисляются между выборками X и Y:

.

E-статистика базовой нулевой гипотезы определяется следующим образом:

Можно доказать, что соответствующее значение совокупности равно нулю тогда и только тогда, когда X и Y имеют одинаковое распределение ( ). Согласно этой нулевой гипотезе, статистика теста

сходится по распределению к квадратичной форме независимых стандартных нормальных случайных величин . Согласно альтернативной гипотезе T стремится к бесконечности. Это позволяет построить последовательный статистический тест , энергетический тест для равных распределений.

Также можно ввести E-коэффициент неоднородности. Это всегда от 0 до 1 и определяется как

где обозначает ожидаемое значение . H  = 0 именно тогда, когда X и Y имеют одинаковое распределение.

Добродетель

Многомерная мера согласия определяется для распределений в произвольной размерности (не ограниченной размером выборки). Статистика согласия по энергии равна

где X и X 'независимы и одинаково распределены согласно гипотетическому распределению, и . Единственное необходимое условие - это то, что X имеет конечный момент при нулевой гипотезе. При нулевой гипотезе асимптотическое распределение Q n является квадратичной формой центрированных гауссовских случайных величин. Согласно альтернативной гипотезе, Q n стохастически стремится к бесконечности и, таким образом, определяет статистически непротиворечивый тест. Для большинства приложений можно применять показатель степени 1 (евклидово расстояние). Важный частный случай тестирования многомерной нормальности реализован в энергетическом пакете для R. Тесты также разработаны для распределений с тяжелыми хвостами, таких как Парето ( степенной закон ), или стабильных распределений путем применения показателей в (0,1).

Приложения

Приложения включают:

Гнейтинг и Рафтери применяют энергетическое расстояние для разработки нового и очень общего типа правильного правила подсчета для вероятностных прогнозов - показателя энергии.
  • Надежная статистика
  • Сценарий сокращения
  • Выбор гена
  • Анализ данных микрочипов
  • Анализ структуры материала
  • Морфометрические и хемометрические данные

Применение статистики энергетики реализуются в открытом источнике энергии пакет для R .

использованная литература