Коэффициент неопределенности - Uncertainty coefficient

В статистике , то коэффициент неопределенности , называемый также знанием , энтропия коэффициента или U Theil в , является мерой номинальной ассоциации . Он был впервые представлен Анри Тейлом и основан на концепции информационной энтропии .

Определение

Предположим , что мы имеем образцы двух дискретных случайных величин, X и Y . Построив совместное распределение P X, Y ( xy ) , из которого мы можем вычислить условные распределения , P X | Y ( x | y ) =  P X, Y ( xy ) / P Y ( y ) и P Y | X ( y | x ) =  P X, Y ( xy ) / P X ( x ) и вычисляя различные энтропии, мы можем определить степень связи между двумя переменными.

Энтропия одного распределения определяется как:

в то время как условная энтропия задается как:

Коэффициент неопределенности или квалификация определяется как:

и сообщает нам: учитывая Y , какую долю битов X мы можем предсказать? В этом случае мы можем думать о X как о содержащем всю информацию, а о Y как о том, что позволяет предсказать часть такой информации.

Вышеприведенное выражение ясно показывает, что коэффициент неопределенности - это нормализованная взаимная информация I (X; Y) . В частности, коэффициент неопределенности колеблется в [0, 1] как I (X; Y) <H (X), и оба I (X, Y) и H (X) положительны или равны нулю.

Обратите внимание, что значение U (но не H !) Не зависит от основания журнала, поскольку все логарифмы пропорциональны.

Коэффициент неопределенности полезен для измерения достоверности алгоритма статистической классификации и имеет преимущество перед более простыми мерами точности, такими как точность и отзыв, в том, что на него не влияют относительные доли различных классов, т. Е. P ( x ). У него также есть уникальное свойство, заключающееся в том, что он не наказывает алгоритм за предсказание неправильных классов, если он делает это последовательно (т. Е. Просто переупорядочивает классы). Это полезно при оценке алгоритмов кластеризации, поскольку метки кластера обычно не имеют определенного порядка.

Вариации

Коэффициент неопределенности не является симметричным относительно роли X и Y . Роли можно поменять местами, и таким образом симметричный показатель определяется как средневзвешенное значение между ними:

Хотя обычно коэффициент неопределенности применяется к дискретным переменным, он может быть расширен до непрерывных переменных с использованием оценки плотности .

Смотрите также

использованная литература

  1. ^ a b c Клод Э. Шеннон; Уоррен Уивер (1963). Математическая теория коммуникации . Издательство Иллинойского университета.
  2. ^ а б Уильям Х. Пресс; Брайан П. Фланнери; Саул А. Теукольский; Уильям Т. Веттерлинг (1992). «14.7.4». Числовые рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. п. 761.
  3. ^ a b Белый, Джим; Штейнгольд, Сэм; Фурнель, Конни. «Метрики производительности для алгоритмов группового обнаружения» (pdf) . Интерфейс 2004 г. Цитировать журнал требует |journal=( помощь )
  4. ^ Питер, Миллс (2011). «Эффективная статистическая классификация спутниковых измерений» (PDF) . Международный журнал дистанционного зондирования . 32 (21): 6109–6132. arXiv : 1202.2194 . DOI : 10.1080 / 01431161.2010.507795 . Архивировано из оригинального (PDF) 26 апреля 2012 года.

внешние ссылки

  • libagf Включает программное обеспечение для расчета коэффициентов неопределенности.