Главная тенденция - Central tendency
В статистике , центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением для распределения вероятностей . Его также можно назвать центром или местом распространения. В просторечии меры центральной тенденции часто называют средними . Термин « центральная тенденция» появился в конце 1920-х годов.
Наиболее распространенными показателями центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения».
Центральная тенденция распределения обычно противопоставляется его дисперсии или изменчивости ; дисперсия и центральная тенденция - часто характеризующие свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на ее дисперсии.
Меры
Следующее может быть применено к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры - возведение значений в квадрат или логарифм. Подходит ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.
- Среднее арифметическое или просто среднее
- сумма всех измерений, деленная на количество наблюдений в наборе данных.
- Медиана
- среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода - единственные меры центральной тенденции, которые можно использовать для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
- Режим
- наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальными данными , которым присвоены чисто качественные категории.
- Среднее геометрическое
- п - й корень из произведения значений данных, где есть п из них. Эта мера действительна только для данных, которые измерены абсолютно по строго положительной шкале.
- Гармоническое среднее
- обратной арифметического среднего обратных значений данных. Эта мера также действительна только для данных, которые измеряются по строго положительной шкале.
- Средневзвешенное арифметическое
- среднее арифметическое, которое включает взвешивание определенных элементов данных.
- Усеченное среднее или усеченное среднее
- среднее арифметическое значений данных после отбрасывания определенного количества или пропорции наивысшего и наименьшего значений данных.
- Межквартильное среднее
- усеченное среднее значение, основанное на данных в пределах межквартильного диапазона .
- Средний диапазон
- среднее арифметическое максимального и минимального значений набора данных.
- Midhinge
- среднее арифметическое первого и третьего квартилей .
- Тримян
- взвешенное среднее арифметическое медианы и двух квартилей.
- Winsorized среднее
- среднее арифметическое, в котором экстремальные значения заменяются значениями, близкими к медиане.
Любое из вышеперечисленного может применяться к каждому измерению многомерных данных, но результаты могут не быть инвариантными к поворотам многомерного пространства. Кроме того, есть
- Геометрическая медиана
- который минимизирует сумму расстояний до точек данных. Это то же самое, что и медиана применительно к одномерным данным, но это не то же самое, что получение медианы каждого измерения независимо. Это не инвариантно к разному масштабированию разных измерений.
- Квадратичное среднее (часто называемое среднеквадратичным )
- полезен в технике, но не часто используется в статистике. Это потому, что это не лучший индикатор центра распределения, когда распределение включает отрицательные значения.
- Симплициальная глубина
- вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
- Медиана Тьюки
- точка со свойством, что каждое содержащее ее полупространство также содержит много точек выборки
Решения вариационных задач
Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной задачи в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , нужно указать меру центральной тенденции, которая минимизирует вариации: такая, чтобы отклонение от центра было минимальным среди всех вариантов выбора центра. В остальном «рассеяние предшествует местонахождению». Эти меры изначально определены в одном измерении, но могут быть обобщены для нескольких измерений. Этот центр может быть уникальным, а может и не быть. В смысле L р пространств , то соответствие:
L p | разброс | Главная тенденция |
---|---|---|
L 0 | коэффициент вариации | Режим |
L 1 | среднее абсолютное отклонение | медиана ( геометрическая медиана ) |
L 2 | среднеквадратичное отклонение | среднее ( центроид ) |
L ∞ | максимальное отклонение | средний диапазон |
Соответствующие функции называются p -нормами : соответственно 0- «норма», 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L 0, не является нормой и поэтому часто упоминается в кавычках: 0 - «норма».
В уравнениях для заданного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия вокруг точки c - это «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормированной на количество точек n ):
При p = 0 и p = ∞ эти функции определяются взятием пределов соответственно при p → 0 и p → ∞ . Для p = 0 предельными значениями являются 0 0 = 0 и a 0 = 0 или a 0 , поэтому разница становится просто равенством, поэтому 0-норма учитывает количество неравных точек. При p = ∞ преобладает наибольшее число, и, следовательно, ∞-норма является максимальной разницей.
Уникальность
Среднее значение ( центр L 2 ) и средний диапазон ( центр L ∞ ) уникальны (если они существуют), в то время как медиана ( центр L 1 ) и мода ( центр L 0 ), как правило, не уникальны. Это можно понять с точки зрения выпуклости связанных функций ( коэрцитивных функций ).
2-норма и ∞-норма являются строго выпуклыми , и поэтому (посредством выпуклой оптимизации) минимизатор единственен (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение относительно среднего значения ниже, чем стандартное отклонение относительно любой другой точки, а максимальное отклонение относительно среднего диапазона ниже, чем максимальное отклонение относительно любой другой точки.
1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в смысле минимизации), как правило, не уникальна, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.
0- «норма» не является выпуклой (следовательно, не нормой). Соответственно, режим не уникален - например, в равномерном распределении любая точка является режимом.
Кластеризация
Вместо одной центральной точки можно запросить несколько точек, чтобы минимизировать отклонения от этих точек. Это приводит к кластерному анализу , где каждая точка в наборе данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение на кластеризацию k- средних , а использование 1-нормы обобщает (геометрическую) медиану на кластеризацию k- средних . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) на использование k наиболее распространенных значений в качестве центров.
В отличие от одноцентровой статистики, эта многоцентровая кластеризация, как правило, не может быть вычислена в выражении в замкнутой форме , а вместо этого должна быть вычислена или аппроксимирована итерационным методом ; один общий подход - это алгоритмы максимизации ожидания .
Информационная геометрия
Понятие «центр» как минимизирующее отклонение может быть обобщено в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемые неожиданности ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно, относительную энтропию , Кульбак– Дивергенция Лейблера).
Простой пример этого - для центра номинальных данных: вместо использования режима (единственный однозначный «центр» ) в качестве «центра» часто используется эмпирическая мера ( частотное распределение, деленное на размер выборки ). . Например, для двоичных данных , скажем орла или решки, если набор данных состоит из 2 орлов и 1 решки, то режим - «орел», но эмпирическая мера - 2/3 орла, 1/3 решки, что минимизирует кросс-энтропия (общая неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где наименьшие квадраты находят решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).
Отношения между средним, медианным и модой
Для унимодальных распределений известны и точны следующие оценки:
где μ - среднее значение, ν - медиана, θ - мода, а σ - стандартное отклонение.
Для каждого распределения
Смотрите также
- Центральный момент
- Ожидаемое значение
- Параметр местоположения
- Иметь в виду
- Средняя численность населения
- Выборочное среднее