Квантиль - Quantile

Плотность вероятности нормального распределения с отображением квартилей. Площадь под красной кривой одинакова в интервалах (−∞, Q 1 ) , ( Q 1 , Q 2 ) , ( Q 2 , Q 3 ) и ( Q 3 , + ∞) .

В статистике и вероятности , квантили разрежут точки , делящие диапазон от более распределения вероятностей в непрерывные интервалы с равными вероятностями, или разделяющие наблюдения в выборке таким же образом. На один квантиль меньше, чем количество созданных групп. Общие квантили имеют специальные названия, например квартили (четыре группы), децили (десять групп) и процентили (100 групп). Созданные группы называются половинками, третями, четвертями и т. Д., Хотя иногда термины для квантиля используются для созданных групп, а не для точек отсечения.

Q - квантили являются значениямикоторые разбиением на конечное множество значений в д подмножества из (почти) одинакового размера. Существует q - 1 из q -квантилей, по одному для каждого целого числа k, удовлетворяющего 0 < k < q . В некоторых случаях значение квантиля не может быть определено однозначно, как это может быть в случае медианы (2-квантиль) равномерного распределения вероятностей для набора четного размера. Квантили также можно применять к непрерывным распределениям, что дает возможность обобщить статистику рангов на непрерывные переменные (см. Процентильный ранг ). Когда функция распределения из случайной величины известна, Q -quantiles является применением функции квантиля (The обратной функции от функции распределения ) до значений {1 / д , 2 / д , ..., ( д - 1) / q }.

Специализированные квантили

Некоторые q- квантили имеют специальные имена:

Квантили населения

Как и при вычислении, например, стандартного отклонения , оценка квантиля зависит от того, работаете ли человек со статистической совокупностью или с выборкой, взятой из нее. Для совокупности дискретных значений или для непрерывной плотности населения kq -квантиль представляет собой значение данных, в котором кумулятивная функция распределения пересекает k / q . То есть x является kq -квантилем для переменной X, если

Pr [ X < x ] ≤ k / q или, что то же самое, Pr [ Xx ] ≥ 1 - k / q

а также

Pr [ Xx ] ≥ k / q .

Это эквивалентно тому, что x - наименьшее значение такое, что Pr [ Xx ] ≥ k / q . Для конечной совокупности N равновероятных значений, проиндексированных 1,…, N от наименьшего к наибольшему, kq -квантиль этой совокупности может быть эквивалентно вычислена через значение I p = N k / q . Если I p не является целым числом, округлите до следующего целого числа, чтобы получить соответствующий индекс; соответствующее значение данных является kq -квантилем. С другой стороны, если I p является целым числом, то любое число от значения данных в этом индексе до значения данных следующего может быть принято в качестве квантиля, и принято (хотя и произвольно) брать среднее из этих двух значения (см. Оценка квантилей по выборке ).

Если вместо использования целых чисел k и q « p- квантиль» основан на действительном числе p с 0 < p <1, тогда p заменяет k / q в приведенных выше формулах. Эта более широкая терминология используется, когда квантили используются для параметризации непрерывных распределений вероятностей . Более того, некоторые программы (включая Microsoft Excel ) рассматривают минимум и максимум как 0-й и 100-й процентили соответственно. Однако эта более широкая терминология выходит за рамки традиционных статистических определений.

Примеры

В следующих двух примерах используется определение квантиля ближайшего ранга с округлением. Для объяснения этого определения см. Процентили .

Равномерное население

Рассмотрим упорядоченную совокупность из 10 значений данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Что такое 4-квантили («квартили») этого набора данных?

Квартиль Расчет Результат
Нулевой квартиль Хотя это не является общепринятым, можно также говорить о нулевом квартиле. Это минимальное значение набора, поэтому нулевой квартиль в этом примере будет равен 3. 3
Первый квартиль Ранг первого квартиля составляет 10 × (1/4) = 2,5, что округляется до 3, что означает, что 3 - это ранг в генеральной совокупности (от наименьшего к наибольшему значениям), при котором примерно 1/4 значений меньше чем значение первого квартиля. Третье значение в популяции - 7. 7
Второй квартиль Ранг второго квартиля (так же, как и медианы) равен 10 × (2/4) = 5, что является целым числом, в то время как количество значений (10) является четным числом, поэтому среднее значение как для пятого, так и для шестого значения берутся - то есть (8 + 10) / 2 = 9, хотя любое значение от 8 до 10 может быть принято в качестве медианы. 9
Третий квартиль Ранг третьего квартиля составляет 10 × (3/4) = 7,5, что округляется до 8. Восьмое значение в генеральной совокупности - 15. 15
Четвертый квартиль Хотя это не является общепринятым, можно также говорить о четвертом квартиле. Это максимальное значение набора, поэтому четвертый квартиль в этом примере будет равен 20. Согласно определению квантиля ближайшего ранга ранг четвертого квартиля - это ранг самого большого числа, поэтому ранг четвертого квартиля будет быть 10. 20

Итак, первый, второй и третий 4-квантили («квартили») набора данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} - это {7, 9, 15}. Если также требуется, нулевой квартиль равен 3, а четвертый квартиль равен 20.

Нестандартное население

Рассмотрим упорядоченную совокупность из 11 значений данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Что такое 4-квантили («квартили») этого набора данных?

Квартиль Расчет Результат
Нулевой квартиль Хотя это не является общепринятым, можно также говорить о нулевом квартиле. Это минимальное значение набора, поэтому нулевой квартиль в этом примере будет равен 3. 3
Первый квартиль Первый квартиль определяется как 11 × (1/4) = 2,75, что округляется до 3, что означает, что 3 - это ранг в генеральной совокупности (от наименьшего к наибольшему значениям), при котором примерно 1/4 значений меньше, чем значение первого квартиля. Третье значение в популяции - 7. 7
Второй квартиль Значение второго квартиля (то же, что и медиана) определяется как 11 × (2/4) = 5,5, что округляется до 6. Следовательно, 6 - это ранг в генеральной совокупности (от наименьшего к наибольшему значениям), при котором примерно 2 / 4 значения меньше значения второго квартиля (или медианы). Шестое значение в генеральной совокупности - 9. 9
Третий квартиль Значение третьего квартиля для исходного примера выше определяется как 11 × (3/4) = 8,25, что округляется до 9. Девятое значение в генеральной совокупности равно 15. 15
Четвертый квартиль Хотя это не является общепринятым, можно также говорить о четвертом квартиле. Это максимальное значение набора, поэтому четвертый квартиль в этом примере будет равен 20. Согласно определению квантиля ближайшего ранга, ранг четвертого квартиля - это ранг самого большого числа, поэтому ранг четвертого квартиля будет быть 11. 20

Таким образом, первый, второй и третий 4-квантили ("квартили") набора данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} равны {7, 9, 15} . Если также требуется, нулевой квартиль равен 3, а четвертый квартиль - 20.

Отношение к среднему

Для любого распределения вероятностей популяции на конечном числе значений и, как правило, для любого распределения вероятностей со средним значением и дисперсией это тот случай, когда

где Q p - значение p -квантиля для 0 < p <1 (или, что то же самое, kq -квантиль для p = k / q ), где μ - среднее арифметическое распределения , а σ - стандартное отклонение . В частности, медиана ( p = k / q = 1/2) никогда не превышает одного стандартного отклонения от среднего.

Оценка квантилей по выборке

Одна из проблем , которая часто возникает оценивание квантиля (очень больших или бесконечные) населений , основанные на конечную выборке объема N .

Асимптотическое распределение p -го квантиля выборки хорошо известно: оно асимптотически нормально вокруг -го квантиля генеральной совокупности с дисперсией, равной

где f ( x p ) - значение плотности распределения в p -м квантиле населения. Однако это распределение основывается на знании распределения населения; что эквивалентно знанию квантилей населения, которые мы пытаемся оценить! Таким образом, современные статистические пакеты полагаются на другой метод - или выбор методов - для оценки квантилей.

Хайндман и Фан составили таксономию из девяти алгоритмов, используемых различными программными пакетами. Все методы вычисляют Q p , оценку p -квантиля ( kq -квантиль, где p = k / q ) из выборки размера N путем вычисления действительного индекса h . Когда h является целым числом, h -ое наименьшее из N значений, x h , является оценкой квантиля. В противном случае закругления или интерполяция схема используется для вычисления оценки квантиля от ч , х ч и х ч . (Обозначения см. В функциях пола и потолка ).

Первые три являются кусочно-постоянными, резко меняющимися в каждой точке данных, в то время как последние пять используют линейную интерполяцию между точками данных и отличаются только тем, как выбирается индекс h, используемый для выбора точки вдоль кривой кусочно-линейной интерполяции.

Языки программирования Mathematica , Matlab , R и GNU Octave поддерживают все девять примеров методов квантилей. SAS включает пять примеров методов квантилей, SciPy и Maple включают восемь, EViews включает шесть кусочно-линейных функций, Stata включает две, Python включает две, а Microsoft Excel включает две. Mathematica и SciPy поддерживают произвольные параметры для методов, которые допускают использование других нестандартных методов.

Используемые типы оценок и схемы интерполяции включают:

Тип час Q p Примечания
Р ‑ 1, САС ‑ 3, Клен ‑ 1 Np + 1/2 х ч - 1 / 2⌉ Обратная эмпирическая функция распределения .
Р ‑ 2, САС ‑ 5, Клен ‑ 2, Стата Np + 1/2 ( x h - 1 / 2⌉ + x h + 1 / 2⌋ ) / 2 То же, что и Р-1, но с усреднением на несплошностях.
Р-3, САС-2 Np х ч Наблюдение имеет ближайший к Np . Здесь ч указывает округление до ближайшего целого числа, выбирая даже целое число в случае равенства .
R ‑ 4, SAS ‑ 1, SciPy‑ (0,1), Maple ‑ 3 Np x h + ( h - ⌊ h ⌋) ( x h - x h ) Линейная интерполяция эмпирической функции распределения.
Р ‑ 5, SciPy‑ (1 / 2,1 / 2), Клен ‑ 4 Np + 1/2 Кусочно-линейная функция, где узлы - это значения на полпути между шагами эмпирической функции распределения.
R ‑ 6, Excel, Python, SAS ‑ 4, SciPy‑ (0,0), Maple ‑ 5, Stata ‑ altdef ( N + 1) п Линейная интерполяция математических ожиданий для статистики порядка для равномерного распределения на [0,1]. То есть это линейная интерполяция между точками ( p h , x h ) , где p h = h / ( N +1) - вероятность того, что последнее из ( N +1 ) случайно выбранных значений не превысит h - наименьшее из первых N случайно выбранных значений.
R ‑ 7, Excel, Python, SciPy‑ (1,1), Maple ‑ 6, NumPy, Julia ( N - 1) p + 1 Линейная интерполяция режимов для порядковой статистики для равномерного распределения на [0,1].
Р ‑ 8, SciPy‑ (1 / 3,1 / 3), Клен ‑ 7 ( N + 1/3) p + 1/3 Линейная интерполяция приблизительных медиан для статистики заказов.
Р ‑ 9, SciPy‑ (3 / 8,3 / 8), Клен ‑ 8 ( N + 1/4) p + 3/8 Результирующие оценки квантилей приблизительно несмещены для ожидаемой статистики порядка, если x имеет нормальное распределение.

Примечания:

  • От R ‑ 1 до R ‑ 3 кусочно-постоянные, с разрывами.
  • R ‑ 4 и последующие являются кусочно линейными, без разрывов, но отличаются способом вычисления h .
  • R ‑ 3 и R ‑ 4 несимметричны в том смысле, что они не дают h = ( N + 1) / 2 при p = 1/2 .
  • PERCENTILE.EXC в Excel и «эксклюзивный» метод Python по умолчанию эквивалентны R ‑ 6.
  • PERCENTILE и PERCENTILE.INC в Excel и необязательный «включающий» метод Python эквивалентны R ‑ 7. Это метод R по умолчанию.
  • Пакеты отличаются тем , как они оценивают квантили за пределы самых низких и самых высоких значений в выборке, т.е. р <1 / N и р > ( N - 1) / N . Возможные варианты включают возврат значения ошибки, вычисление линейной экстраполяции или принятие постоянного значения.

Из методов Хайндман и Фан рекомендуют R-8, но большинство пакетов статистического программного обеспечения выбрали R-6 или R-7 по умолчанию.

Стандартная ошибка из оценки квантильной в общем случае может быть оценена с помощью начальной загрузки . Также можно использовать метод Марица – Джарретта.

Приблизительные квантили из потока

Вычисление приблизительных квантилей из данных, поступающих из потока, может быть выполнено эффективно с использованием сжатых структур данных. Наиболее популярные методы - t-digest и KLL. Эти методы непрерывно считывают поток значений и в любой момент могут быть запрошены о приблизительном значении указанного квантиля.

Оба алгоритма основаны на схожей идее: сжатие потока значений путем суммирования идентичных или похожих значений с помощью веса. Если поток состоит из 100-кратного повторения v1 и 100-кратного v2, нет причин хранить отсортированный список из 200 элементов, достаточно сохранить два элемента и два счетчика, чтобы можно было восстановить квантили. При большем количестве значений эти алгоритмы поддерживают компромисс между количеством сохраненных уникальных значений и точностью получаемых квантилей. Некоторые значения могут быть исключены из потока и вносить вклад в вес ближайшего значения без значительного изменения результатов квантилей. t-digest использует подход, основанный на кластеризации k-средних, для группировки похожих значений, тогда как KLL использует более сложный метод «уплотнения», который позволяет лучше контролировать границы ошибок.

Оба метода принадлежат к семейству набросков данных, которые являются подмножествами алгоритмов потоковой передачи с полезными свойствами: эскизы t-digest или KLL можно комбинировать. Вычисление эскиза для очень большого вектора значений можно разделить на тривиально параллельные процессы, в которых эскизы вычисляются для параллельных разделов вектора и объединяются позже.

Обсуждение

Например, результаты стандартизированных тестов обычно указываются в виде оценок учащихся «в 80-м процентиле». Здесь используется альтернативное значение слова «процентиль» как интервал между (в данном случае) 80-м и 81-м скалярным процентилем. Это отдельное значение процентиля также используется в рецензируемых научных статьях. Используемое значение может быть получено из его контекста.

Если распределение симметрично, то медиана - это среднее значение (пока последнее существует). Но в целом медиана и среднее значение могут отличаться. Например, для случайной переменной, имеющей экспоненциальное распределение , любая конкретная выборка этой случайной величины будет иметь примерно 63% шанс быть меньше среднего. Это связано с тем, что экспоненциальное распределение имеет длинный хвост для положительных значений и нулевое значение для отрицательных чисел.

Квантили - полезные меры, потому что они менее восприимчивы, чем средние, к распределениям с длинным хвостом и выбросам. Эмпирически, если анализируемые данные на самом деле не распределяются в соответствии с предполагаемым распределением, или если есть другие потенциальные источники выбросов, которые очень далеки от среднего, то квантили могут быть более полезной описательной статистикой, чем средние и другие статистические данные, связанные с моментами. .

С этим тесно связан метод наименьших абсолютных отклонений , метод регрессии, который более устойчив к выбросам, чем метод наименьших квадратов, в котором вместо квадрата ошибки используется сумма абсолютных значений наблюдаемых ошибок. Связь состоит в том, что среднее - это единственная оценка распределения, которая минимизирует ожидаемую квадратичную ошибку, в то время как медиана минимизирует ожидаемую абсолютную ошибку. Наименьшие абсолютные отклонения обладают способностью быть относительно нечувствительными к большим отклонениям в отдаленных наблюдениях, хотя доступны даже лучшие методы надежной регрессии .

Квантили случайной величины сохраняются при возрастающих преобразованиях в том смысле, что, например, если m - медиана случайной величины X , то 2 m - медиана 2 X , если только не был сделан произвольный выбор из диапазон значений для определения определенного квантиля. (См. Квантильную оценку выше для примеров такой интерполяции.) Квантили также можно использовать в случаях, когда доступны только порядковые данные.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки

  • СМИ, связанные с Quantiles, на Викискладе?