Процентиль - Percentile

В статистике , к -ому процентилю ( процентиль баллов или процентилей ), обозначаемый , является оценкой , ниже которой данный процент к баллам в его распределении частот падает (исключительное определение) или оценка на уровне или ниже которой определенный процент падает (включительно определение). Например, 50-й процентиль ( медиана ) - это балл, ниже которого (исключая) или на уровне или ниже которого (включительно) могут быть найдены 50% баллов в распределении. Процентили выражаются в той же единице измерения, что и входные баллы; например, если баллы относятся к весу человека , соответствующие процентили будут выражены в килограммах или фунтах.

Процентильный балл и процентильный ранг являются взаимосвязанными терминами. Процентильный ранг балла - это процент баллов в его распределении, которые меньше его, исключительное определение, которое может быть выражено одной простой формулой. Процентильные баллы и процентильные ранги часто используются при составлении отчетов о тестовых баллах, полученных в результате нормативных тестов , но, как только что было отмечено, они не совпадают. Для процентильного ранга дается оценка и вычисляется процент. Процентильные ранги являются исключительными. Если процентильный ранг для указанного балла составляет 90%, то 90% баллов были ниже. Напротив, для процентилей указывается процент и определяется соответствующая оценка, которая может быть исключительной или включающей. Оценка для определенного процента (например, 90-е) указывает оценку, ниже которой (исключительное определение) или ниже или ниже (включительное определение) попадают другие оценки в распределении.

25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль - как медиана или второй квартиль ( Q 2 ), а 75-й процентиль - как третий квартиль ( Q 3 ).

Приложения

Когда интернет-провайдеры выставляют счет за «скачкообразную» пропускную способность интернета , 95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности каждый месяц, а затем выставляет счет по ближайшей ставке. Таким образом, нечастые пики игнорируются, и покупатель получает более справедливую оплату. Причина, по которой эта статистика так полезна при измерении пропускной способности данных, заключается в том, что она дает очень точное представление о стоимости полосы пропускания. 95-й процентиль говорит о том, что 95% времени использование ниже этого количества: поэтому в оставшихся 5% времени использование превышает это количество.

Врачи часто используют вес и рост младенцев и детей для оценки их роста по сравнению со средними национальными показателями и процентилями, которые можно найти в диаграммах роста .

85-й процентиль скорости движения на дороге часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такой предел слишком высоким или низким.

В финансах стоимость, подверженная риску, является стандартной мерой для оценки (в зависимости от модели) величины, при которой не ожидается снижения стоимости портфеля в течение заданного периода времени и с учетом значения достоверности.

Нормальное распределение и процентили

Представление правила трех сигм . Темно-синяя зона представляет наблюдения в пределах одного стандартного отклонения (σ) по обе стороны от среднего значения (μ), что составляет около 68,3% населения. Два стандартных отклонения от среднего значения (темно-синий и средний синий) составляют около 95,4%, а три стандартных отклонения (темный, средний и светло-синий) составляют около 99,7%.

Методы, приведенные в разделе определений (ниже), являются приблизительными для использования в статистике малых выборок. В общих чертах, для очень больших популяций, следующих нормальному распределению , процентили часто могут быть представлены ссылкой на график нормальной кривой. Нормальное распределение откладывается по оси с точностью до стандартных отклонений или единиц сигма ( ). Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Обратите внимание, однако, что только очень небольшая часть особей в популяции выйдет за пределы диапазона от –3 σ до +3 σ . Например, с человеческим ростом очень немногие люди превышают уровень роста +3 σ .

Процентили представляют собой площадь под нормальной кривой, увеличивающуюся слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух десятичных знаков, −3 σ - 0,13-й процентиль, −2 σ - 2,28-й процентиль, -1 σ - 15,87-й процентиль, 0 σ - 50-й процентиль (как среднее, так и медиана распределения), + 1 σ - 84,13-й процентиль, +2 σ - 97,72-й процентиль и +3 σ - 99,87-й процентиль. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль находится на отрицательной бесконечности, а 100-й процентиль - на положительной бесконечности, хотя во многих практических приложениях, таких как результаты тестов, естественные нижние и / или верхние пределы являются обязательными.

Определения

Стандартного определения процентиля не существует, однако все определения дают аналогичные результаты, когда количество наблюдений очень велико, а распределение вероятностей является непрерывным. В пределе, когда размер выборки приближается к бесконечности, 100 p- й процентиль (0 < p <1) аппроксимирует обратную величину кумулятивной функции распределения (CDF), сформированной таким образом, вычисленной в p , поскольку p аппроксимирует CDF. Это можно рассматривать как следствие теоремы Гливенко – Кантелли . Некоторые методы расчета процентилей приведены ниже.

Методы расчета

Интерполированный и ближайший ранг, исключительный и включающий процентили для 10-балльного распределения.

Существует множество формул и алгоритмов для оценки процентилей. Хайндман и Фан определили девять и большинство статистических программ и программ для работы с электронными таблицами используют один из методов, которые они описывают. Алгоритмы либо возвращают значение оценки, которая существует в наборе оценок (методы ближайшего ранга), либо интерполируют между существующими оценками и являются либо исключающими, либо включающими.

Методы ближайшего ранга (исключающие / включающие)
ПК: указан процентиль 0,10 0,25 0,50 0,75 0,90
N: количество баллов 10 10 10 10 10
ИЛИ: порядковый номер = ПК × N 1 2,5 5 7,5 9
Ранг:> ИЛИ / ≥ИЛИ 2/1 3/3 6/5 8/8 10/9
Оценка в рейтинге (отл. / Вкл.) 2/1 3/3 4/3 5/5 7/5

На рисунке показано 10-балльное распределение, показаны процентильные баллы, полученные в результате использования этих различных алгоритмов, и он служит введением в приведенные ниже примеры. Самыми простыми являются методы ближайшего ранга, которые возвращают оценку из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. В таблице методов ближайшего ранга показаны этапы вычислений для исключающих и инклюзивных методов.

Интерполированные методы (исключающие / включающие)
ПК: указан процентиль 0,10 0,25 0,50 0,75 0,90
N: количество баллов 10 10 10 10 10
ИЛИ: ПК × (N + 1) / ПК × (N − 1) +1 1,1 / 1,9 2,75 / 3,25 5,5 / 5,5 8,25 / 7,75 9,9 / 9,1
LoRank: ИЛИ усеченный 1/1 2/3 5/5 8/7 9/9
HIRank: ИЛИ округлено 2/2 3/4 6/6 9/8 10/10
LoScore: оценка LoRank 1/1 2/3 3/3 5/4 5/5
HiScore: оценка на HiRank 2/2 3/3 4/4 5/5 7/7
Разница: HiScore - LoScore 1/1 1/0 1/1 0/1 2/2
Мод: дробная часть ИЛИ 0,1 / 0,9 0,75 / 0,25 0,5 / 0,5 0,25 / 0,75 0,9 / 0,1
Интерполированный балл (exc / inc)
= LoScore + Mod × разница
1,1 / 1,9 2,75 / 3 3,5 / 3,5 5 / 4,75 6,8 / 5,2

Методы интерполяции, как следует из названия, могут возвращать оценку, которая находится между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например, функции percentile.exl и percentile.inc в Microsoft Excel. В таблице Interpolated Methods показаны этапы вычислений.

Метод ближайшего ранга

Значения процентилей для упорядоченного списка {15, 20, 35, 40, 50}

Одно определение процентиля, часто приводимое в текстах, заключается в том, что P-й процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) является наименьшим значением в списке, так что строгое не более P процентов данных меньше значения и по крайней мере P процентов данных меньше или равно этому значению. Для этого сначала вычисляется порядковый ранг, а затем берется значение из упорядоченного списка, которое соответствует этому рангу. Порядковое ранга п вычисляется по следующей формуле

Обратите внимание на следующее:

  • Использование метода ближайшего ранга в списках с менее чем 100 различными значениями может привести к тому, что одно и то же значение будет использоваться более чем для одного процентиля.
  • Процентиль, рассчитанный с использованием метода ближайшего ранга, всегда будет членом исходного упорядоченного списка.
  • 100-й процентиль определяется как наибольшее значение в упорядоченном списке.

Рабочие примеры метода ближайшего ранга

Пример 1

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит 5 значений данных. Каковы 5-й, 30-й, 40-й, 50-й и 100-й процентили этого списка с использованием метода ближайшего ранга?

Процентиль
P
Номер в списке
N
Порядковый номер
n
Номер из упорядоченного списка
с таким рангом
Процентильное
значение
Примечания
5-й 5 первое число в упорядоченном списке, то есть 15 15 15 - самый маленький элемент списка; 0% данных строго меньше 15, а 20% данных меньше или равно 15.
30-е 5 2-е число в упорядоченном списке, то есть 20 20 20 - элемент упорядоченного списка.
40-е 5 2-е число в упорядоченном списке, то есть 20 20 В этом примере это то же самое, что и 30-й процентиль.
50-е 5 3-й номер в упорядоченном списке, то есть 35 35 год 35 - элемент упорядоченного списка.
Сотый 5 последний номер в упорядоченном списке, то есть 50 50 100-й процентиль определяется как наибольшее значение в списке, равное 50.

Таким образом, 5-й, 30-й, 40-й, 50-й и 100-й процентили упорядоченного списка {15, 20, 35, 40, 50} с использованием метода ближайшего ранга равны {15, 20, 20, 35, 50}.

Пример 2

Рассмотрим упорядоченную совокупность из 10 значений данных {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Каковы 25-й, 50-й, 75-й и 100-й процентили этого списка с использованием метода ближайшего ранга?

Процентиль
P
Номер в списке
N
Порядковый номер
n
Номер из упорядоченного списка
с таким рангом
Процентильное
значение
Примечания
25-е 10 3-е число в упорядоченном списке, то есть 7 7 7 - элемент списка.
50-е 10 5-е число в упорядоченном списке, то есть 8 8 8 - элемент списка.
75-я 10 8-е число в упорядоченном списке, то есть 15 15 15 - элемент списка.
Сотый 10 Последний 20, последняя цифра в упорядоченном списке. 20 100-й процентиль определяется как наибольшее значение в списке, равное 20.

Таким образом, 25-й, 50-й, 75-й и 100-й процентили упорядоченного списка {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} с использованием метода ближайшего ранга равны {7, 8, 15, 20 }.

Пример 3

Рассмотрим упорядоченную совокупность из 11 значений данных {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Каковы 25-й, 50-й, 75-й и 100-й процентили этого списка с использованием метода ближайшего ранга?

Процентиль
P
Номер в списке
N
Порядковый номер
n
Номер из упорядоченного списка
с таким рангом
Процентильное
значение
Примечания
25-е 11 3-е число в упорядоченном списке, то есть 7 7 7 - элемент списка.
50-е 11 шестой номер в упорядоченном списке, то есть 9 9 9 - элемент списка.
75-я 11 9-е число в упорядоченном списке, то есть 15 15 15 - элемент списка.
Сотый 11 Последний 20, последняя цифра в упорядоченном списке. 20 100-й процентиль определяется как наибольшее значение в списке, равное 20.

Таким образом, 25-й, 50-й, 75-й и 100-й процентили упорядоченного списка {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} с использованием метода ближайшего ранга равны {7, 9, 15 , 20}.

Метод линейной интерполяции между ближайшими рангами

Альтернативой округлению, используемым во многих приложениях, является использование линейной интерполяции между соседними рангами.

Общность вариантов этого метода

Все следующие варианты имеют следующее общее. Учитывая статистику заказа

мы ищем линейную функцию интерполяции, которая проходит через точки . Это просто достигается

where использует функцию floor для представления целой части положительного x , тогда как использует функцию mod для представления его дробной части (остаток после деления на 1). (Обратите внимание , что, хотя в конечной точке , не определен, он не должен быть , потому что умножается .) Как мы можем видеть, х является непрерывной версией индекса я , линейной интерполяции V между соседними узлами.

Вариантные подходы различаются двумя способами. Первый заключается в линейной зависимости между рангом x , процентным рангом и константой, которая является функцией размера выборки N :

Существует дополнительное требование, чтобы средняя точка диапазона , соответствующая медиане , находилась в :

и наша измененная функция теперь имеет только одну степень свободы, которая выглядит так:

Второй способ, которым варианты различаются, заключается в определении функции на границах диапазона p : должно давать или заставлять производить результат в диапазоне , что может означать отсутствие однозначного одна переписка в более широком регионе. Один автор предложил выбрать, где ξ - форма обобщенного распределения экстремальных значений, которое является пределом экстремальных значений выборочного распределения.

Первый вариант, C = 1/2

Результат использования каждого из трех вариантов в упорядоченном списке {15, 20, 35, 40, 50}

(Источники: функция Matlab "prctile",)

куда

Кроме того, пусть

Обратное соотношение ограничено более узкой областью:

Рабочий пример первого варианта

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каковы 5-й, 30-й, 40-й и 95-й процентили этого списка с использованием метода линейной интерполяции между ближайшими рангами? Сначала мы вычисляем процентный рейтинг для каждого значения списка.

Значение списка
Позиция этого значения
в упорядоченном списке
i
Количество значений
N
Расчет
процентного ранга
Процент ранга,
15 1 5 10
20 2 5 30
35 год 3 5 50
40 4 5 70
50 5 5 90

Затем мы берем эти процентные ранги и вычисляем значения процентилей следующим образом:

Процент ранга
P
Количество значений
N
Есть ? Есть ? Есть ли
процентный ранг,
равный P ?
Что мы используем для определения процентиля? Процентильное значение

Примечания
5 5 да Нет Нет Мы видим то , что меньше первого процентного ранга , поэтому используйте первое значение списка, равное 15. 15 15 входит в упорядоченный список
30 5 Нет Нет да Мы видим, что это то же самое, что и второй процентный ранг , поэтому используйте второе значение списка , которое составляет 20. 20 20 входит в упорядоченный список
40 5 Нет Нет Нет Мы видим, что это значение находится между процентом ранга и , поэтому берем
.

Учитывая эти значения, мы можем вычислить v следующим образом:

27,5 27.5 не входит в упорядоченный список
95 5 Нет да Нет Мы видим то , что больше, чем последний процентный ранг , поэтому используйте последнее значение списка, равное 50. 50 50 входит в упорядоченный список

Таким образом, 5-й, 30-й, 40-й и 95-й процентили упорядоченного списка {15, 20, 35, 40, 50} с использованием метода линейной интерполяции между ближайшими рангами равны {15, 20, 27,5, 50}

Второй вариант, C = 1

(Источник: некоторые программные пакеты, включая NumPy и Microsoft Excel (до версии 2013 включительно с помощью функции PERCENTILE.INC). Отмечено NIST в качестве альтернативы )

Обратите внимание, что связь является взаимно однозначной для единственного из трех вариантов с этим свойством; отсюда суффикс «INC» для включения в функции Excel.

Рабочие примеры второго варианта

Пример 1

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каков 40-й процентиль этого списка при использовании этого вариантного метода?

Сначала мы вычисляем ранг 40-го процентиля:

Итак, x = 2,6, что дает нам и . Итак, значение 40-го процентиля равно

Пример 2

Рассмотрим упорядоченный список {1,2,3,4}, который содержит четыре значения данных. Каков 75-й процентиль этого списка при использовании метода Microsoft Excel?

Сначала мы вычисляем ранг 75-го процентиля следующим образом:

Итак, x = 3,25, что дает нам целую часть 3 и дробную часть 0,25. Итак, значение 75-го процентиля равно

Третий вариант, C = 0

(Основной вариант, рекомендованный NIST . Принятый Microsoft Excel с 2010 года с помощью функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т. Е. , Тогда как « Версия INC ", второй вариант, не работает; фактически, любое число меньше, чем также исключается и может вызвать ошибку.)

Обратное ограничено более узкой областью:

Рабочий пример третьего варианта

Рассмотрим упорядоченный список {15, 20, 35, 40, 50}, который содержит пять значений данных. Каков 40-й процентиль этого списка с использованием метода NIST?

Сначала мы вычисляем ранг 40-го процентиля следующим образом:

Итак, x = 2,4, что дает нам и . Таким образом, значение 40-го процентиля рассчитывается как:

Таким образом, значение 40-го процентиля упорядоченного списка {15, 20, 35, 40, 50} при использовании этого варианта метода равно 26.

Метод взвешенных процентилей

В дополнение к функции процентиля существует также взвешенный процентиль , в котором вместо общего числа считается процент от общего веса. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет описанный выше подход.

Предположим, у нас есть положительные веса, связанные, соответственно, с нашими N отсортированными выборочными значениями. Позволять

сумма весов. Затем приведенные выше формулы обобщаются, взяв

когда ,

или

для общего ,

а также

Взвешенный процентиль 50% известен как взвешенная медиана .

Смотрите также

использованная литература