Систематический отбор проб - Systematic sampling

В методологии обследования , систематическая выборка представляет собой статистический метод с участием выбора элементов из упорядоченной выборки . Наиболее распространенной формой систематической выборки является метод равновероятности . В этом подходе продвижение по списку обрабатывается циклически с возвратом наверх после прохождения конца списка. Выборка начинается с выбора элемента из списка случайным образом, а затем выбирается каждый k- ^й элемент в кадре, где k - интервал выборки (иногда известный как пропуск ): он рассчитывается как:

{\ Displaystyle к = {\ гидроразрыва {N} {п}}}

где n - размер выборки, а N - размер генеральной совокупности.

Используя эту процедуру, каждый элемент в совокупности имеет известную и равную вероятность выбора (также известную как эпсем ). Это делает систематическую выборку функционально похожей на простую случайную выборку (SRS). Однако это не то же самое, что SRS, потому что не каждая возможная выборка определенного размера имеет равные шансы быть выбранной (например, выборки, в которых по крайней мере два соседних элемента никогда не будут выбраны путем систематической выборки). Однако это намного эффективнее (если дисперсия в рамках систематической выборки больше, чем дисперсия генеральной совокупности).

Систематическая выборка должна применяться только в том случае, если данная совокупность логически однородна, поскольку систематические единицы выборки равномерно распределены по совокупности. Исследователь должен убедиться, что выбранный интервал выборки не скрывает закономерность. Любой узор может угрожать случайности.

Пример: предположим, что супермаркет хочет изучить покупательские привычки своих клиентов, а затем, используя систематическую выборку, он может выбрать каждого 10-го или 15-го покупателя, входящего в супермаркет, и провести исследование на этой выборке.

Это случайная выборка с помощью системы. Исходя из основы выборки, начальная точка выбирается случайным образом, а затем выбор осуществляется через равные промежутки времени. Например, предположим, что вы хотите выбрать 8 домов с улицы, состоящей из 120 домов. 120/8 = 15, поэтому каждый 15-й дом выбирается после случайной начальной точки от 1 до 15. Если случайной начальной точкой является 11, то выбираются дома 11, 26, 41, 56, 71, 86, 101 и 116. Кроме того, если каждый 15-й дом был «угловым», то этот угловой узор мог бы разрушить случайность выборки.

Если, что чаще всего, совокупность не делится поровну (предположим, вы хотите выбрать 8 домов из 125, где 125/8 = 15,625), следует ли брать каждый 15-й дом или каждый 16-й дом? Если вы возьмете каждый 16-й дом, 8 * 16 = 128, то есть риск, что последний выбранный дом не существует. С другой стороны, если вы возьмете каждый 15-й дом, 8 * 15 = 120, поэтому последние пять домов никогда не будут выбраны. Вместо этого случайная начальная точка должна быть выбрана как нецелое число от 0 до 15,625 (включительно только для одной конечной точки), чтобы гарантировать, что каждый дом имеет равные шансы быть выбранным; интервал теперь должен быть нецелым (15,625); и каждое выбранное нецелое число следует округлить до следующего целого числа. Если случайная начальная точка - 3,6, то выбраны дома 4, 20, 35, 50, 66, 82, 98 и 113, где есть 3 циклических интервала из 15 и 4 интервала из 16.

Чтобы проиллюстрировать опасность систематических пропусков, скрывающих закономерность, предположим, что мы должны выбрать запланированный район, где на каждой улице есть по десять домов в каждом квартале. Это помещает дома № 1, 10, 11, 20, 21, 30 ... на углы блока; угловые блоки могут быть менее ценными, так как большая часть их площади занята улицами и т. д., которые недоступны для строительства. Если мы затем попробовать каждый дом 10, наш образец либо будет состоять только из угловых домов (если мы начинаем в 1 или 10) или не имеет ни одного угловых домов (любой другой старт); в любом случае он не будет репрезентативным.

Систематическая выборка также может использоваться с неравными вероятностями выбора. В этом случае, вместо того, чтобы просто подсчитывать элементы совокупности и выбирать каждую k- ^ю единицу, мы выделяем каждому элементу пространство вдоль числовой строки в соответствии с его вероятностью выбора. Затем мы генерируем случайное начало из равномерного распределения между 0 и 1 и перемещаемся вдоль числовой линии с шагом 1.

Пример: у нас есть население 5 единиц (от A до E). Мы хотим дать блоку A 20% -ную вероятность выбора, блоку B - 40% -ную вероятность и так далее до блока E (100%). Предполагая, что мы сохраняем алфавитный порядок, мы относим каждую единицу к следующему интервалу:

A: 0 to 0.2
B: 0.2 to 0.6 (= 0.2 + 0.4)
C: 0.6 to 1.2 (= 0.6 + 0.6)
D: 1.2 to 2.0 (= 1.2 + 0.8)
E: 2.0 to 3.0 (= 2.0 + 1.0)

Если бы наше случайное начало было 0,156, мы сначала выбрали бы единицу, интервал которой содержит это число (то есть A). Затем мы должны выбрать интервал, содержащий 1,156 (элемент C), затем 2,156 (элемент E). Если бы вместо этого наше случайное начало было 0,350, мы бы выбрали точки 0,350 (B), 1,350 (D) и 2,350 (E).

Внешние ссылки

TRSL - библиотека выборки диапазона шаблонов - это бесплатная библиотека C ++ с открытым исходным кодом, которая реализует систематическую выборку за (подобным STL) интерфейсом итератора.

Languages

In other projects

Систематический отбор проб - Systematic sampling

Рекомендации

Внешние ссылки