Квартет Анскомба - Anscombe's quartet

Все четыре набора идентичны при рассмотрении с использованием простой сводной статистики, но значительно различаются при отображении на графике.

Квартет Анскомба состоит из четырех наборов данных, которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и сильно различаются на графике . Каждый набор данных состоит из одиннадцати ( x , y ) точек . Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать как важность построения графиков данных перед их анализом, так и влияние выбросов и других важных наблюдений на статистические свойства. Он описал, что эта статья предназначена для того, чтобы опровергнуть впечатление статистиков о том, что «численные расчеты точны, а графики грубые». Он был оформлен как настоящий музыкальный квартет .

Данные

Для всех четырех наборов данных:

Имущество	Ценить	Точность
Среднее из й	9	точный
Образец дисперсия от й : s² _х	11	точный
Среднее значение y	7,50	до 2 знаков после запятой
Выборочная дисперсия y : s² _лет	4,125	± 0,003
Корреляция между x и y	0,816	до 3 знаков после запятой
Линия линейной регрессии	у = 3,00 + 0,500 х	до 2 и 3 знаков после запятой соответственно
Коэффициент детерминации линейной регрессии: ${\ displaystyle R ^ {2}}$	0,67	до 2 знаков после запятой

Первый график разброса (вверху слева) представляет собой простую линейную зависимость , соответствующую двум коррелированным переменным, где y можно моделировать как гауссову со средним значением, линейно зависящим от x .
Второй график (вверху справа) не распределяется нормально; Хотя связь между двумя переменными очевидна, она не является линейной, и коэффициент корреляции Пирсона не имеет значения. Более подходящей была бы более общая регрессия и соответствующий коэффициент детерминации .
На третьем графике (внизу слева) распределение является линейным, но должно иметь другую линию регрессии ( требовалась бы надежная регрессия ). Рассчитанная регрессия компенсируется одним выбросом, который оказывает достаточно влияния, чтобы снизить коэффициент корреляции с 1 до 0,816.
Наконец, четвертый график (внизу справа) показывает пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо взаимосвязь между переменными.

Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных.

Наборы данных следующие. Значения x одинаковы для первых трех наборов данных.

Квартет анскомба
я		II		III		IV
Икс	у	Икс	у	Икс	у	Икс	у
10.0	8,04	10.0	9,14	10.0	7,46	8.0	6.58
8.0	6,95	8.0	8,14	8.0	6,77	8.0	5,76
13,0	7,58	13,0	8,74	13,0	12,74	8.0	7,71
9.0	8,81	9.0	8,77	9.0	7,11	8.0	8,84
11.0	8,33	11.0	9,26	11.0	7,81	8.0	8,47
14.0	9,96	14.0	8.10	14.0	8,84	8.0	7,04
6.0	7,24	6.0	6,13	6.0	6,08	8.0	5,25
4.0	4,26	4.0	3.10	4.0	5,39	19.0	12,50
12.0	10,84	12.0	9,13	12.0	8,15	8.0	5,56
7.0	4.82	7.0	7,26	7.0	6,42	8.0	7,91
5.0	5,68	5.0	4,74	5.0	5,73	8.0	6,89

Неизвестно, как Анскомб создавал свои наборы данных. С момента публикации было разработано несколько методов для создания похожих наборов данных с идентичной статистикой и несходными графиками. Один из них, Дюжина Датазавров , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую же сводную статистику.

Смотрите также

использованная литература

внешние ссылки

Физический факультет Университета Торонто
Динамический апплет, созданный в GeoGebra, показывающий данные и статистику, а также позволяющий перетаскивать точки (Набор 5).
Анимированные примеры от Autodesk под названием «Дюжина датазавров».
Документы для наборов данных в R .

Languages

In other projects

Квартет Анскомба - Anscombe's quartet

СОДЕРЖАНИЕ

Данные

Смотрите также

использованная литература

внешние ссылки