Квартет Анскомба - Anscombe's quartet

Все четыре набора идентичны при рассмотрении с использованием простой сводной статистики, но значительно различаются при отображении на графике.

Квартет Анскомба состоит из четырех наборов данных, которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и сильно различаются на графике . Каждый набор данных состоит из одиннадцати ( x , y ) точек . Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать как важность построения графиков данных перед их анализом, так и влияние выбросов и других важных наблюдений на статистические свойства. Он описал, что эта статья предназначена для того, чтобы опровергнуть впечатление статистиков о том, что «численные расчеты точны, а графики грубые». Он был оформлен как настоящий музыкальный квартет .

Данные

Для всех четырех наборов данных:

Имущество Ценить Точность
Среднее из й 9 точный
Образец дисперсия от й  : s2
х
11 точный
Среднее значение y 7,50 до 2 знаков после запятой
Выборочная дисперсия y  : s2
лет
4,125 ± 0,003
Корреляция между x и y 0,816 до 3 знаков после запятой
Линия линейной регрессии у  = 3,00 + 0,500 х до 2 и 3 знаков после запятой соответственно
Коэффициент детерминации линейной регрессии: 0,67 до 2 знаков после запятой
  • Первый график разброса (вверху слева) представляет собой простую линейную зависимость , соответствующую двум коррелированным переменным, где y можно моделировать как гауссову со средним значением, линейно зависящим от  x .
  • Второй график (вверху справа) не распределяется нормально; Хотя связь между двумя переменными очевидна, она не является линейной, и коэффициент корреляции Пирсона не имеет значения. Более подходящей была бы более общая регрессия и соответствующий коэффициент детерминации .
  • На третьем графике (внизу слева) распределение является линейным, но должно иметь другую линию регрессии ( требовалась бы надежная регрессия ). Рассчитанная регрессия компенсируется одним выбросом, который оказывает достаточно влияния, чтобы снизить коэффициент корреляции с 1 до 0,816.
  • Наконец, четвертый график (внизу справа) показывает пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо взаимосвязь между переменными.

Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных.

Наборы данных следующие. Значения x одинаковы для первых трех наборов данных.

Квартет анскомба
я II III IV
Икс у Икс у Икс у Икс у
10.0 8,04 10.0 9,14 10.0 7,46 8.0 6.58
8.0 6,95 8.0 8,14 8.0 6,77 8.0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8.0 7,71
9.0 8,81 9.0 8,77 9.0 7,11 8.0 8,84
11.0 8,33 11.0 9,26 11.0 7,81 8.0 8,47
14.0 9,96 14.0 8.10 14.0 8,84 8.0 7,04
6.0 7,24 6.0 6,13 6.0 6,08 8.0 5,25
4.0 4,26 4.0 3.10 4.0 5,39 19.0 12,50
12.0 10,84 12.0 9,13 12.0 8,15 8.0 5,56
7.0 4.82 7.0 7,26 7.0 6,42 8.0 7,91
5.0 5,68 5.0 4,74 5.0 5,73 8.0 6,89

Неизвестно, как Анскомб создавал свои наборы данных. С момента публикации было разработано несколько методов для создания похожих наборов данных с идентичной статистикой и несходными графиками. Один из них, Дюжина Датазавров , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую ​​же сводную статистику.

Смотрите также

использованная литература

внешние ссылки