Квартет Анскомба - Anscombe's quartet
Квартет Анскомба состоит из четырех наборов данных, которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и сильно различаются на графике . Каждый набор данных состоит из одиннадцати ( x , y ) точек . Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать как важность построения графиков данных перед их анализом, так и влияние выбросов и других важных наблюдений на статистические свойства. Он описал, что эта статья предназначена для того, чтобы опровергнуть впечатление статистиков о том, что «численные расчеты точны, а графики грубые». Он был оформлен как настоящий музыкальный квартет .
Данные
Для всех четырех наборов данных:
Имущество | Ценить | Точность |
---|---|---|
Среднее из й | 9 | точный |
Образец дисперсия от й : s2 х |
11 | точный |
Среднее значение y | 7,50 | до 2 знаков после запятой |
Выборочная дисперсия y : s2 лет |
4,125 | ± 0,003 |
Корреляция между x и y | 0,816 | до 3 знаков после запятой |
Линия линейной регрессии | у = 3,00 + 0,500 х | до 2 и 3 знаков после запятой соответственно |
Коэффициент детерминации линейной регрессии: | 0,67 | до 2 знаков после запятой |
- Первый график разброса (вверху слева) представляет собой простую линейную зависимость , соответствующую двум коррелированным переменным, где y можно моделировать как гауссову со средним значением, линейно зависящим от x .
- Второй график (вверху справа) не распределяется нормально; Хотя связь между двумя переменными очевидна, она не является линейной, и коэффициент корреляции Пирсона не имеет значения. Более подходящей была бы более общая регрессия и соответствующий коэффициент детерминации .
- На третьем графике (внизу слева) распределение является линейным, но должно иметь другую линию регрессии ( требовалась бы надежная регрессия ). Рассчитанная регрессия компенсируется одним выбросом, который оказывает достаточно влияния, чтобы снизить коэффициент корреляции с 1 до 0,816.
- Наконец, четвертый график (внизу справа) показывает пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо взаимосвязь между переменными.
Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных.
Наборы данных следующие. Значения x одинаковы для первых трех наборов данных.
я | II | III | IV | ||||
---|---|---|---|---|---|---|---|
Икс | у | Икс | у | Икс | у | Икс | у |
10.0 | 8,04 | 10.0 | 9,14 | 10.0 | 7,46 | 8.0 | 6.58 |
8.0 | 6,95 | 8.0 | 8,14 | 8.0 | 6,77 | 8.0 | 5,76 |
13,0 | 7,58 | 13,0 | 8,74 | 13,0 | 12,74 | 8.0 | 7,71 |
9.0 | 8,81 | 9.0 | 8,77 | 9.0 | 7,11 | 8.0 | 8,84 |
11.0 | 8,33 | 11.0 | 9,26 | 11.0 | 7,81 | 8.0 | 8,47 |
14.0 | 9,96 | 14.0 | 8.10 | 14.0 | 8,84 | 8.0 | 7,04 |
6.0 | 7,24 | 6.0 | 6,13 | 6.0 | 6,08 | 8.0 | 5,25 |
4.0 | 4,26 | 4.0 | 3.10 | 4.0 | 5,39 | 19.0 | 12,50 |
12.0 | 10,84 | 12.0 | 9,13 | 12.0 | 8,15 | 8.0 | 5,56 |
7.0 | 4.82 | 7.0 | 7,26 | 7.0 | 6,42 | 8.0 | 7,91 |
5.0 | 5,68 | 5.0 | 4,74 | 5.0 | 5,73 | 8.0 | 6,89 |
Неизвестно, как Анскомб создавал свои наборы данных. С момента публикации было разработано несколько методов для создания похожих наборов данных с идентичной статистикой и несходными графиками. Один из них, Дюжина Датазавров , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую же сводную статистику.
Смотрите также
- Исследовательский анализ данных
- Доброта подгонки
- Проверка регрессии
- Парадокс Симпсона
- Проверка статистической модели
использованная литература
внешние ссылки
- Физический факультет Университета Торонто
- Динамический апплет, созданный в GeoGebra, показывающий данные и статистику, а также позволяющий перетаскивать точки (Набор 5).
- Анимированные примеры от Autodesk под названием «Дюжина датазавров».
- Документы для наборов данных в R .