Дноуглубительные работы - Data dredging

Пример результата, полученного при извлечении данных, показывающий корреляцию между количеством букв в слове-победителе Scripps National Spelling Bee и количеством людей в Соединенных Штатах, убитых ядовитыми пауками .

Выемка грунт данных (или рыболовные данные , данные Snooping , данные разделка ), также известная как значимости чеканка , значимости квесты , селективный вывод , и р -hacking является злоупотреблением анализа данных , чтобы найти закономерности в данных , которые могут быть представлены в виде статистически значимый , таким образом , резко увеличивая и занижая риск ложных срабатываний. Это достигается путем выполнения множества статистических тестов данных и представления отчетов только о тех, которые возвращаются со значительными результатами.

Процесс извлечения данных включает в себя проверку нескольких гипотез с использованием одного набора данных путем исчерпывающего поиска - возможно, для комбинаций переменных, которые могут показывать корреляцию , и, возможно, для групп случаев или наблюдений, которые показывают различия в их средних значениях или в их разбивке по каким-либо другим параметрам. Переменная.

Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы действовал только случай, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочное отклонение нулевой гипотезы). Этот уровень риска называется значимостью . Когда выполняется большое количество тестов, некоторые из них дают ложные результаты этого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми на 5% уровне значимости, 1% могут (ошибочно) считаться статистически значимыми на уровне значимости 1%, и так далее, только случайно . Когда проверено достаточное количество гипотез, практически очевидно, что некоторые из них будут считаться статистически значимыми (даже если это вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции . Если они не будут осторожны, эти результаты могут легко ввести в заблуждение исследователей, использующих методы интеллектуального анализа данных.

Извлечение данных - это пример игнорирования проблемы множественных сравнений . Одна из форм - это когда подгруппы сравниваются без предупреждения читателя об общем количестве изученных сравнений подгрупп.

Делаем выводы из данных

Традиционная процедура проверки частотной статистической гипотезы состоит в том, чтобы сформулировать исследовательскую гипотезу, например, «люди из более высоких социальных классов живут дольше», затем собрать соответствующие данные с последующим проведением теста статистической значимости, чтобы увидеть, насколько вероятны такие результаты, если бы случай одни были на работе. (Последний шаг называется проверкой нулевой гипотезы .)

Ключевым моментом надлежащего статистического анализа является проверка гипотезы с помощью свидетельств (данных), которые не использовались при построении гипотезы. Это важно, потому что каждый набор данных содержит некоторые закономерности. Если гипотеза не проверяется на другом наборе данных той же статистической совокупности , невозможно оценить вероятность того, что одна только случайность создаст такие закономерности. См. Тестовые гипотезы, предложенные данными .

Вот простой пример. Если подбросить монету пять раз, получив 2 решки и 3 решки, можно предположить, что монета дает решку от 3/5 до 2/5. Если эта гипотеза затем проверяется на существующем наборе данных, она подтверждается, но подтверждение бессмысленно. Надлежащая процедура заключалась бы в том, чтобы заранее сформировать гипотезу о вероятности решки, а затем подбрасывать монету несколько раз, чтобы увидеть, отклоняется ли гипотеза или нет. Если наблюдаются три решки и две решки, может быть сформирована другая гипотеза о том, что вероятность решки равна 3/5, но ее можно проверить только с помощью новой серии подбрасываний монеты. Важно понимать, что статистическая значимость при неправильной процедуре полностью ложна - тесты значимости не защищают от углубления данных.

Гипотеза, выдвинутая на основе нерепрезентативных данных

Предположим, что в исследование случайной выборки людей включены ровно два человека с днем ​​рождения 7 августа: Мэри и Джон. Кто-то, занимающийся отслеживанием данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Пройдя через сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть истинным, почти наверняка можно найти необычное сходство. Возможно, Джон и Мэри - единственные в исследовании, кто трижды менял несовершеннолетних в колледже. Гипотеза, основанная на слежении за данными, могла бы быть такой: «Люди, родившиеся 7 августа, имеют гораздо более высокие шансы сменить несовершеннолетнего более чем дважды в колледже».

Сами данные, вырванные из контекста, можно рассматривать как убедительно подтверждающие эту корреляцию, поскольку никто с другим днем ​​рождения не менял несовершеннолетних трижды в колледже. Однако, если (что вполне вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводиться ; любая попытка проверить, есть ли у других, чей день рождения 7 августа, аналогичная скорость изменения несовершеннолетних, скорее всего, почти сразу же приведет к противоречивым результатам.

Предвзятость

Смещение - это систематическая ошибка анализа. Например, врачи направили пациентов с ВИЧ с высоким риском сердечно-сосудистых заболеваний на конкретное лечение ВИЧ, абакавир , а пациентов с более низким риском - на другие препараты, предотвращая простую оценку абакавира по сравнению с другими видами лечения. Анализ, который не исправил эту предвзятость, несправедливо наказал абакавир, поскольку его пациенты были более подвержены риску, поэтому у большего числа из них были сердечные приступы. Эта проблема может быть очень серьезной, например, при наблюдательном исследовании .

Недостающие факторы, неизмеренные искажающие факторы и отказ от последующего наблюдения также могут привести к смещению. Выбирая статьи со значительным p- значением , отбираются отрицательные исследования, что является предвзятостью публикации . Это также известно как «смещение картотеки», потому что менее значимые результаты p- значения остаются в картотеке и никогда не публикуются.

Множественное моделирование

Другой аспект обусловливания статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. . Решающим шагом в этом процессе является решение, какие ковариаты включить в отношение, объясняющее одну или несколько других переменных. Существуют как статистические (см. Пошаговая регрессия ), так и существенные соображения, которые побуждают авторов отдавать предпочтение одним из своих моделей перед другими, а также существует широкое использование статистических тестов. Однако исключение одной или нескольких переменных из объясняющего отношения на основе данных означает, что нельзя корректно применять стандартные статистические процедуры к оставшимся переменным в отношении, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти какой-то предварительный тест (возможно, неточный интуитивно понятный), что отброшенные переменные не прошли. В 1966 году Селвин и Стюарт сравнили переменные, сохраненные в модели, с рыбой, которая не проваливается через сеть - в том смысле, что их влияние обязательно будет больше, чем влияние тех, которые действительно падают через сеть. Это не только изменяет эффективность всех последующих тестов оставшейся пояснительной модели, но и может внести систематическую ошибку и изменить среднеквадратическую ошибку в оценке.

Примеры в метеорологии и эпидемиологии

В метеорологии гипотезы часто формулируются с использованием данных о погоде до настоящего времени и проверяются на основе данных о погоде в будущем, что гарантирует, что даже подсознательно будущие данные не могут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы показать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной адаптации модели прогноза к имеющимся данным, поскольку информация о предстоящей погоде еще не доступна.

В качестве другого примера предположим, что наблюдатели замечают, что в конкретном городе есть кластер рака , но не имеют твердой гипотезы, почему это так. Однако у них есть доступ к большому количеству демографических данных о городе и его окрестностях, содержащих измерения для области сотен или тысяч различных переменных, в большинстве своем некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная существенно коррелирует с заболеваемостью раком в данной местности. Хотя это может наводить на мысль о гипотезе, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что p -значение 0,01 предполагает, что в 1% случаев результат, по крайней мере, такой экстремальный, будет получен случайно; если проверяются сотни или тысячи гипотез (с относительно некоррелированными между собой независимыми переменными), то для многих нулевых гипотез, вероятно, будет получено значение p меньше 0,01.

средства защиты

Поиск закономерностей в данных является законным. Применение статистической проверки значимости или проверки гипотез к тем же данным, на основе которых возникает закономерность, неверно. Один из способов построить гипотезы, избегая при этом извлечения данных, - это провести рандомизированные тесты вне выборки . Исследователь собирает набор данных, затем случайным образом разделяет его на два подмножества, A и B. Только одно подмножество, скажем, подмножество A, исследуется для создания гипотез. После того, как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только тогда, когда B также поддерживает такую ​​гипотезу, разумно полагать, что гипотеза может быть верной. (Это простой тип перекрестной проверки, который часто называют тренировочным тестом или проверкой с разделением половин.)

Еще одно средство для извлечения данных - записать количество всех тестов значимости, проведенных во время исследования, и просто разделить критерий значимости («альфа») на это число; это поправка Бонферрони . Однако это очень консервативный показатель. Семейная альфа 0,05, разделенная таким образом на 1000, чтобы учесть 1000 тестов значимости, дает очень строгую альфа для каждой гипотезы, равную 0,00005. Методами, особенно полезными для анализа дисперсии и построения одновременных доверительных интервалов для регрессий, включающих базисные функции, являются метод Шеффе и, если исследователь имеет в виду только парные сравнения, метод Тьюки . Использование коэффициента ложных открытий Бенджамини и Хохберга - более сложный подход, который стал популярным методом контроля множественных проверок гипотез.

Когда ни один из подходов являются практичными, можно провести четкое различие между анализом данных, которые подтверждающие и анализами, которые разведочные . Статистический вывод подходит только для первого.

В конечном счете, статистическая значимость теста и статистическая достоверность вывода - это совместные свойства данных и метода, используемого для изучения данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% в 19 случаях из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат находится между 18% и 22% с вероятностью 0,95. Невозможно утверждать о статистической значимости, просто глядя, без должного учета метода, используемого для оценки данных.

Академические журналы все чаще переходят на зарегистрированный формат отчета , который направлен на противодействие очень серьезным проблемам, таким как углубление данных и HARKing , которые сделали исследования по проверке теории очень ненадежными: например, Nature Human Behavior приняла зарегистрированный формат отчета, так как « перенести акцент с результатов исследования на вопросы, лежащие в основе исследования, и методы, используемые для ответа на них ». Европейский журнал Личность определяет этот формат следующим образом : «В зарегистрированном отчете, авторы создают предложение исследования , которое включает теоретический и эмпирический фон, исследовательские вопросы / гипотезу и экспериментальные данные (если таковой имеется). После подачи это предложение будет рассмотрено перед сбором данных, и, если оно будет принято, документ, полученный в результате этой рецензируемой процедуры, будет опубликован независимо от результатов исследования ».

Методы и результаты также могут быть общедоступными, как в подходе открытой науки , что еще больше затрудняет проведение дноуглубительных работ.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки