Статистическая значимость - Statistical significance

При статистической проверке гипотез результат имеет статистическую значимость, когда маловероятно, что он произошел с учетом нулевой гипотезы . Точнее, определенный уровень значимости исследования , обозначенный как , представляет собой вероятность того, что исследование отклонит нулевую гипотезу, учитывая, что нулевая гипотеза предполагалась верной; а p -значение результата является вероятностью получения результата, по крайней мере, такого же экстремального, при условии, что нулевая гипотеза верна. Результат является статистически значимым по стандартам исследования, когда. Уровень значимости для исследования выбирается до сбора данных и обычно устанавливается на 5% или намного ниже - в зависимости от области исследования.

В любом эксперименте или наблюдении, которое включает выборку из совокупности , всегда существует вероятность того, что наблюдаемый эффект произошел бы только из-за ошибки выборки . Но если p- значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции, тем самым отвергая нулевую гипотезу.

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Термин « значимость» здесь не означает важности, а термин « статистическая значимость» - это не то же самое, что и «исследовательская, теоретическая или практическая значимость». Например, термин « клиническая значимость» относится к практической значимости лечебного эффекта.

История

Статистическая значимость восходит к 1700-м годам в работах Джона Арбетнота и Пьера-Симона Лапласа , которые вычислили p- значение для соотношения полов человека при рождении, приняв нулевую гипотезу о равной вероятности мужских и женских рождений; подробности см. в p -value § История .

В 1925 году Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации « Статистические методы для научных работников» . Фишер предложил вероятность один к двадцати (0,05) как удобный уровень отсечения для отклонения нулевой гипотезы. В статье 1933 года Ежи Нейман и Эгон Пирсон назвали это ограничение уровнем значимости , который они назвали . Они рекомендовали сделать это заранее, до сбора каких-либо данных.

Несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 года « Статистические методы и научный вывод» он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами.

Связанные понятия

Уровень значимости - это порог, ниже которого нулевая гипотеза отклоняется, даже если предположение, что она верна, и что-то еще происходит. Это означает, что это также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна. Это также называется ложноположительными и ошибкой типа I .

Иногда вместо этого исследователи говорят об уровне достоверности γ = (1 - α ) . Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна. Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году.

Роль в статистической проверке гипотез

В двустороннем тесте область отклонения для уровня значимости α = 0,05 делится на оба конца выборочного распределения и составляет 5% площади под кривой (белые области).

Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется, чтобы определить, следует ли отклонить нулевую гипотезу или оставить ее. Нулевая гипотеза - это предположение по умолчанию, что ничего не произошло и не изменилось. Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т. Е. Наблюдаемое значение p меньше предварительно заданного уровня значимости .

Чтобы определить, является ли результат статистически значимым, исследователь вычисляет p- значение, которое представляет собой вероятность наблюдения эффекта такой же или более экстремальной величины при условии, что нулевая гипотеза верна. Нулевая гипотеза отвергается , если р -значение меньше (или равно) заранее определенного уровня, . также называется уровнем значимости и представляет собой вероятность отклонения нулевой гипотезы при условии, что она верна ( ошибка типа I ). Обычно устанавливается на уровне 5% или ниже.

Например, когда установлена на 5%, то условная вероятность того, из ошибки типа I , при условии , что нулевая гипотеза верна , составляет 5%, и статистически значимый результат является тот , где наблюдаемым р -значение меньше (или равно к) 5%. При извлечении данных из выборки это означает, что область отклонения составляет 5% распределения выборки . Эти 5% могут быть отнесены к одной стороне выборочного распределения, как в одностороннем тесте , или разделены на обе стороны распределения, как в двустороннем тесте , причем каждый хвост (или область отклонения) содержит 2,5%. распределения.

Использование одностороннего теста зависит от того, определяет ли исследовательский вопрос или альтернативная гипотеза направление, например, тяжелее ли группа предметов или лучше успеваемость учащихся по оценке . Двусторонний тест все еще может использоваться, но он будет менее эффективным, чем односторонний, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше (5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний тест. Односторонний тест более эффективен, чем двусторонний, только если указанное направление альтернативной гипотезы верно. Однако если это неверно, то односторонний тест не имеет силы.

Пороги значимости в определенных областях

В конкретных областях, таких как физика элементарных частиц и производство , статистическая значимость часто выражается в единицах, кратных стандартному отклонению или сигме ( σ ) нормального распределения , при этом пороговые значения значимости устанавливаются на гораздо более строгом уровне (например, 5 σ ). Например, уверенность в существовании частицы бозона Хиггса была основана на критерии 5 σ , что соответствует значению p примерно 1 из 3,5 миллиона.

В других областях научных исследований, таких как полногеномные ассоциации , уровни значимости не превышают5 × 10 −8 не редкость, поскольку количество выполненных тестов чрезвычайно велико.

Ограничения

Исследователи, сосредоточенные исключительно на том, являются ли их результаты статистически значимыми, могут сообщать о выводах, которые не являются существенными и не воспроизводятся. Также существует разница между статистической значимостью и практической значимостью. Статистически значимое исследование не обязательно может иметь практическое значение.

Размер эффекта

Размер эффекта является мерой практической значимости исследования. Статистически значимый результат может иметь слабый эффект. Чтобы оценить значимость результатов для исследований, исследователям рекомендуется всегда сообщать размер эффекта вместе с p-значениями . Мера размера эффекта определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (см . D Коэна ), коэффициент корреляции между двумя переменными или его квадрат и другие меры.

Воспроизводимость

Статистически значимый результат может быть непросто воспроизвести. В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным.

Вызовы

Чрезмерное использование в некоторых журналах

Начиная с 2010-х годов, некоторые журналы начали сомневаться в том, что проверка значимости, особенно с использованием порога α = 5%, слишком сильно используется в качестве основного критерия достоверности гипотезы. Некоторые журналы рекомендовали авторам проводить более подробный анализ, чем просто тест статистической значимости. В области социальной психологии журнал « Базовая и прикладная социальная психология» полностью запретил использование тестирования значимости в опубликованных им статьях, потребовав от авторов использовать другие меры для оценки гипотез и воздействия.

Другие редакторы, комментируя этот запрет, отметили: «Запрет на публикацию p- значений , как это недавно сделала базовая и прикладная социальная психология, не решит проблему, потому что это просто лечение симптома проблемы. В этом нет ничего плохого. с проверкой гипотез и p-значениями как таковыми, если авторы, рецензенты и редакторы действий используют их правильно ». Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или байесовские факторы . Использование байесовской статистики позволяет избежать уровней достоверности, но также требует дополнительных предположений и не обязательно улучшает практику статистического тестирования.

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в метанауке .

Новое определение значения

В 2016 году Американская статистическая ассоциация (ASA) опубликовала заявление о значениях p , в котором говорилось, что «широкое использование« статистической значимости »(обычно интерпретируемой как« p  ≤ 0,05 ») в качестве лицензии на утверждение научных результатов. (или подразумеваемая истина) приводит к значительному искажению научного процесса ". В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив пороговое значение p для статистической значимости с 0,05 до 0,005. Другие исследователи ответили, что установление более строгого порога значимости усугубит такие проблемы, как углубление данных ; Таким образом, альтернативные предложения состоят в том, чтобы выбрать и обосновать гибкие пороговые значения p- значений перед сбором данных или интерпретировать p-значения как непрерывные индексы, тем самым отбросив пороговые значения и статистическую значимость. Кроме того, изменение на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект является реальным, но тест не может его показать.

В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке, а Американская статистическая ассоциация опубликовала еще одно официальное заявление, в котором говорится (стр. 2):

На основании нашего обзора статей в этом специальном выпуске и более широкой литературы мы заключаем, что пора полностью отказаться от термина «статистически значимый». Также не должны сохраняться такие варианты, как «существенно отличается», « » и «несущественно», независимо от того, выражены ли они словами, звездочками в таблице или каким-либо другим образом.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки