Мощность теста - Power of a test

Статистическая мощность теста бинарной гипотезы - это вероятность того, что тест правильно отклоняет нулевую гипотезу ( ), когда конкретная альтернативная гипотеза ( ) верна. Это обычно обозначается как , и представляет шансы «истинно положительного» обнаружения при условии фактического существования обнаруживаемого эффекта. Статистическая мощность варьируется от 0 до 1, и по мере увеличения мощности теста вероятность сделать ошибку типа II из- за ошибочного отказа от отклонения нулевой гипотезы уменьшается.

Обозначение

В этой статье используются следующие обозначения

  • β = вероятность ошибки типа II, известной как «ложноотрицательный»
  • 1-β = вероятность «истинно положительного», т. Е. Правильного отклонения нулевой гипотезы. «1-β» также известен как сила теста.
  • α = вероятность ошибки типа I, известной как «ложное срабатывание».
  • 1-α = вероятность «истинно отрицательного», т. Е. Неправильного отклонения нулевой гипотезы.

Описание

Для вероятности ошибки типа II β соответствующая статистическая мощность равна 1 -  β . Например, если эксперимент E имеет статистическую мощность 0,7, а эксперимент F имеет статистическую мощность 0,95, то существует более высокая вероятность того, что эксперимент E имел ошибку типа II, чем эксперимент F. Это снижает чувствительность эксперимента E для обнаружения значительных эффектов. . Однако эксперимент E, следовательно, более надежен, чем эксперимент F, из-за меньшей вероятности ошибки типа I. Его можно эквивалентно рассматривать как вероятность принятия альтернативной гипотезы ( ), когда она верна, то есть способность теста обнаруживать конкретный эффект, если этот конкретный эффект действительно существует. Таким образом,

Если это не равенство, а просто отрицание (так, например, для некоторого ненаблюдаемого параметра совокупности у нас просто ), то мощность не может быть вычислена, если не известны вероятности для всех возможных значений параметра, которые нарушают нулевую гипотезу. Таким образом, обычно говорят о силе теста против конкретной альтернативной гипотезы .

По мере увеличения мощности уменьшается вероятность ошибки типа II, также называемая ложноотрицательной частотой ( β ), поскольку степень равна 1 -  β . Похожая концепция - это вероятность ошибки типа I , также называемая частотой ложных срабатываний или уровнем теста при нулевой гипотезе.

В контексте бинарной классификации мощность теста называется его статистической чувствительностью , его истинно положительной частотой или вероятностью обнаружения .

Анализ мощности

Связанное с этим понятие - «анализ мощности». Анализ мощности можно использовать для расчета минимального необходимого размера выборки, чтобы можно было с достаточной вероятностью обнаружить эффект заданного размера . Например: «Сколько раз мне нужно подбросить монету, чтобы сделать вывод, что она сфальсифицирована на определенную сумму?» Анализ мощности также можно использовать для расчета минимального размера эффекта, который может быть обнаружен в исследовании с использованием данного размера выборки. Кроме того, понятие мощности используется для сравнения между различными процедурами статистического тестирования: например, между параметрическим тестом и непараметрическим тестом одной и той же гипотезы.

Фон

Статистические тесты используют данные из выборок для оценки или заключения о статистической совокупности . В конкретных условиях сравнения двух выборок цель состоит в том, чтобы оценить, различаются ли средние значения некоторых атрибутов, полученные для лиц в двух подгруппах. Например, чтобы проверить нулевую гипотезу о том, что средние баллы мужчин и женщин по тесту не различаются, составляются выборки мужчин и женщин, им проводится тест, и средний балл одной группы сравнивается со средним баллом одной группы. другая группа с использованием статистического теста , таких как два образца г -TEST . Мощность теста - это вероятность того, что тест обнаружит статистически значимую разницу между мужчинами и женщинами, как функцию размера истинной разницы между этими двумя популяциями.

Факторы, влияющие на мощность

Статистическая мощность может зависеть от ряда факторов. Некоторые факторы могут быть специфичными для конкретной ситуации тестирования, но, как минимум, мощность почти всегда зависит от следующих трех факторов:

Критерий значимости является утверждением о том , как вряд ли положительный результат должен быть, если нулевая гипотеза об отсутствии эффекта, правда, для нулевой гипотеза должна быть отвергнута. Наиболее часто используемые критерии - это вероятности 0,05 (5%, 1 из 20), 0,01 (1%, 1 из 100) и 0,001 (0,1%, 1 из 1000). Если критерий равен 0,05, вероятность того, что данные подразумевают эффект, по крайней мере, такой же большой, как наблюдаемый эффект, когда нулевая гипотеза верна, должна быть меньше 0,05, чтобы нулевая гипотеза об отсутствии эффекта была отклонена. Один из простых способов повысить эффективность теста - провести менее консервативный тест, используя более высокий критерий значимости, например 0,10 вместо 0,05. Это увеличивает вероятность отклонения нулевой гипотезы (получения статистически значимого результата), когда нулевая гипотеза ложна; то есть снижает риск ошибки типа II (ложноотрицательный результат относительно существования эффекта). Но это также увеличивает риск получения статистически значимого результата (отклонение нулевой гипотезы), когда нулевая гипотеза не является ложной; то есть увеличивает риск ошибки типа I (ложное срабатывание).

Величина эффекта интереса в популяции может быть определена количественно с точки зрения величины эффекта , где есть большую мощность , чтобы обнаружить больший эффект. Размер эффекта может быть прямым значением интересующей величины или стандартизированной мерой, которая также учитывает изменчивость в популяции. Например, в анализе, сравнивающем исходы в обработанной и контрольной популяции, разница средних результатов будет прямой оценкой размера эффекта, тогда как это будет оцененная стандартизованная величина эффекта, где - общее стандартное отклонение исходов в обработанные и контрольные группы. При правильном построении стандартизированный размер эффекта вместе с размером выборки полностью определяет мощность. Нестандартизованная (прямая) величина эффекта редко бывает достаточной для определения мощности, поскольку она не содержит информации о вариабельности измерений.

Пример того, как размер выборки влияет на уровни мощности

Размер выборки определяет величину ошибки выборки, присущей результату теста. При прочих равных, эффекты труднее обнаружить в меньших выборках. Увеличение размера выборки часто является самым простым способом повысить статистическую мощность теста. То, как увеличенный размер выборки преобразуется в более высокую степень, является мерой эффективности теста - например, размер выборки, необходимый для данной мощности.

Точность измерения данных также влияет на статистическую мощность. Следовательно, мощность часто можно улучшить за счет уменьшения ошибки измерения данных. Связанная с этим концепция заключается в повышении «надежности» оцениваемого показателя (например, психометрической надежности ).

Дизайн эксперимента или обсервационное исследование часто влияет на власть. Например, в ситуации тестирования с двумя выборками с заданным общим размером выборки n оптимально иметь равное количество наблюдений из двух сравниваемых популяций (при условии, что дисперсия в двух популяциях одинакова). В регрессионном анализе и дисперсионном анализе существуют обширные теории и практические стратегии повышения мощности, основанные на оптимальной установке значений независимых переменных в модели.

Интерпретация

Хотя формальных стандартов мощности (иногда называемых π ) не существует, большинство исследователей оценивают мощность своих тестов, используя π  = 0,80 в качестве стандарта адекватности. Это соглашение подразумевает компромисс «четыре к одному» между β- риском и α- риском. ( β - вероятность ошибки типа II, α - вероятность ошибки типа I; 0,2 и 0,05 - условные значения для β и α ). Однако будут случаи, когда это взвешивание 4: 1 будет неуместным. В медицине, например, тесты часто разрабатываются таким образом, чтобы не было ложноотрицательных результатов (ошибок типа II). Но это неизбежно повышает риск получения ложного срабатывания (ошибка типа I). Причина в том, что лучше сказать здоровому пациенту: «Возможно, мы что-то нашли - давайте проверим дальше», чем сказать больному «все в порядке».

Анализ мощности уместен, когда проблема заключается в правильном отклонении ложной нулевой гипотезы. Во многих контекстах проблема заключается не столько в определении наличия или отсутствия разницы, сколько в получении более точной оценки размера эффекта популяции. Например, если мы ожидали, что корреляция между интеллектом и производительностью труда среди населения составит около 0,50, размер выборки в 20 даст нам примерно 80% мощности ( α  = 0,05, двухсторонний), чтобы отклонить нулевую гипотезу о нулевой корреляции. Однако при проведении этого исследования мы, вероятно, больше заинтересованы в том, чтобы узнать, составляет ли корреляция 0,30, 0,60 или 0,50. В этом контексте нам потребуется гораздо больший размер выборки, чтобы уменьшить доверительный интервал нашей оценки до диапазона, приемлемого для наших целей. Методы, аналогичные тем, которые используются в традиционном анализе мощности, могут использоваться для определения размера выборки, необходимого для того, чтобы ширина доверительного интервала была меньше заданного значения.

Многие статистические анализы включают оценку нескольких неизвестных величин. В простых случаях все эти величины, кроме одной, являются мешающими параметрами . В этом случае единственная релевантная мощность относится к единственной величине, которая будет подвергаться формальному статистическому выводу. В некоторых условиях, особенно если цели более «исследовательские», в анализе может быть ряд интересных величин. Например, в множественный регрессионный анализ мы можем включить несколько ковариат, представляющих потенциальный интерес. В таких ситуациях, как эта, когда рассматривается несколько гипотез, обычно полномочия, связанные с различными гипотезами, различаются. Например, в множественном регрессионном анализе мощность обнаружения эффекта заданного размера связана с дисперсией ковариаты. Поскольку разные ковариаты будут иметь разную дисперсию, их полномочия также будут различаться.

Любой статистический анализ, включающий несколько гипотез, может привести к увеличению количества ошибок типа I, если не будут приняты соответствующие меры. Такие меры обычно включают применение более высокого порога строгости для отклонения гипотезы, чтобы компенсировать множественные сравнения ( например, как в методе Бонферрони ). В этой ситуации анализ мощности должен отражать используемый подход множественного тестирования. Таким образом, например, данное исследование может иметь хорошую мощность для обнаружения определенного размера эффекта, когда должен быть проведен только один тест, но тот же самый размер эффекта может иметь гораздо меньшую мощность, если необходимо выполнить несколько тестов.

Также важно учитывать статистическую мощность проверки гипотез при интерпретации ее результатов. Мощность теста - это вероятность правильного отклонения нулевой гипотезы, если она ложна; Мощность теста зависит от выбора уровня значимости для теста, величины измеряемого эффекта и количества доступных данных. Проверка гипотезы может не отклонить нулевое значение, например, если существует истинное различие между двумя популяциями, сравниваемыми с помощью t-критерия, но эффект невелик, а размер выборки слишком мал, чтобы отличить эффект от случайного совпадения. Например, многие клинические испытания имеют низкую статистическую мощность для выявления различий в побочных эффектах лечения, поскольку такие эффекты могут быть редкими, а количество пораженных пациентов невелико.

Априорный и апостериорный анализ

Анализ мощности может быть выполнен до ( априорный или перспективный анализ мощности) или после сбора данных ( апостериорный или ретроспективный анализ мощности). Априорный анализ мощности проводится до исследования и обычно используется для оценки достаточного размера выборки для достижения адекватной мощности. Апостериорный анализ «наблюдаемой мощности» проводится после того, как исследование было завершено, и использует полученный размер выборки и размер эффекта, чтобы определить, какая мощность была в исследовании, предполагая, что размер эффекта в выборке равен размеру эффекта. в населении. В то время как полезность перспективного анализа мощности в экспериментальном дизайне общепризнана, апостериорный анализ мощности в корне ошибочен. Соблазн использовать статистический анализ собранных данных для оценки мощности приведет к неинформативным и вводящим в заблуждение значениям. В частности, было показано, что апостериорная «наблюдаемая мощность» является однозначной функцией достигнутого p- значения . Это было расширено, чтобы показать, что все апостериорные анализы мощности страдают от так называемого «парадокса силового подхода» (PAP), когда считается, что исследование с нулевым результатом дает больше доказательств того, что нулевая гипотеза действительно верна, когда р -значение меньше, так как полная мощность , чтобы обнаружить реальный эффект будет выше. Фактически, меньшее значение p правильно понимается, чтобы сделать нулевую гипотезу относительно менее верной.

заявка

Финансирующие агентства, советы по этике и комиссии по анализу исследований часто просят исследователя провести анализ мощности, например, чтобы определить минимальное количество испытуемых на животных, необходимое для того, чтобы эксперимент был информативным. В частотной статистике маловероятное исследование вряд ли позволит выбрать между гипотезами на желаемом уровне значимости. В байесовской статистике проверка гипотез типа, используемого в классическом анализе мощности, не проводится. В рамках байесовской модели каждый обновляет свои предыдущие убеждения, используя данные, полученные в данном исследовании. В принципе, исследование, которое будет считаться недостаточным с точки зрения проверки гипотез, все же может быть использовано в таком процессе обновления. Тем не менее, мощность остается полезной мерой того, насколько данный размер эксперимента может улучшить ваши убеждения. Исследование с малой мощностью вряд ли приведет к большому изменению убеждений.

Пример

Ниже приведен пример, показывающий, как вычислить мощность для рандомизированного эксперимента: Предположим, цель эксперимента - изучить влияние лечения на некоторое количество и сравнить объекты исследования, измеряя количество до и после лечения, анализируя данные с использованием парного t-критерия . Пусть и обозначают меры до и после лечения на предмете , соответственно. Возможный эффект лечения должен быть виден в различиях, которые, как предполагается, распределяются независимо, все с одним и тем же ожидаемым средним значением и дисперсией.

Эффект от лечения можно проанализировать с помощью одностороннего t-критерия. Нулевая гипотеза об отсутствии эффекта будет то , что средняя разность будет равна нулю, то есть в этом случае альтернативная гипотеза утверждает , положительный эффект, соответствующий тестовой статистики является:

куда

n - размер выборки и стандартная ошибка. Статистика теста при нулевой гипотезе следует t-распределению Стьюдента с дополнительным предположением, что данные одинаково распределены . Кроме того, предположит , что нулевая гипотеза будет отклонена на уровне значимости из С п велико, можно аппроксимировать Т-распределение по нормальному распределению и вычислить критическое значение , используя функцию квантиля , обратные функции распределения из нормальное распределение. Оказывается, нулевая гипотеза будет отвергнута, если

Теперь предположим, что альтернативная гипотеза верна и . Тогда мощность

При большом п , приблизительно соответствует стандартному нормальному распределению , когда альтернативная гипотеза верна, то приблизительная мощность может быть рассчитана как

Согласно этой формуле, мощность увеличивается со значениями параметра. Для конкретного значения более высокая мощность может быть получена путем увеличения размера выборки n .

Невозможно гарантировать достаточно большую мощность для всех значений as, которые могут быть очень близкими к 0. Минимальное ( infimum ) значение мощности равно доверительному уровню теста, в этом примере 0,05. Однако не важно различать и небольшие положительные значения. Если желательно иметь достаточно мощности, скажем, не менее 0,90, для определения значений требуемый размер выборки можно приблизительно рассчитать:

откуда следует, что

Следовательно, используя функцию квантиля

где - стандартный нормальный квантиль; обратитесь к статье Probit для объяснения взаимосвязи между и z-значениями.

Расширение

Байесовская сила

В частотной настройке предполагается, что параметры имеют определенное значение, что маловероятно. Эту проблему можно решить, если предположить, что параметр имеет распределение. Результирующую мощность иногда называют байесовской мощностью, которая обычно используется при планировании клинических испытаний .

Прогнозируемая вероятность успеха

И частотная, и байесовская власть используют статистическую значимость в качестве критерия успеха. Однако статистической значимости часто недостаточно для определения успеха. Для решения этой проблемы концепцию мощности можно расширить до концепции прогнозируемой вероятности успеха (PPOS). Критерий успеха для PPOS не ограничивается статистической значимостью и обычно используется в клинических исследованиях .

Программное обеспечение для расчета мощности и объема выборки

Для выполнения расчетов мощности и размера выборки доступны многочисленные бесплатные программы и / или программы с открытым исходным кодом. Это включает

  • G * Power ( https://www.gpower.hhu.de/ )
  • WebPower Бесплатный онлайн-статистический анализ мощности ( https://webpower.psychstat.org )
  • Бесплатные онлайн-калькуляторы с открытым исходным кодом ( https://powerandsamplesize.com )
  • PowerUp! предоставляет удобные функции на основе Excel для определения минимального размера обнаруживаемого эффекта и минимально необходимого размера выборки для различных экспериментальных и квазиэкспериментальных планов.
  • PowerUpR - это версия PowerUp в пакете R. и дополнительно включает функции для определения размера выборки для различных многоуровневых рандомизированных экспериментов с бюджетными ограничениями или без них.
  • R пакет pwr
  • R-пакет WebPower
  • Statsmodels пакета Python ( https://www.statsmodels.org/ )

Смотрите также

использованная литература

Источники

  • Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.). ISBN 0-8058-0283-5.
  • Аберсон, CL (2010). Прикладной анализ мощности для поведенческой науки . ISBN 1-84872-835-2.

внешние ссылки