Гетероскедастичность - Heteroscedasticity

График со случайными данными, показывающий гетероскедастичность

В статистике вектор случайных величин является гетероскедастическим (или гетероскедастическим ; от древнегреческого « гетеро » «разный» и скедасис «дисперсия»), если изменчивость случайного возмущения различается по элементам вектора. Здесь изменчивость может быть определена количественно дисперсией или любой другой мерой статистической дисперсии . Таким образом, гетероскедастичность - это отсутствие гомоскедастичности . Типичный пример - совокупность наблюдений за доходами в разных городах.

Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку это делает недействительными статистические тесты значимости , предполагающие, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка методом наименьших квадратов все еще несмещена при наличии гетероскедастичности, она неэффективна, и вместо нее следует использовать обобщенные методы наименьших квадратов .

Поскольку гетероскедастичность касается ожиданий второго момента ошибок, ее наличие упоминается как неправильная спецификация второго порядка.

Эконометрист Роберт Энгл выиграл 2003 премию по экономике памяти Нобеля за исследования регрессионного анализа в присутствии гетероскедастичности, что привело к его формулировке авторегрессии условной гетероскедастичности (ARCH) метод моделирования.

Определение

Рассмотрим уравнение регрессии, в котором зависимая случайная величина равна детерминированной переменной, умноженной на коэффициент, плюс член случайного возмущения , среднее значение которого равно нулю. Нарушения гомоскедастичны, если дисперсия постоянна ; в противном случае они гетероскедастичны. В частности, возмущения являются гетероскедастическими, если дисперсия зависит от i или от значения . Один из способов, которым они могут быть гетероскедастичны, - это if (пример скедастической функции ), поэтому дисперсия пропорциональна значению x.

В более общем смысле, если матрица дисперсии-ковариации возмущений по i имеет непостоянную диагональ, возмущение является гетероскедастическим. Приведенные ниже матрицы представляют собой ковариации, когда имеется всего три наблюдения во времени. Возмущение в матрице A гомоскедастично; это простой случай, когда OLS - лучшая линейная несмещенная оценка. Возмущения в матрицах B и C гетероскедастичны. В матрице B дисперсия изменяется во времени, неуклонно увеличиваясь во времени; в матрице C дисперсия зависит от значения x. Нарушение в матрице D гомоскедастично, потому что диагональные дисперсии постоянны, даже если недиагональные ковариации не равны нулю, а обычный метод наименьших квадратов неэффективен по другой причине: последовательная корреляция.

Последствия

Одно из предположений классической модели линейной регрессии - отсутствие гетероскедастичности. Нарушение этого предположения означает, что теорема Гаусса – Маркова неприменима, а это означает, что оценки OLS не являются лучшими линейными несмещенными оценками (BLUE), и их дисперсия не является самой низкой из всех других несмещенных оценок. Гетероскедастичность не вызывает смещения обычных оценок коэффициентов методом наименьших квадратов, хотя может вызывать смещение обычных оценок дисперсии (и, следовательно, стандартных ошибок) коэффициентов методом наименьших квадратов, возможно, выше или ниже истинного значения дисперсии совокупности. Таким образом, регрессионный анализ с использованием гетероскедастических данных по-прежнему будет обеспечивать беспристрастную оценку взаимосвязи между переменной-предиктором и результатом, но стандартные ошибки и, следовательно, выводы, полученные на основе анализа данных, являются подозрительными. Предвзятые стандартные ошибки приводят к необъективным выводам, поэтому результаты проверки гипотез могут быть неверными. Например, если OLS выполняется на гетероскедастическом наборе данных, что дает предвзятую оценку стандартной ошибки, исследователь может не отклонить нулевую гипотезу на заданном уровне значимости , когда эта нулевая гипотеза на самом деле нехарактерна для реальной популяции (что делает тип II ошибка ).

При определенных предположениях оценщик OLS имеет нормальное асимптотическое распределение при правильной нормализации и центрировании (даже если данные не получены из нормального распределения ). Этот результат используется для обоснования с использованием нормального распределения или распределения хи-квадрат (в зависимости от того, как рассчитывается статистика теста ) при проведении проверки гипотезы . Это справедливо даже при гетероскедастичности. Точнее, оценка МНК при наличии гетероскедастичности является асимптотически нормальной при правильной нормировке и центрировании с матрицей дисперсии-ковариации, которая отличается от случая гомоскедастичности. В 1980 году Уайт предложил последовательную оценку для ковариационно-дисперсионной матрицы асимптотического распределения оценки МНК. Это подтверждает использование проверки гипотез с использованием оценок OLS и оценки дисперсии-ковариации Уайта при гетероскедастичности.

Гетероскедастичность также является важной практической проблемой, возникающей в задачах ANOVA . В некоторых случаях F-тест все еще может использоваться.

Однако было сказано, что изучающие эконометрику не должны слишком остро реагировать на гетероскедастичность. Один автор написал: «Неравномерная дисперсия ошибок стоит исправлять только тогда, когда проблема серьезна». Кроме того, еще одно предостережение было в форме: «гетероскедастичность никогда не была причиной для отказа от хорошей модели». С появлением стандартных ошибок, согласующихся с гетероскедастичностью, позволяющих делать выводы без указания условного второго момента ошибки, проверка условной гомоскедастичности стала не такой важной, как в прошлом.

Однако для любой нелинейной модели (например, моделей Logit и Probit ) гетероскедастичность имеет более серьезные последствия: оценки максимального правдоподобия (MLE) параметров будут смещены, а также непоследовательны (если функция правдоподобия не будет изменена на корректную). учитывать точную форму гетероскедастичности). Тем не менее, в контексте моделей бинарного выбора ( Logit или Probit ) гетероскедастичность приведет только к положительному эффекту масштабирования на асимптотическое среднее значение неправильно заданной MLE (т.е. модели, игнорирующей гетероскедастичность). В результате прогнозы, основанные на неверно заданном MLE, останутся верными. Кроме того, неправильно указанные Probit и Logit MLE будут асимптотически нормально распределены, что позволяет выполнять обычные тесты значимости (с соответствующей матрицей ковариации и дисперсии). Однако, что касается общей проверки гипотез, как указал Грин , «простое вычисление устойчивой ковариационной матрицы для несовместимой в остальном оценки не дает ей оправдания. Следовательно, достоинства надежной ковариационной матрицы в этом случае неясны ».

Обнаружение

Абсолютное значение остатков для смоделированных гетероскедастических данных первого порядка

Существует несколько методов проверки наличия гетероскедастичности. Хотя тесты на гетероскедастичность между группами формально можно рассматривать как частный случай тестирования в рамках регрессионных моделей, некоторые тесты имеют структуру, специфичную для этого случая.

Тесты в регрессии
Тесты для сгруппированных данных

Эти тесты состоят из тестовой статистики (математическое выражение, дающее числовое значение как функция данных), гипотезы, которая будет проверяться ( нулевая гипотеза ), альтернативной гипотезы и утверждения о распределении статистики по нулевая гипотеза.

Во многих вводных книгах по статистике и эконометрике из педагогических соображений эти тесты представлены в предположении, что имеющиеся данные происходят из нормального распределения. Большое заблуждение заключается в том, что это предположение необходимо. Большинство описанных выше методов обнаружения гетероскедастичности можно модифицировать для использования, даже если данные получены не из нормального распределения. Во многих случаях это предположение может быть ослаблено, давая тестовую процедуру, основанную на той же или аналогичной тестовой статистике, но с распределением при нулевой гипотезе, оцениваемым альтернативными способами: например, с использованием асимптотических распределений, которые могут быть получены из асимптотической теории , или используя передискретизацию .

Исправления

Есть пять распространенных поправок на гетероскедастичность. Они есть:

  • Просмотр логарифмированных данных. Нелогарифмированные ряды, которые растут экспоненциально, часто, кажется, имеют увеличивающуюся изменчивость по мере того, как ряды растут с течением времени. Однако вариативность в процентном отношении может быть довольно стабильной.
  • Используйте другую спецификацию для модели (другие переменные X или, возможно, нелинейные преобразования переменных X ).
  • Применение взвешенных наименьших квадратов метод оценки, в котором МНК применяется к трансформированным или взвешенных значений X и Y . Веса варьируются в зависимости от наблюдений, обычно в зависимости от изменяющейся дисперсии ошибок. В одном варианте веса напрямую связаны с величиной зависимой переменной, и это соответствует процентной регрессии наименьших квадратов.
  • Стандартные ошибки, согласованные с гетероскедастичностью (HCSE), хотя и смещены, но улучшают оценки OLS. HCSE - это последовательная оценка стандартных ошибок в регрессионных моделях с гетероскедастичностью. Этот метод корректирует гетероскедастичность без изменения значений коэффициентов. Этот метод может быть лучше обычного OLS, потому что, если присутствует гетероскедастичность, он исправляет ее, однако, если данные гомоскедастичны, стандартные ошибки эквивалентны обычным стандартным ошибкам, оцененным с помощью OLS. Несколько модификаций метода Уайта для вычисления стандартных ошибок, согласующихся с гетероскедастичностью, были предложены как поправки с превосходными свойствами конечной выборки.
  • Используйте MINQUE или даже обычные оценщики (для независимых выборок с наблюдениями каждая), потери эффективности которых несущественны при большом количестве наблюдений на выборку ( ), особенно для небольшого количества независимых выборок.

Примеры

Гетероскедастичность часто возникает, когда наблюдается большая разница в размерах наблюдений.

  • Классический пример гетероскедастичности - это соотношение доходов и расходов на питание. По мере увеличения дохода увеличивается и разнообразие потребления пищи. Более бедный человек будет тратить довольно постоянную сумму, всегда потребляя недорогую еду; более обеспеченный человек может иногда покупать недорогую еду, а иногда есть дорогую еду. Люди с более высокими доходами демонстрируют большую изменчивость в потреблении продуктов питания.
  • Представьте, что вы наблюдаете, как поблизости взлетает ракета, и измеряете пройденное ею расстояние каждую секунду. Скажем, в первые пару секунд ваши измерения могут быть точными до ближайшего сантиметра. Однако через 5 минут, когда ракета удаляется в космос, точность ваших измерений может быть хорошей только до 100 м из-за увеличенного расстояния, атмосферных искажений и множества других факторов. Собранные вами данные будут демонстрировать гетероскедастичность.

Многомерный случай

Исследование гетероскедастичности было обобщено на многомерный случай, который имеет дело с ковариациями векторных наблюдений вместо дисперсии скалярных наблюдений. Одним из вариантов этого является использование ковариационных матриц в качестве многомерной меры дисперсии. Несколько авторов рассматривали тесты в этом контексте как для ситуаций регрессии, так и для ситуаций с сгруппированными данными. Тест Бартлетта на гетероскедастичность между сгруппированными данными, который чаще всего используется в одномерном случае, также был расширен для многомерного случая, но послушное решение существует только для двух групп. Аппроксимации существуют более чем для двух групп, и обе они называются М-тестом Бокса .

Примечания

использованная литература

дальнейшее чтение

Большинство учебников по статистике будут включать по крайней мере некоторые материалы по гетероскедастичности. Вот несколько примеров:

внешние ссылки