Модели ошибок в переменных - Errors-in-variables models

В статистике , ошибки-в-переменных модели или измерения модели ошибок являются регрессионные модели , которые учитывают ошибок измерения в независимых переменных . Напротив, стандартные модели регрессии предполагают, что эти регрессоры были точно измерены или наблюдались без ошибок; как таковые, эти модели учитывают только ошибки в зависимых переменных или ответах.

Иллюстрация разбавления регрессии (или систематической ошибки ослабления) с помощью ряда оценок регрессии в моделях с ошибками в переменных. Две линии регрессии (красные) ограничивают диапазон возможностей линейной регрессии. Неглубокий наклон получается, когда независимая переменная (или предиктор) находится на абсциссе (ось x). Более крутой наклон получается, когда независимая переменная находится на ординате (ось y). По соглашению с независимой переменной на оси x получается более пологий наклон. Зеленые контрольные линии - это средние значения в произвольных интервалах по каждой оси. Обратите внимание, что более крутые оценки регрессии для зеленого и красного более согласуются с меньшими ошибками в переменной оси y.

В случае, когда некоторые регрессоры были измерены с ошибками, оценка, основанная на стандартном предположении, приводит к непоследовательным оценкам, что означает, что оценки параметров не стремятся к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффект заключается в занижении коэффициента, известном как смещение затухания . В нелинейных моделях направление смещения, вероятно, будет более сложным.

Мотивирующий пример

Рассмотрим простую модель линейной регрессии вида

где обозначает истинный, но ненаблюдаемый регрессор . Вместо этого мы наблюдаем это значение с ошибкой:

где предполагается, что ошибка измерения не зависит от истинного значения .

Если 's просто регрессируют на ' s (см. Простую линейную регрессию ), то оценка коэффициента наклона будет

который сходится по мере неограниченного увеличения размера выборки :

Вариации неотрицательны, так что в пределе оценка меньше по величине, чем истинное значение , эффект, который статистики называют ослаблением или разбавлением регрессии . Таким образом, «наивная» оценка методом наименьших квадратов несовместима в этой настройке. Однако оценщик является последовательным оценщиком параметра, необходимого для наилучшего линейного предиктора данного : в некоторых приложениях это может быть то, что требуется, а не оценка `` истинного '' коэффициента регрессии, хотя это предполагает, что дисперсия ошибки в наблюдении остаются исправленными. Это непосредственно следует из результата, приведенного непосредственно выше, и того факта, что коэффициент регрессии, связывающий 's с фактически наблюдаемыми ' s, в простой линейной регрессии определяется выражением

Именно этот коэффициент, а не тот, который потребовался бы для построения предиктора на основе наблюдаемого, подверженного шуму.

Можно утверждать, что почти все существующие наборы данных содержат ошибки разной природы и величины, поэтому систематическая ошибка ослабления встречается очень часто (хотя при многомерной регрессии направление систематической ошибки неоднозначно). Джерри Хаусман видит в этом железный закон эконометрики : «Величина оценки обычно меньше ожидаемой».

Технические характеристики

Обычно модели ошибок измерения описываются с использованием подхода скрытых переменных . Если переменная отклика и наблюдаются значения регрессоров, то предполагается , существуют какие - то скрытые переменные и которые следуют «истинной» в модели функциональной зависимости , и таким образом, что наблюдаемые величины их шумные наблюдения:

где находятся в модели параметры и те регрессоры , которые предполагаются свободными от ошибок (например , когда линейная регрессия содержит перехват, регрессор что соответствует константе , безусловно , не имеет «ошибки измерений»). В зависимости от спецификации эти безошибочные регрессоры могут или не могут рассматриваться отдельно; в последнем случае просто предполагается, что соответствующие элементы в матрице дисперсии s равны нулю.

Переменные , , все наблюдали , что означает , что статистик обладает набором данных из статистических единиц , которые следуют за процесс генерирования данных , описанными выше; латентные переменные , , и не наблюдается , однако.

Эта спецификация не охватывает все существующие модели ошибок в переменных. Например, в некоторых из них функция может быть непараметрической или полупараметрической. Другие подходы моделируют отношения между и как распределительные, а не функциональные, то есть они предполагают, что условно on следует за определенным (обычно параметрическим) распределением.

Терминология и предположения

  • Наблюдаемая переменная может называться манифестом , индикатором или косвенной переменной .
  • Ненаблюдаемая переменная может быть названа скрытой или истинной переменной. Его можно рассматривать либо как неизвестную константу (в этом случае модель называется функциональной моделью ), либо как случайную величину (соответственно структурную модель ).
  • Связь между ошибкой измерения и скрытой переменной можно моделировать по-разному:
    • Классические ошибки : ошибки не зависят от скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что ошибки вносятся измерительным устройством и их величина не зависит от измеряемого значения.
    • Независимость от среднего : ошибки равны нулю для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое, поскольку оно допускает наличие гетероскедастичности или других эффектов в ошибках измерения.
    • Ошибки Берксона :ошибки не зависят от наблюдаемого регрессора x . Это предположение имеет очень ограниченную применимость. Одним из примеров являются ошибки округления: например, если возраст человека * является непрерывной случайной величиной , тогда как наблюдаемый возраст усекается до следующего наименьшего целого числа, тогда ошибка усечения приблизительно не зависит от наблюдаемого возраста . Другая возможность связана с экспериментом с фиксированным планом: например, если ученый решает провести измерение в определенный заранее определенный момент времени, скажем, в, тогда реальное измерение может произойти при каком-то другом значении(например, из-за конечного времени реакции ), и такая ошибка измерения обычно не зависит от «наблюдаемого» значения регрессора.
    • Ошибки неправильной классификации : частный случай фиктивных регрессоров . Если это индикатор определенного события или состояния (например, лицо мужского / женского пола, какое-либо лечение было / не предоставлено и т. Д.), То ошибка измерения в таком регрессоре будет соответствовать неправильной классификации, аналогичной типу I и типу II. ошибки в статистическом тестировании. В этом случае ошибка может принимать только 3 возможных значения, а ее условное распределение моделируется двумя параметрами:, и . Необходимым условием идентификации является то , что ошибочная классификация не должна происходить «слишком часто». (Эту идею можно обобщить на дискретные переменные с более чем двумя возможными значениями.)

Линейная модель

Первыми были изучены линейные модели ошибок в переменных, вероятно, потому, что линейные модели были так широко использованы и они легче нелинейных. В отличие от стандартной регрессии методом наименьших квадратов (OLS), расширение ошибок в регрессии переменных (EiV) с простого случая на многомерный не так просто.

Простая линейная модель

Простая линейная модель ошибок в переменных уже была представлена ​​в разделе «мотивация»:

где все переменные скалярны . Здесь α и β представляют собой интересующие параметры, а σ ε и σ η - стандартные отклонения членов ошибки - являются мешающими параметрами . «Истинный» регрессор x * рассматривается как случайная величина ( структурная модель), не зависящая от ошибки измерения η ( классическое допущение).

Эта модель идентифицируемой в двух случаях: (1) либо латентный регрессор х * является не нормально распределены , (2) или х * имеет нормальное распределение, но ни ε т , ни η т делимы нормальным распределением. То есть параметры α , β могут быть последовательно оценены из набора данных без какой-либо дополнительной информации, при условии, что скрытый регрессор не является гауссовским.

До того, как этот результат идентифицируемости был установлен, статистики пытались применить метод максимального правдоподобия , предполагая, что все переменные являются нормальными, а затем пришли к выводу, что модель не идентифицирована. Предлагаемое решение заключалось в том, чтобы предположить, что некоторые параметры модели известны или могут быть оценены из внешнего источника. К таким методам оценки относятся:

  • Регрессия Деминга - предполагается, что отношение δ = σ² ε / σ² η известно. Это может быть подходящим, например, когда ошибки в y и x вызваны измерениями, а точность измерительных устройств или процедур известна. Случай, когда δ = 1, также известен как ортогональная регрессия .
  • Регрессия с известным коэффициентом надежности λ = σ² / ( σ² η + σ² ), где σ² - дисперсия скрытого регрессора. Такой подход может быть применим, например, когда доступны повторяющиеся измерения одного и того же устройства, или когда коэффициент надежности известен из независимого исследования. В этом случае непротиворечивая оценка наклона равна оценке методом наименьших квадратов, деленной на λ .
  • Регрессия с известным σ² η может произойти, если источник ошибок в x известен и их дисперсия может быть вычислена. Это может включать ошибки округления или ошибки, вносимые измерительным устройством. Когда известно σ² η, мы можем вычислить коэффициент надежности как λ = ( σ² x - σ² η ) / σ² x и свести проблему к предыдущему случаю.

Новые методы оценки, которые не предполагают знания некоторых параметров модели, включают:

  • Метод моментов - GMM- оценка, основанная на совместных кумулянтах третьего (или более высокого) порядка наблюдаемых переменных. Коэффициент наклона можно оценить по формуле

    где ( n 1 , n 2 ) таковы, что K ( n 1 +1, n 2 ) - совместный кумулянт ( x , y ) - не равен нулю. В случае, когда третий центральный момент скрытого регрессора x * отличен от нуля, формула сводится к

  • Инструментальные переменные - регрессия, которая требует наличия определенных дополнительных переменных данных z , называемых инструментами . Эти переменные не должны быть коррелированы с ошибками в уравнении для зависимой (итоговой) переменной ( достоверно ), и они также должны быть коррелированы ( релевантны ) с истинными регрессорами x * . Если такие переменные могут быть найдены, то оценка принимает вид

Многопараметрическая линейная модель

Модель с несколькими переменными выглядит точно так же, как простая линейная модель, только на этот раз β , η t , x t и x * t являются векторами k × 1.

В случае, когда ( ε t , η t ) совместно нормально, параметр β не идентифицируется тогда и только тогда, когда существует невырожденная  блочная матрица k × k [ a A ], где a - вектор k × 1, такой что a′x *  распределяется нормально и независимо от  A′x * . В случае, когда ε t , η t1 , ..., η tk взаимно независимы, параметр  β  не идентифицируется тогда и только тогда, когда в дополнение к указанным выше условиям некоторые ошибки могут быть записаны как сумма двух независимых переменных один из которых нормальный.

Некоторые из методов оценивания многомерных линейных моделей:

  • Всего наименьших квадратов - это расширение регрессии Деминга до многомерной настройки. Когда все k +1 компоненты вектора ( ε , η ) имеют равные дисперсии и независимы, это эквивалентно запуску ортогональной регрессии y по вектору x, то есть регрессии, которая минимизирует сумму квадратов расстояний между точек ( y t , x t ) и k -мерной гиперплоскости "наилучшего соответствия".
  • Метод моментов оценки может быть построена на основе условий момента Е [ г т · ( у т - & alpha ; - β'x т )] = 0, где (5 к + 3 ) мерный вектор инструментов г т определен в виде

    где обозначает произведение матриц Адамара , а переменные x t , y t были предварительно обнулены. Авторы метода предлагают использовать модифицированную оценку ВА Фуллера.

    Этот метод может быть расширен для использования моментов выше третьего порядка, если необходимо, и для учета переменных, измеренных без ошибок.
  • Инструментальные переменный подход требует , чтобы найти дополнительные данные переменного г т , которые будут служить в качестве инструментов для mismeasured регрессор х т . Этот метод является наиболее простым с точки зрения реализации, однако его недостатком является то, что он требует сбора дополнительных данных, что может быть дорогостоящим или даже невозможным. Когда инструменты могут быть найдены, оценщик принимает стандартную форму

Нелинейные модели

Общая модель нелинейных ошибок измерения принимает форму

Здесь функция g может быть параметрической или непараметрической. Когда функция g параметрическая, она будет записана как g (x *, β) .

Для общего векторного регрессора x * условия идентифицируемости модели неизвестны. Однако в случае скаляра x * модель идентифицируется, если только функция g не имеет "логарифмически экспоненциальную" форму.

а скрытый регрессор x * имеет плотность

где константы A, B, C, D, E, F могут зависеть от a, b, c, d .

Несмотря на этот оптимистичный результат, в настоящее время не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо посторонней информации. Однако есть несколько методов, которые используют некоторые дополнительные данные: либо инструментальные переменные, либо повторные наблюдения.

Методы инструментальных переменных

  • Метод моделирования моментов Ньюи для параметрических моделей - требует наличия дополнительного набора наблюдаемых переменных-предикторов z t , так что истинный регрессор может быть выражен как

    где π 0 и σ 0 - (неизвестные) постоянные матрицы, а ζ tz t . Коэффициент π 0 можно оценить с помощью стандартной регрессии x по z методом наименьших квадратов . Распределение ζ t неизвестно, однако мы можем смоделировать его как принадлежащее гибкому параметрическому семейству - ряду Эджворта :

    где ϕ - стандартное нормальное распределение.

    Смоделированные моменты могут быть вычислены с использованием алгоритма выборки по важности : сначала мы генерируем несколько случайных величин { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } из стандартного нормального распределения, затем вычисляем моменты при t -м наблюдении как

    где θ = ( β , σ , γ ), A - просто некоторая функция инструментальных переменных z , а H - двухкомпонентный вектор моментов

    С помощью моментных функций m t можно применить стандартную технику GMM для оценки неизвестного параметра θ .

Повторные наблюдения

В этом подходе доступны два (или, может быть, более) повторных наблюдения регрессора x * . Оба наблюдения содержат собственные ошибки измерения, однако эти ошибки должны быть независимыми:

где x *η 1η 2 . Переменные η 1 , η 2 не обязательно должны быть одинаково распределены (хотя, если они являются эффективными оценками, их можно немного улучшить). С помощью только этих двух наблюдений можно последовательно оценить функцию плотности x *, используя технику деконволюции Котлярского .

  • Метод условной плотности Ли для параметрических моделей. Уравнение регрессии можно записать в терминах наблюдаемых переменных как

    где можно было бы вычислить интеграл, если бы мы знали условную функцию плотности ƒ x * | x . Если эта функция может быть известна или оценена, тогда проблема превращается в стандартную нелинейную регрессию, которую можно оценить, например, с помощью метода NLLS .
    Предполагая для простоты, что η 1 , η 2 одинаково распределены, эту условную плотность можно вычислить как

    где с небольшим злоупотреблением обозначениями x j обозначает j -ю компоненту вектора.
    Все плотности в этой формуле можно оценить с помощью обращения эмпирических характеристических функций . В частности,

    Чтобы инвертировать эту характеристическую функцию, необходимо применить обратное преобразование Фурье с параметром обрезки C, необходимым для обеспечения численной стабильности. Например:

  • Оценка Шеннаха для параметрической линейной по параметрам нелинейной модели по переменным. Это модель вида

    где w t представляет переменные, измеренные без ошибок. Регрессор x * здесь является скалярным (метод можно распространить и на случай вектора x * ).
    Если бы не ошибки измерения, это была бы стандартная линейная модель с оценщиком

    где

    Оказывается, все ожидаемые значения в этой формуле можно оценить с помощью одного и того же трюка с деконволюцией. В частности, для общей наблюдаемой w t (которая может быть 1, w 1 t ,…, w ℓ t или y t ) и некоторой функции h (которая может представлять любые g j или g i g j ) мы имеем

    где φ h - преобразование Фурье функции h ( x * ), но с использованием того же соглашения, что и для характеристических функций ,

    ,

    а также

    Полученная оценка непротиворечива и асимптотически нормальна.
  • Оценка Шеннаха для непараметрической модели. Стандартная оценка Надарая – Ватсона для непараметрической модели принимает вид
    при подходящем выборе ядра K и пропускной способности h . Оба ожидания здесь можно оценить с помощью той же методики, что и в предыдущем методе.

Рекомендации

дальнейшее чтение

Внешние ссылки