Причинно-следственный график - Causal graph

В статистике, эконометрике, эпидемиологии, генетике и смежных дисциплинах причинно-следственные диаграммы (также известные как диаграммы путей , каузальные байесовские сети или DAG ) представляют собой вероятностные графические модели, используемые для кодирования предположений о процессе генерации данных.

Графики причинно-следственных связей можно использовать для связи и для вывода. Как устройства связи, графики обеспечивают формальное и прозрачное представление причинных предположений, которые исследователи могут пожелать передать и защитить. В качестве инструментов вывода графики позволяют исследователям оценивать величину эффекта на основе неэкспериментальных данных, выводить проверяемые последствия закодированных предположений, проверять внешнюю валидность и управлять отсутствующими данными и смещением выборки.

Причинные графы впервые были использованы генетиком Сьюэлом Райтом в рубрике «путевые диаграммы». Позже они были приняты социологами и, в меньшей степени, экономистами. Эти модели изначально были ограничены линейными уравнениями с фиксированными параметрами. Современные разработки расширили графические модели до непараметрического анализа и, таким образом, достигли универсальности и гибкости, которые преобразовали причинный анализ в компьютерных науках, эпидемиологии и социальных науках.

Строительство и терминология

Причинный граф можно построить следующим образом. Каждая переменная в модели имеет соответствующую вершину или узел, и стрелка проводится от переменной X к переменной Y всякий раз, когда считается, что Y реагирует на изменения в X, когда все другие переменные остаются постоянными. Переменные , связанные с Y через прямые стрелки называются родители из Y , или «прямые причины Y » и обозначаются Па (Y) .

Причинные модели часто включают в себя «условия ошибки» или «пропущенные факторы», которые представляют все неизмеряемые факторы, которые влияют на переменную Y, когда Pa (Y) остается постоянным. В большинстве случаев ошибочные термины исключаются из графика. Однако, если автор графа подозревает, что члены ошибок любых двух переменных являются зависимыми (например, две переменные имеют ненаблюдаемую или скрытую общую причину), то между ними рисуется двунаправленная дуга. Таким образом, наличие скрытых переменных учитывается посредством корреляций, которые они вызывают между ошибочными членами, представленными двунаправленными дугами.

Основные инструменты

Фундаментальным инструментом графического анализа является d-разделение , которое позволяет исследователям путем проверки определить, подразумевает ли причинная структура независимость двух наборов переменных при наличии третьего набора. В рекурсивных моделях без коррелированных членов ошибок (иногда называемых марковскими ) эти условные независимости представляют все проверяемые следствия модели.

Пример

Предположим, мы хотим оценить влияние посещения элитного колледжа на будущие доходы. Простой регресс заработка на рейтинг колледжа не даст объективной оценки целевого эффекта, потому что элитные колледжи очень избирательны, и учащиеся их, вероятно, будут иметь квалификацию для высокооплачиваемой работы до посещения школы. Предполагая, что причинно-следственные связи линейны, эти базовые знания могут быть выражены в следующей спецификации модели структурных уравнений (SEM).

Модель 1

где представляет квалификацию человека до поступления в колледж, представляет квалификацию после колледжа, содержит атрибуты, представляющие качество обучения в колледже и заработную плату человека.

Рисунок 1: Неидентифицированная модель со скрытыми переменными ( и ), показанными явно
Рисунок 2: Неидентифицированная модель с обобщенными скрытыми переменными

Рисунок 1 представляет собой причинно-следственный график, представляющий эту спецификацию модели. Каждая переменная в модели имеет соответствующий узел или вершину в графе. Кроме того, для каждого уравнения стрелки нарисованы от независимых переменных к зависимым переменным. Эти стрелки отражают направление причинно-следственной связи. В некоторых случаях мы можем обозначить стрелку соответствующим структурным коэффициентом, как на рисунке 1.

Если и являются ненаблюдаемых или скрытых переменных их влияние на и может быть связано с их условиями ошибки. Удалив их, мы получим следующую спецификацию модели:

Модель 2

Справочная информация определяется Model 1 следует , что термин ошибка , , коррелирует с термина ошибки с, . В результате мы добавляем двунаправленную дугу между S и C , как на рисунке 2.

Рисунок 3: Идентифицированная модель со скрытыми переменными ( и ), показанными явно
Рисунок 4: Идентифицированная модель с обобщенными скрытыми переменными

Так как коррелирует с , и, следовательно, , является эндогенным и не идентифицированы в модели 2. Однако, если мы включаем силу применения колледжа индивидуума, как показано на рисунке 3, получаем следующую модель:

Модель 3

Удалив скрытые переменные из спецификации модели, мы получим:

Модель 4

с соотносится с .

Теперь определяется и может быть оценено с помощью регрессии на и . Это можно проверить с помощью критерия одной двери , необходимого и достаточного графического условия для идентификации структурных коэффициентов, например , с помощью регрессии.

использованная литература