Приближенное байесовское вычисление - Approximate Bayesian computation

Приближенное байесовское вычисление ( ABC ) представляет собой класс вычислительных методов, основанных на байесовской статистике, которые можно использовать для оценки апостериорных распределений параметров модели.

Во всех модели на основе статистических выводов , то функция правдоподобия имеет решающее значение, так как оно выражает вероятность наблюдаемых данных по конкретной статистической модели , и , таким образом , квантифицирует поддержку данных кредитовать конкретные значения параметров и выбор среди различных моделей. Для простых моделей обычно можно получить аналитическую формулу для функции правдоподобия. Однако для более сложных моделей аналитическая формула может быть неуловимой, или вычисление функции правдоподобия может быть очень затратным с вычислительной точки зрения.

Методы ABC обходят оценку функции правдоподобия. Таким образом, методы ABC расширяют сферу моделей, для которых можно рассматривать статистический вывод. Методы ABC математически хорошо обоснованы, но они неизбежно делают предположения и приближения, влияние которых требует тщательной оценки. Кроме того, более широкая область применения ABC усугубляет проблемы оценки параметров и выбора модели .

ABC быстро завоевал популярность в последние годы, в частности, для анализа сложных проблем, возникающих в биологических науках , например, в популяционной генетике , экологии , эпидемиологии , системной биологии и в распространении радиоволн .

История

Первые идеи, связанные с азбукой, относятся к 1980-м годам. Дональд Рубин , обсуждая интерпретацию байесовских утверждений в 1984 году, описал гипотетический механизм выборки, который дает выборку из апостериорного распределения . Эта схема была скорее концептуальным мысленным экспериментом, чтобы продемонстрировать, какие манипуляции выполняются при выводе апостериорного распределения параметров. Описание механизма выборки в точности совпадает с описанием схемы ABC-отклонения , и эту статью можно считать первой, описывающей приближенное байесовское вычисление. Однако двухэтапный квинконс был построен Фрэнсисом Гальтоном в конце 1800-х годов, который можно рассматривать как физическую реализацию схемы отклонения ABC для одного неизвестного (параметра) и одного наблюдения. Еще одно прозорливое замечание было сделано Рубином, когда он утверждал, что в байесовском выводе прикладные статистики не должны довольствоваться только аналитически управляемыми моделями, а вместо этого должны рассматривать вычислительные методы, которые позволяют им оценивать интересующее апостериорное распределение. Таким образом, можно рассмотреть более широкий спектр моделей. Эти аргументы особенно актуальны в контексте ABC.

В 1984 году Питер Диггл и Ричард Граттон предложили использовать схему систематического моделирования для аппроксимации функции правдоподобия в ситуациях, когда ее аналитическая форма неразрешима . Их метод был основан на определении сетки в пространстве параметров и использовании ее для аппроксимации правдоподобия путем запуска нескольких симуляций для каждой точки сетки. Затем приближение было улучшено путем применения методов сглаживания к результатам моделирования. Хотя идея использования моделирования для проверки гипотез не была новой, Диггл и Граттон, по-видимому, представили первую процедуру, использующую моделирование, для статистического вывода в обстоятельствах, когда вероятность неискоренима.

Хотя подход Диггла и Граттона открыл новые границы, их метод еще не был полностью идентичен тому, что сейчас известно как ABC, поскольку он был направлен на аппроксимацию вероятности, а не апостериорного распределения. Статья Саймона Таваре и др. был первым, кто предложил алгоритм ABC для апостериорного вывода. В их основополагающей работе был рассмотрен вывод о генеалогии данных последовательностей ДНК и, в частности, проблема определения апостериорного распределения времени до самого недавнего общего предка отобранных особей. Такой вывод аналитически не поддается анализу для многих демографических моделей, но авторы представили способы моделирования сливающихся деревьев в рамках предполагаемых моделей. Выборка из апостериорных параметров модели была получена путем принятия / отклонения предложений на основе сравнения количества сегрегационных сайтов в синтетических и реальных данных. За этой работой последовало прикладное исследование по моделированию вариаций в Y-хромосоме человека, проведенное Джонатаном К. Притчардом и соавт. используя метод ABC. Наконец, термин приближенное байесовское вычисление был введен Марком Бомонтом и др. , дальнейшее расширение методологии ABC и обсуждение пригодности подхода ABC более конкретно для проблем популяционной генетики. С тех пор ABC распространилась на приложения за пределами популяционной генетики, такие как системная биология, эпидемиология и филогеография .

Метод

Мотивация

Общее воплощение Байеса теорема относится к условной вероятности (или плотность) конкретное значение параметра приведенных данных к вероятности из дали по правилу

,

где обозначает апостериорную, вероятность, априорную и доказательную (также называемую предельным правдоподобием или априорной предсказательной вероятностью данных). Обратите внимание, что знаменатель нормализует полную вероятность апостериорной плотности к единице и может быть вычислен таким образом.

Предыдущее представляет собой убеждения или знания (например, физические ограничения) о том, что было доступно раньше . Поскольку априорная сужает неопределенность, апостериорные оценки имеют меньшую дисперсию, но могут быть смещены. Для удобства априорность часто определяется путем выбора конкретного распределения среди набора хорошо известных и поддающихся обработке семейств распределений, так что как оценка априорных вероятностей, так и случайное генерирование значений являются относительно простыми. Для некоторых видов моделей более прагматично задавать предварительное использование факторизации совместного распределения всех элементов в терминах последовательности их условных распределений. Если вас интересуют только относительные апостериорные вероятности различных значений , свидетельство можно игнорировать, так как оно представляет собой нормирующую константу , которая сокращается для любого отношения апостериорных вероятностей. Однако по-прежнему необходимо оценить вероятность и априорность . Для многих приложений оценка вероятности является дорогостоящей или даже совершенно невыполнимой с точки зрения вычислений, что побуждает использовать ABC для обхода этой проблемы.

Алгоритм отклонения ABC

Все методы на основе ABC аппроксимируют функцию правдоподобия с помощью моделирования, результаты которого сравниваются с наблюдаемыми данными. Более конкретно, с помощью алгоритма отклонения ABC - самой базовой формы ABC - набор точек параметров сначала выбирается из предыдущего распределения. Для заданной точки параметра выборки набор данных затем моделируется в соответствии со статистической моделью, указанной в . Если сгенерированные данные слишком отличаются от наблюдаемых , значение параметра выборки отбрасывается. Точнее говоря, допускается с допуском, если:

,

где мера расстояния определяет уровень расхождения между и на основе данной метрики (например, евклидова расстояния ). Обычно необходим строго положительный допуск, поскольку вероятность того, что результат моделирования точно совпадает с данными (событием ), пренебрежимо мала для всех, кроме тривиальных приложений ABC, что на практике привело бы к отклонению почти всех выбранных точек параметров. Результатом алгоритма отклонения ABC является выборка значений параметров, приблизительно распределенных согласно желаемому апостериорному распределению, и, что особенно важно, полученных без необходимости явно оценивать функцию правдоподобия.

Оценка параметров приближенным байесовским вычислением: концептуальный обзор.

Сводные статистические данные

Вероятность создания набора данных с малым расстоянием до обычно уменьшается по мере увеличения размерности данных. Это приводит к существенному снижению вычислительной эффективности вышеупомянутого базового алгоритма отклонения ABC. Распространенным подходом к уменьшению этой проблемы является замена набора сводных статистических данных более низкого измерения , которые выбираются для сбора соответствующей информации . Критерий приемлемости в алгоритме отклонения ABC становится:

.

Если сводная статистика достаточна по параметрам модели , то повышение эффективности, полученное таким образом, не вносит никакой ошибки. Действительно, по определению, достаточность означает, что вся информация в about улавливается .

Как поясняется ниже , за пределами экспоненциального семейства распределений , как правило, невозможно идентифицировать конечномерный набор достаточной статистики. Тем не менее, информативная, но, возможно, недостаточная сводная статистика часто используется в приложениях, где вывод выполняется с помощью методов ABC.

Пример

Динамическая бистабильная скрытая марковская модель

Наглядным примером является бистабильная система, которая может быть охарактеризована скрытой марковской моделью (HMM), подверженной помехам измерения. Такие модели используются для многих биологических систем: они, например, использовались в разработке, передаче сигналов клеток , активации / деактивации, логической обработке и неравновесной термодинамике . Например, поведение фактора транскрипции Sonic hedgehog (Shh) у Drosophila melanogaster может быть смоделировано с помощью HMM. (Биологическая) динамическая модель состоит из двух состояний: A и B. Если вероятность перехода из одного состояния в другое определяется как в обоих направлениях, то вероятность оставаться в том же состоянии на каждом временном шаге равна . Вероятность правильного измерения состояния равна (и, наоборот, вероятность неправильного измерения равна ).

Из-за условных зависимостей между состояниями в разные моменты времени вычисление вероятности данных временных рядов несколько утомительно, что иллюстрирует мотивацию использования ABC. Вычислительной проблемой для базовой ABC является большая размерность данных в таком приложении. Размерность можно уменьшить с помощью сводной статистики , которая представляет собой частоту переключений между двумя состояниями. Абсолютная разница используется как мера расстояния с допуском . Апостериорный вывод о параметре можно сделать, выполнив пять шагов, представленных в.

Шаг 1. Предположим, что наблюдаемые данные образуют последовательность состояний AAAABAABBAAAAAABAAAA, которая генерируется с использованием и . Соответствующая суммарная статистика - количество переключений между состояниями в экспериментальных данных - составляет .

Шаг 2: Предполагая, что ничего не известно , используется единый априор в интервале . Предполагается, что параметр известен и зафиксирован для значения , генерирующего данные , но, как правило, он также может быть оценен на основе наблюдений. Общее количество точек параметров берутся из предыдущего, и модель моделируется для каждой из точек параметров , что приводит к последовательностям смоделированных данных. В этом примере, с каждым отрисованным параметром и смоделированным набором данных, записанными в таблице 1, столбцы 2-3 . На практике, чтобы получить подходящее приближение , потребуется намного больше.

Пример алгоритма отклонения ABC
я Смоделированные наборы данных (шаг 2) Сводная статистика (шаг 3)
Расстояние (шаг 4)
Результат
(шаг 4)
1 0,08 AABAAAABAABAAABAAAAA 8 2 принято
2 0,68 AABBABABAAABBABABBAB 13 7 отклоненный
3 0,87 BBBABBABBBBABABBBBBA 9 3 отклоненный
4 0,43 AABAAAAABBABBBBBBBBA 6 0 принято
5 0,53 ABBBBBAABBABBABAABBB 9 3 отклоненный

Шаг 3. Суммарная статистика вычисляется для каждой последовательности смоделированных данных .

Шаг 4: Расстояние между наблюдаемыми и смоделированными частотами переходов вычисляется для всех точек параметров. Точки параметров, для которых расстояние меньше или равно , принимаются как приблизительные выборки с апостериорной точки.

Апостериорное значение получено в примере (красный), по сравнению с истинным апостериорным распределением (черный) и моделированием ABC с большим . Использование недостаточной суммарной статистики вносит систематическую ошибку, даже когда требуется (светло-зеленый).

Шаг 5: Апостериорное распределение аппроксимируется принятыми точками параметров. Апостериорное распределение должно иметь значительную вероятность для значений параметров в области, близкой к истинному значению в системе, если данные достаточно информативны. В этом примере масса апостериорной вероятности равномерно разделена между значениями 0,08 и 0,43.

Апостериорные вероятности получаются через ABC с большим путем использования сводной статистики (с и ) и полной последовательности данных (с ). Они сравниваются с истинными апостериорными данными, которые можно точно и эффективно вычислить с помощью алгоритма Витерби . Сводной статистики, используемой в этом примере, недостаточно, поскольку отклонение от теоретического апостериорного значения является значительным даже при строгом требовании . Чтобы получить апостериорную концентрацию вокруг истинного значения .

В этом примере приложения ABC используются упрощения в иллюстративных целях. Более реалистичные приложения ABC доступны во все большем количестве рецензируемых статей.

Сравнение моделей с ABC

Помимо оценки параметров, структура ABC может использоваться для вычисления апостериорных вероятностей различных моделей-кандидатов. В таких приложениях можно использовать иерархическую выборку отбраковки. Во-первых, модель выбирается из предварительного распределения для моделей. Затем параметры выбираются из предыдущего распределения, назначенного этой модели. Наконец, моделирование выполняется так же, как в одномодельном ABC. Относительные частоты принятия для различных моделей теперь аппроксимируют апостериорное распределение для этих моделей. Опять же, были предложены вычислительные усовершенствования для ABC в пространстве моделей, такие как построение фильтра частиц в объединенном пространстве моделей и параметров.

После оценки апостериорных вероятностей моделей можно в полной мере использовать методы сравнения байесовских моделей . Например, чтобы сравнить относительную правдоподобность двух моделей и , можно вычислить их апостериорное отношение, которое связано с байесовским фактором :

.

Если апостериорные факторы модели равны, то есть фактор Байеса равен апостериорному отношению.

На практике, как обсуждается ниже , эти меры могут быть очень чувствительны к выбору параметров априорных распределений и сводной статистики, поэтому выводы сравнения моделей следует делать с осторожностью.

Подводные камни и способы их устранения

Потенциальные риски и средства защиты при статистическом выводе на основе ABC
Источник ошибки Возможная проблема Решение Подраздел
Ненулевой допуск Неточность вносит систематическую ошибку в вычисленное апостериорное распределение. Теоретические / практические исследования чувствительности апостериорного распределения к толерантности. Шумная азбука. # Аппроксимация заднего
Недостаточная сводная статистика Потеря информации приводит к завышению достоверных интервалов. Автоматический выбор / полуавтоматическое определение достаточной статистики. Проверки достоверности модели (например, Templeton 2009). # Выбор и достаточность сводной статистики
Небольшое количество моделей / неправильно указанные модели Исследуемые модели не репрезентативны / не обладают прогностической силой. Тщательный подбор моделей. Оценка предсказательной силы. # Небольшое количество моделей
Приоры и диапазоны параметров Выводы могут быть чувствительны к выбору априори. Выбор модели может быть бессмысленным. Проверить чувствительность байесовских факторов к выбору априорных значений. Имеются некоторые теоретические результаты по выбору априорной точки. Используйте альтернативные методы для проверки модели. # Предварительное распределение и диапазоны параметров
Проклятие размерности Низкие показатели приемлемости параметров. Ошибки модели нельзя отличить от недостаточного изучения пространства параметров. Риск переобучения. Методы редукции модели, если применимо. Способы ускорения исследования параметров. Контроль качества для выявления переобучения. # Проклятие размерности
Рейтинг модели со сводной статистикой Вычисление байесовских факторов в сводной статистике может не быть связано с байесовскими факторами в исходных данных, что, следовательно, может сделать результаты бессмысленными. Используйте только сводные статистические данные, которые удовлетворяют необходимым и достаточным условиям для выбора последовательной байесовской модели. Используйте альтернативные методы для проверки модели. # Коэффициент Байеса с ABC и сводной статистикой
Реализация Низкая защита от общих допущений в процессе моделирования и вывода. Проверка результатов на вменяемость. Стандартизация программного обеспечения. # Обязательный контроль качества

Как и для всех статистических методов, для применения методов, основанных на ABC, к реальным задачам моделирования необходим ряд допущений и приближений. Например, установка параметра допуска на ноль обеспечивает точный результат, но обычно делает вычисления слишком дорогими. Таким образом, на практике используются значения больше нуля, что вносит систематическую ошибку. Аналогичным образом, достаточная статистика обычно недоступна, и вместо нее используется другая сводная статистика, которая вносит дополнительную систематическую ошибку из-за потери информации. Дополнительные источники смещения - например, в контексте выбора модели - могут быть более тонкими.

В то же время некоторые критические замечания, направленные на методы ABC, в частности в области филогеографии , не относятся к ABC и относятся ко всем байесовским методам или даже ко всем статистическим методам (например, выбор априорного распределения и диапазоны параметров). Однако из-за способности ABC-методов работать с гораздо более сложными моделями, некоторые из этих общих ошибок имеют особое значение в контексте анализа ABC.

В этом разделе обсуждаются эти потенциальные риски и рассматриваются возможные способы их устранения.

Аппроксимация заднего

Не пренебрежимо малое имеет цену, из которой выбирают, а не истинную апостериорную оценку . С достаточно малым допуском и разумной мерой расстояния результирующее распределение часто должно достаточно хорошо аппроксимировать фактическое целевое распределение . С другой стороны, допуск, достаточно большой для того, чтобы каждая точка в пространстве параметров принималась, даст копию предыдущего распределения. Существуют эмпирические исследования разницы между и как функции , а также теоретические результаты для верхней границы ошибки в оценках параметров. Также была исследована точность апостериорной (определяемой как ожидаемые квадратичные потери) ABC как функции от . Однако сходимость распределений при приближении к нулю и то, как она зависит от используемой меры расстояния, является важной темой, которую еще предстоит исследовать более подробно. В частности, по-прежнему трудно отделить ошибки, вносимые этим приближением, от ошибок, вызванных неправильной спецификацией модели.

В качестве попытки исправить некоторую ошибку из-за ненулевого значения было предложено использование локальной линейно-взвешенной регрессии с ABC для уменьшения дисперсии апостериорных оценок. Метод назначает веса параметрам в соответствии с тем, насколько хорошо смоделированные сводки соответствуют наблюдаемым, и выполняет линейную регрессию между сводками и взвешенными параметрами вблизи наблюдаемых сводок. Полученные коэффициенты регрессии используются для корректировки параметров выборки в направлении наблюдаемых итогов. Было предложено улучшение в форме нелинейной регрессии с использованием модели нейронной сети с прямой связью. Однако было показано, что апостериорные распределения, полученные с помощью этих подходов, не всегда согласуются с априорным распределением, что действительно привело к переформулировке регрессионной корректировки, которая учитывает априорное распределение.

Наконец, статистический вывод с использованием ABC с ненулевым допуском не является дефектным по своей сути: при допущении ошибок измерения можно показать , что оптимальное значение действительно не равно нулю. Действительно, смещение, вызванное ненулевым допуском, может быть охарактеризовано и компенсировано путем введения определенного вида шума в сводную статистику. Асимптотическая согласованность для такой «зашумленной ABC» была установлена ​​вместе с формулами для асимптотической дисперсии оценок параметров для фиксированного допуска.

Выбор и достаточность сводной статистики

Сводная статистика может использоваться для увеличения степени принятия ABC для данных большой размерности. Достаточная низкоразмерная статистика оптимальна для этой цели, поскольку она фиксирует всю важную информацию, содержащуюся в данных, в простейшей возможной форме. Однако достаточная низкоразмерная статистика обычно недостижима для статистических моделей, где вывод на основе ABC наиболее актуален, и, следовательно, обычно требуется некоторая эвристика для определения полезной сводной низкоразмерной статистики. Использование набора плохо подобранных сводных статистических данных часто приводит к завышению достоверных интервалов из-за подразумеваемой потери информации, что также может искажать дискриминацию между моделями. Доступен обзор методов выбора сводной статистики, который может дать ценные практические рекомендации.

Один из подходов к получению большей части информации, представленной в данных, заключается в использовании большого количества статистических данных, но точность и стабильность ABC, по-видимому, быстро снижается с увеличением количества сводных статистических данных. Вместо этого лучшая стратегия - сосредоточиться только на релевантной статистике - релевантность зависит от всей проблемы вывода, от используемой модели и имеющихся данных.

Был предложен алгоритм для определения репрезентативного подмножества итоговой статистики путем итеративной оценки того, вносит ли дополнительная статистика значимое изменение апостериорной статистики. Одна из проблем здесь заключается в том, что большая ошибка аппроксимации ABC может сильно повлиять на выводы о полезности статистики на любом этапе процедуры. Другой метод состоит из двух основных этапов. Во-первых, эталонное приближение апостериорного строится путем минимизации энтропии . Наборы резюме кандидатов затем оцениваются путем сравнения апостериорных значений, аппроксимируемых ABC, с эталонными апостериорными.

С помощью обеих этих стратегий подмножество статистики выбирается из большого набора статистических данных-кандидатов. Вместо этого метод регрессии частичных наименьших квадратов использует информацию из всех статистических данных кандидатов, каждая из которых имеет соответствующий вес. В последнее время значительный интерес вызывает метод построения сводок полуавтоматическим способом. Этот метод основан на наблюдении, что оптимальный выбор сводной статистики при минимизации квадратичных потерь точечных оценок параметров может быть получен через апостериорное среднее значение параметров, которое аппроксимируется путем выполнения линейной регрессии на основе смоделированных данных. .

Существенную ценность будут иметь методы идентификации сводной статистики, которые также могут одновременно оценить влияние на аппроксимацию апостериорной. Это связано с тем, что выбор сводной статистики и выбор допуска составляют два источника ошибок в результирующем апостериорном распределении. Эти ошибки могут нарушить ранжирование моделей, а также могут привести к неверным прогнозам модели. Действительно, ни один из вышеперечисленных методов не оценивает выбор сводок для целей выбора модели.

Фактор Байеса с ABC и сводной статистикой

Было показано, что сочетание недостаточной сводной статистики и ABC для выбора модели может быть проблематичным. В самом деле, если можно обозначить байесовский фактор, основанный на сводной статистике , как, связь между и примет форму:

.

Таким образом, сводная статистика является достаточным для сравнения двух моделей и , если и только если:

,

что приводит к этому . Из приведенного выше уравнения также ясно, что может быть огромная разница между условием и при его невыполнении, что можно продемонстрировать на игрушечных примерах. Кардинально, это было показано , что достаточность для или в одиночку, или для обеих моделей, не гарантирует достаточность для ранжирования моделей. Однако было также показано, что любая достаточная суммарная статистика для модели, в которой оба и являются вложенными , действительна для ранжирования вложенных моделей .

Таким образом, расчет байесовских факторов может вводить в заблуждение для целей выбора модели, если только соотношение между байесовскими факторами и не будет доступно или, по крайней мере, может быть достаточно хорошо аппроксимировано. В качестве альтернативы, недавно были получены необходимые и достаточные условия для сводной статистики для последовательного выбора байесовской модели, которые могут служить полезным руководством.

Однако этот вопрос актуален только для выбора модели, когда размер данных был уменьшен. Вывод на основе ABC, в котором фактические наборы данных сравниваются напрямую, как в случае некоторых приложений системной биологии (например, см.), Позволяет обойти эту проблему.

Незаменимый контроль качества

Как ясно из приведенного выше обсуждения, любой ABC-анализ требует выбора и компромиссов, которые могут оказать значительное влияние на его результаты. В частности, выбор конкурирующих моделей / гипотез, количество имитаций, выбор сводной статистики или порога приемлемости в настоящее время не может основываться на общих правилах, но влияние этих вариантов следует оценивать и проверять в каждом исследовании.

Было предложено несколько эвристических подходов к контролю качества ABC, таких как количественная оценка доли дисперсии параметра, объясняемой сводной статистикой. Общий класс методов направлен на оценку того, дает ли вывод достоверные результаты, независимо от фактически наблюдаемых данных. Например, учитывая набор значений параметров, которые обычно берутся из априорного или апостериорного распределений модели, можно сгенерировать большое количество искусственных наборов данных. Таким образом, качество и надежность вывода ABC можно оценить в контролируемых условиях, измерив, насколько хорошо выбранный метод вывода ABC восстанавливает истинные значения параметров, а также модели, если одновременно рассматриваются несколько структурно различных моделей.

Другой класс методов оценивает, был ли вывод успешным в свете данных наблюдаемых данных, например, сравнивая апостериорное прогнозирующее распределение суммарной статистики с наблюдаемой суммарной статистикой. Помимо этого, методы перекрестной проверки и прогностические проверки представляют собой многообещающие будущие стратегии для оценки стабильности и прогностической достоверности выводов ABC вне выборки. Это особенно важно при моделировании больших наборов данных, потому что тогда апостериорная поддержка конкретной модели может показаться чрезвычайно убедительной, даже если все предложенные модели на самом деле являются плохим представлением стохастической системы, лежащей в основе данных наблюдений. Прогностические проверки вне выборки могут выявить потенциальные систематические ошибки в модели и дать подсказки о том, как улучшить ее структуру или параметризацию.

Недавно были предложены принципиально новые подходы к выбору модели, которые включают контроль качества как неотъемлемую часть процесса. ABC позволяет путем построения оценить расхождения между наблюдаемыми данными и прогнозами модели в отношении полного набора статистических данных. Эти статистические данные не обязательно совпадают с теми, которые используются в критерии приемки. Полученные распределения несоответствий использовались для выбора моделей, которые согласуются со многими аспектами данных одновременно, а несогласованность моделей обнаруживается из конфликтующих и взаимозависимых сводок. Другой метод выбора модели, основанный на контроле качества, использует ABC для аппроксимации эффективного числа параметров модели и отклонения апостериорных прогнозных распределений сводок и параметров. Затем информационный критерий отклонения используется в качестве меры соответствия модели. Также было показано, что модели, предпочитаемые на основе этого критерия, могут противоречить моделям, поддерживаемым байесовскими факторами . По этой причине для получения правильных выводов полезно комбинировать разные методы выбора модели.

Контроль качества достижим и действительно выполняется во многих работах, основанных на ABC, но для некоторых проблем оценка влияния параметров, связанных с методом, может быть сложной задачей. Однако можно ожидать, что быстро растущее использование ABC обеспечит более полное понимание ограничений и применимости метода.

Общие риски статистического вывода усугубляются в ABC

В этом разделе рассматриваются риски, которые, строго говоря, не относятся к ABC, но также актуальны и для других статистических методов. Однако гибкость, предлагаемая ABC для анализа очень сложных моделей, делает их очень актуальными для обсуждения здесь.

Предварительное распределение и диапазоны параметров

Спецификация диапазона и предварительное распределение параметров сильно выигрывают от предыдущих знаний о свойствах системы. Одна из критических замечаний заключалась в том, что в некоторых исследованиях «диапазоны и распределения параметров только предполагаются на основе субъективного мнения исследователей», что связано с классическими возражениями байесовских подходов.

При любом вычислительном методе обычно необходимо ограничить исследуемые диапазоны параметров. Диапазоны параметров следует, если возможно, определять на основе известных свойств изучаемой системы, но для практических приложений может потребоваться обоснованное предположение. Однако доступны теоретические результаты относительно объективных априорных значений , которые могут, например, основываться на принципе безразличия или принципе максимальной энтропии . С другой стороны, автоматизированные или полуавтоматические методы выбора априорного распределения часто дают неправильную плотность . Поскольку большинство процедур ABC требуют генерации выборок из предшествующих, неправильные априорные значения не применимы напрямую к ABC.

Также следует помнить о цели анализа при выборе априорного распределения. В принципе, неинформативные и плоские априорные значения, которые преувеличивают наше субъективное незнание параметров, все же могут давать разумные оценки параметров. Однако байесовские факторы очень чувствительны к предварительному распределению параметров. Выводы о выборе модели, основанные на факторе Байеса, могут вводить в заблуждение, если тщательно не учитывать чувствительность выводов к выбору априорных значений.

Небольшое количество моделей

Методы, основанные на моделях, подвергались критике за то, что они не исчерпывающе охватывают пространство гипотез. Действительно, исследования на основе моделей часто вращаются вокруг небольшого числа моделей, и из-за высоких вычислительных затрат для оценки одной модели в некоторых случаях может быть трудно охватить большую часть пространства гипотез.

Верхний предел количества рассматриваемых моделей-кандидатов обычно устанавливается значительными усилиями, необходимыми для определения моделей и выбора между множеством альтернативных вариантов. Не существует общепринятой специфической для ABC процедуры построения модели, поэтому вместо нее используются опыт и предварительные знания. Хотя более надежные процедуры для априорного выбора и формулировки модели были бы полезны, не существует универсальной стратегии для разработки моделей в статистике: разумная характеристика сложных систем всегда потребует большой детективной работы и использования экспертов. знания из проблемной области.

Некоторые противники ABC утверждают, что, поскольку только несколько моделей - субъективно выбранных и, вероятно, все неправильные - могут быть реалистично рассмотрены, ABC-анализ дает лишь ограниченное понимание. Однако существует важное различие между выявлением правдоподобной нулевой гипотезы и оценкой относительного соответствия альтернативных гипотез. Поскольку полезные нулевые гипотезы, которые потенциально верны, крайне редко могут быть выдвинуты в контексте сложных моделей, предсказательная способность статистических моделей в качестве объяснения сложных явлений гораздо важнее, чем проверка статистической нулевой гипотезы в этом контексте. Также распространено усреднение по исследуемым моделям, взвешенное на основе их относительной правдоподобности, для определения характеристик модели (например, значений параметров) и для составления прогнозов.

Большие наборы данных

Большие наборы данных могут составлять вычислительное узкое место для методов, основанных на моделях. Было, например, указано, что в некоторых анализах на основе ABC часть данных следует опускать. Ряд авторов утверждали, что большие наборы данных не являются практическим ограничением, хотя серьезность этой проблемы сильно зависит от характеристик моделей. Некоторые аспекты проблемы моделирования могут способствовать сложности вычислений, например, размер выборки, количество наблюдаемых переменных или характеристик, временное или пространственное разрешение и т. Д. Однако с увеличением вычислительной мощности этот вопрос потенциально станет менее важным.

Вместо параметров выборки для каждого моделирования из предыдущего было предложено в качестве альтернативы объединить алгоритм Метрополиса-Гастингса с ABC, что, как сообщалось, привело к более высокому показателю приемлемости, чем для простого ABC. Естественно, такой подход наследует общие трудности методов MCMC, такие как сложность оценки сходимости, корреляции между выборками из апостериорного анализа и относительно плохая возможность распараллеливания.

Аналогичным образом, идеи последовательных методов Монте-Карло (SMC) и популяционного Монте-Карло (PMC) были адаптированы к настройке ABC. Общая идея состоит в том, чтобы итеративно подходить к апостериорному от предыдущего через последовательность целевых распределений. Преимущество таких методов по сравнению с ABC-MCMC состоит в том, что выборки из полученных апостериорных данных независимы. Кроме того, при использовании последовательных методов уровни допуска не должны указываться перед анализом, а должны корректироваться адаптивно.

Относительно просто распараллелить ряд шагов в алгоритмах ABC на основе выборки отбраковки и последовательных методов Монте-Карло . Также было продемонстрировано, что параллельные алгоритмы могут привести к значительному ускорению вывода на основе MCMC в филогенетике, что может быть приемлемым подходом также для методов, основанных на ABC. Тем не менее, адекватная модель сложной системы, скорее всего, потребует интенсивных вычислений независимо от выбранного метода вывода, и выбор метода, подходящего для конкретного рассматриваемого приложения, остается на усмотрение пользователя.

Проклятие размерности

Для высокоразмерных наборов данных и многомерных пространств параметров может потребоваться моделирование чрезвычайно большого количества точек параметров в исследованиях на основе ABC для получения приемлемого уровня точности для апостериорных выводов. В таких ситуациях вычислительные затраты значительно увеличиваются и могут в худшем случае сделать вычислительный анализ трудноразрешимым. Это примеры хорошо известных явлений, которые обычно называют « проклятием размерности» .

Чтобы оценить, насколько сильно размерность набора данных влияет на анализ в контексте ABC, были выведены аналитические формулы для ошибки оценок ABC как функции размерности сводной статистики. Кроме того, Блюм и Франсуа исследовали, как размерность сводной статистики связана со среднеквадратической ошибкой для различных поправок к ошибке оценок ABC. Также утверждалось, что методы уменьшения размерности полезны, чтобы избежать проклятия размерности из-за потенциально низкоразмерной базовой структуры сводной статистики. Стремясь минимизировать квадратичные потери оценок ABC, Фернхед и Прангл предложили схему проецирования (возможно, многомерных) данных в оценки апостериорных средних значений параметра; эти средства, теперь имеющие то же измерение, что и параметры, затем используются в качестве сводной статистики для ABC.

ABC можно использовать для вывода проблем в многомерных пространствах параметров, хотя следует учитывать возможность переобучения (например, см. Методы выбора модели в и). Однако вероятность принятия смоделированных значений параметров при заданном допуске с помощью алгоритма отклонения ABC обычно уменьшается экспоненциально с увеличением размерности пространства параметров (из-за глобального критерия приемлемости). Хотя ни один вычислительный метод (основанный на ABC или нет), кажется, не может разрушить проклятие размерности, недавно были разработаны методы для обработки пространств параметров большой размерности при определенных предположениях (например, на основе полиномиальной аппроксимации на разреженных сетках, что потенциально может значительно сократить время моделирования для ABC). Однако применимость таких методов зависит от конкретной проблемы, и в целом не следует недооценивать сложность исследования пространств параметров. Например, введение детерминированной оценки глобальных параметров привело к сообщениям о том, что глобальные оптимумы, полученные в нескольких предыдущих исследованиях проблем с малой размерностью, были неверными. Поэтому для определенных проблем может быть трудно узнать, является ли модель неправильной или, как обсуждалось выше , является ли исследуемая область пространства параметров неподходящей. Более прагматичные подходы заключаются в сокращении масштабов проблемы за счет сокращения модели, дискретизации переменных и использования канонических моделей, таких как модели с шумом. Шумные модели используют информацию об условной независимости между переменными.

Программное обеспечение

В настоящее время доступен ряд пакетов программного обеспечения для применения ABC к определенным классам статистических моделей.

Программное обеспечение, включающее ABC
Программное обеспечение Ключевые слова и особенности Ссылка
pyABC Фреймворк Python для эффективного распределенного ABC-SMC (последовательный Монте-Карло).
PyMC Пакет Python для байесовского статистического моделирования и вероятностного машинного обучения.
Сделай сам-азбука Программное обеспечение для адаптации генетических данных к сложным ситуациям. Сравнение конкурирующих моделей. Оценка параметров. Вычисление смещения и показателей точности для данной модели и известных значений параметров.

пакет abc R
Несколько алгоритмов ABC для выполнения оценки параметров и выбора модели. Методы нелинейной гетероскедастической регрессии для ABC. Инструмент перекрестной проверки.
Пакет EasyABC
R
Несколько алгоритмов для выполнения эффективных схем выборки ABC, включая 4 последовательные схемы выборки и 3 схемы MCMC.
ABC-SysBio Пакет Python. Вывод параметров и выбор модели динамических систем. Сочетает в себе пробоотборник отклонения ABC, ABC SMC для вывода параметров и ABC SMC для выбора модели. Совместимость с моделями, написанными на языке разметки системной биологии (SBML). Детерминированные и стохастические модели.
ABCtoolbox Программы с открытым исходным кодом для различных алгоритмов ABC, включая выборку отклонения, MCMC без правдоподобия, выборку на основе частиц и ABC-GLM. Совместимость с большинством программ моделирования и расчета сводной статистики.
msBayes Пакет программного обеспечения с открытым исходным кодом, состоящий из нескольких программ C и R, которые запускаются с помощью Perl-интерфейса. Иерархические сливающиеся модели. Генетические данные популяций от нескольких совместно распространенных видов.
PopABC Программный пакет для определения модели демографической дивергенции. Коалесцентное моделирование. Выбор байесовской модели.
ONeSAMP Интернет-программа для оценки эффективного размера популяции на основе выборки микросателлитных генотипов. Оценки эффективной численности населения вместе с 95% достоверными пределами.
ABC4F Программное обеспечение для оценки F-статистики для доминирующих данных.
2BAD Двухэтапная байесовская AD-смесь. Программное обеспечение, позволяющее проводить до двух независимых событий смешивания до трех родительских популяций. Оценка нескольких параметров (примеси, эффективные размеры и т. Д.). Сравнение пар моделей примесей.
ELFI Двигатель для вывода без правдоподобия. ELFI - это пакет статистического программного обеспечения, написанный на Python для приближенных байесовских вычислений (ABC), также известный, например, как вывод без правдоподобия, вывод на основе симулятора, приближенный байесовский вывод и т. Д.
ABCpy Пакет Python для ABC и других схем логического вывода без правдоподобия. Доступно несколько современных алгоритмов. Предоставляет быстрый способ интеграции существующего генеративного (из C ++, R и т. Д.), Удобного для пользователя распараллеливания с использованием MPI или Spark и изучения сводной статистики (с нейронной сетью или линейной регрессией).

Пригодность отдельных пакетов программного обеспечения зависит от конкретного приложения, среды компьютерной системы и требуемых алгоритмов.

Смотрите также

использованная литература

Эта статья была адаптирована из следующего источника по лицензии CC BY 4.0 ( 2013 г. ) ( отчеты рецензента ): Микаэль Суннокер; Альберто Джованни Бузетто; Элина Нумминен; Юкка Корандер; Матье Фолль; Кристоф Дессимо (2013). «Приближенное байесовское вычисление» . PLOS вычислительная биология . 9 (1): e1002803. DOI : 10.1371 / JOURNAL.PCBI.1002803 . ISSN  1553-734X . PMC  3547661 . PMID  23341757 . Викиданные  Q4781761 .

внешние ссылки