Отбор проб отбраковки - Rejection sampling

В численном анализе и вычислительной статистике , отказ выборка является основным методом , используемым для создания наблюдений из в распределении . Его также обычно называют методом принятия-отклонения или «алгоритмом принятия-отклонения» и представляет собой тип точного метода моделирования. Метод работает для любого распределения с плотностью .

Выборка отклонения основана на наблюдении, что для выборки случайной величины в одном измерении можно выполнить равномерно случайную выборку двумерного декартова графика и сохранить выборки в области под графиком ее функции плотности. Обратите внимание, что это свойство может быть расширено до N- мерных функций.

Описание

Чтобы наглядно представить мотивацию выборки отклонения, представьте, что график функции плотности случайной величины наносится на большую прямоугольную доску и бросает в нее дротики. Предположим, что дротики равномерно распределены по доске. Теперь удалите все дротики, которые находятся за пределами области под кривой. Оставшиеся дротики будут равномерно распределены в пределах области под кривой, а положения этих дротиков по оси x будут распределены в соответствии с плотностью случайной переменной. Это потому, что у дротиков больше всего места для приземления там, где кривая наибольшая, и, следовательно, плотность вероятности наибольшая.

Визуализация, как только что описанная, эквивалентна особой форме выборки отклонения, где «распределение предложения» является однородным (следовательно, его график представляет собой прямоугольник). Общая форма выборки отклонения предполагает, что плата не обязательно прямоугольная, но имеет форму в соответствии с плотностью распределения некоторого предложения, из которой мы знаем, как отбирать выборку (например, с использованием инверсионной выборки ), и которая по крайней мере такая же высокая на каждом этапе. в качестве распределения, из которого мы хотим выполнить выборку, так что первое полностью охватывает второе. (В противном случае были бы части изогнутой области, из которых мы хотим получить образец, которые никогда не будут доступны.)

Отбор проб отбраковки работает следующим образом:

  1. Выберите точку на оси x из распределения предложения.
  2. Нарисуйте вертикальную линию в этой позиции x до максимального значения y функции плотности вероятности распределения предложения.
  3. Равномерно выполните выборку по этой линии от 0 до максимума функции плотности вероятности. Если значение выборки больше, чем значение желаемого распределения на этой вертикальной линии, отклоните значение x и вернитесь к шагу 1; иначе значение x является выборкой из желаемого распределения.

Этот алгоритм можно использовать для выборки из области под любой кривой, независимо от того, интегрируется ли функция в 1. Фактически, масштабирование функции с помощью константы не влияет на выбранные позиции по оси x. Таким образом, алгоритм может использоваться для выборки из распределения, нормирующая константа которого неизвестна, что является обычным явлением в статистике вычислений .

Теория

Метод отклонения выборки генерирует выборочные значения из целевого распределения с произвольной функцией плотности вероятности с использованием распределения предложения с плотностью вероятности . Идея состоит в том, что можно сгенерировать значение выборки, взяв вместо этого выборку из и приняв выборку с вероятностью , повторяя выборки от до тех пор, пока значение не будет принято. здесь является константой, конечная границей отношения правдоподобия , удовлетворяющий по поддержке из ; другими словами, M должен удовлетворять для всех значений . Обратите внимание, что для этого требуется, чтобы поддержка включала поддержку - другими словами, всякий раз , когда .

Подтверждением этого метода является принцип конверта: при моделировании пары создается однородная симуляция над подграфом . Принимая только пары, которые затем производят пары, равномерно распределенные по подграфу, и, таким образом, незначительно, симуляция из

Это означает, что при достаточном количестве реплик алгоритм генерирует выборку из желаемого распределения . У этого алгоритма есть ряд расширений, например, алгоритм Метрополиса .

Этот метод относится к общей области методов Монте-Карло , включая алгоритмы Монте-Карло цепи Маркова, которые также используют прокси-распределение для моделирования из целевого распределения . Он составляет основу таких алгоритмов, как алгоритм Метрополиса .

Вероятность безусловной приемки - это доля предложенных образцов, которые приняты, т.е.

где , и значение каждого времени генерируется под функцией плотности распределения предложения .

Таким образом, количество выборок, необходимых для получения принятого значения, следует геометрическому распределению с вероятностью , которая имеет среднее значение . Интуитивно это ожидаемое количество необходимых итераций как мера вычислительной сложности алгоритма.

Перепишите приведенное выше уравнение,

Обратите внимание, что из-за приведенной выше формулы, где - вероятность, которая может принимать значения только в интервале . Когда выбирается ближе к единице, вероятность безусловного принятия тем выше, чем меньше изменяется это отношение, поскольку это верхняя граница отношения правдоподобия . На практике значение, близкое к 1, является предпочтительным, поскольку оно подразумевает в среднем меньшее количество отклоненных выборок и, следовательно, меньшее количество итераций алгоритма. В этом смысле предпочтение отдается как можно меньшему размеру (но при этом удовлетворительно , что предполагает, что это в целом должно в чем-то напоминать . Однако обратите внимание, что это не может быть равно 1: это будет означать, что , т. Е. Целевое распределение и распределение предложений фактически одно и то же распределение.

Отбор проб отбраковки чаще всего используется в тех случаях, когда форма отбора проб затрудняет. Одна итерация алгоритма отклонения требует выборки из распределения предложения, извлечения из равномерного распределения и оценки выражения. Таким образом, отбор с отбраковкой более эффективен, чем какой-либо другой метод, когда M-кратная стоимость этих операций, которая является ожидаемой стоимостью получения образца с отбором с отбраковкой, ниже, чем стоимость получения образца с использованием другого метода.

Алгоритм

Алгоритм (используемый Джоном фон Нейманом и восходящий к Бюффону и его игле ) для получения выборки из распределения с плотностью с использованием выборок из распределения с плотностью выглядит следующим образом:

  • Получите выборку из распределения и выборку из (равномерного распределения в единичном интервале).
  • Проверь, стоит ли .
    • Если это так, примите как образец, взятый из ;
    • в противном случае отклоните значение и вернитесь к шагу выборки.

Алгоритм потребует в среднем итераций для получения выборки.

Преимущества перед выборкой с использованием наивных методов

В некоторых ситуациях выборка отклонения может быть намного более эффективной по сравнению с наивными методами. Например, задана проблема как выборка, обусловленная заданным набором , т. Е. Иногда может быть легко смоделирована с использованием наивных методов (например, путем выборки с обратным преобразованием ):

  • Самостоятельно пробуйте и оставьте тех, кто удовлетворяет
  • Выход:

Проблема в том, что эта выборка может быть сложной и неэффективной, если . Ожидаемое количество итераций может быть близким к бесконечности. Более того, даже когда вы применяете метод выборки отклонения, всегда сложно оптимизировать границу для отношения правдоподобия. Чаще всего большой и процент отклонения высок, алгоритм может быть очень неэффективным. Естественные экспоненциальные семьи (если она существует), также известные как экспоненциальный наклон, обеспечивает класс распределений предложения , которое может снизить сложность вычислений, значение и ускорение вычислений (см примеров: работа с природной экспоненциальными семьями).

Примеры: работа с естественными экспоненциальными семействами

Учитывая случайная величина , является объектом распределения. Предположим для простоты, что функция плотности может быть явно записана как . Выберите предложение как

где и . Ясно, что из естественного экспоненциального семейства . Кроме того, отношение правдоподобия равно
Обратите внимание, это означает, что это действительно
функция генерации момента журнала , то есть . И легко вывести логарифмическую функцию создания моментов предложения и, следовательно, моментов предложения.
В качестве простого примера предположим, что Under , с . Цель состоит в том, чтобы образец , . Анализ идет следующим образом.
  • Выберите форму распределения предложения с логарифмической функцией генерирования момента как , что в дальнейшем подразумевает, что это нормальное распределение .
  • Определите удачный вариант для распространения предложения. В этой настройке интуитивно понятный способ выбора - установить , то есть
  • Четко запишите цель, предложение и отношение правдоподобия
  • Получите оценку отношения правдоподобия , которое является убывающей функцией для , поэтому
  • Критерий отбраковки выборки: для , если
    держит, примите значение ; в противном случае продолжайте отбор новых и новых образцов до приемки.

Для приведенного выше примера в качестве измерения эффективности ожидаемое количество итераций метода выборки отбраковки на основе NEF имеет порядок b, то есть , в то время как в наивном методе ожидаемое количество итераций равно , что далеко более неэффективно.

В общем, экспоненциальный наклон, параметрический класс распределения предложения, удобно решает проблемы оптимизации, благодаря своим полезным свойствам, которые напрямую характеризуют распределение предложения. Для этого типа проблемы, чтобы смоделировать условно , среди класса простых распределений, хитрость заключается в использовании NEF, что помогает получить некоторый контроль над сложностью и значительно ускорить вычисления. Действительно, есть глубокие математические причины для использования NEF.

Недостатки

Отказ от выборки может привести к взятию большого количества нежелательных выборок, если функция, для которой выполняется выборка, сильно сконцентрирована в определенной области, например функция, у которой есть всплеск в каком-то месте. Для многих распределений эта проблема может быть решена с помощью адаптивного расширения (см. Выборка с адаптивным отклонением ) или соответствующей заменой переменных с помощью метода соотношения форм . Кроме того, по мере увеличения размеров проблемы отношение встроенного объема к «углам» внедренного объема стремится к нулю, поэтому может произойти множество отклонений до того, как будет сгенерирована полезная выборка, что делает алгоритм неэффективно и непрактично. Смотрите проклятие размерности . Для больших измерений необходимо использовать другой подход, как правило, метод Монте-Карло с цепью Маркова, такой как выборка Метрополиса или выборка Гиббса . (Однако выборка Гиббса, которая разбивает проблему многомерной выборки на серию выборок низкой размерности, может использовать выборку отклонения в качестве одного из своих шагов.)

Адаптивное отклонение выборки

Для многих дистрибутивов сложно найти такой дистрибутив, который включает данный дистрибутив без лишнего использования места. Расширение выборки отбраковки, которое можно использовать для преодоления этой трудности и эффективной выборки из широкого спектра распределений (при условии, что они имеют логарифмически вогнутые функции плотности, что на самом деле имеет место для большинства распространенных распределений - даже тех, плотность которых сами функции не являются вогнутыми!) называется адаптивной выборкой отбраковки (ARS) .

В этой технике, в конечном счете, представленной Гилксом в 1992 году, есть три основные идеи:

  1. Если это помогает, вместо этого определите распределение конвертов в пространстве журнала (например, логарифмическую вероятность или логарифмическую плотность). То есть работать с, а не напрямую.
    • Часто распределения, которые имеют алгебраически беспорядочные функции плотности, имеют достаточно простые функции логарифмической плотности (то есть, когда они беспорядочные, с ними легче работать или, по крайней мере, они ближе к кусочно-линейным).
  2. Вместо одной функции равномерной плотности конверта используйте в качестве конверта кусочно-линейную функцию плотности.
    • Каждый раз, когда вам нужно отклонить образец, вы можете использовать значение, которое вы оценили, для улучшения кусочного приближения . Таким образом, это снижает вероятность того, что ваша следующая попытка будет отклонена. Асимптотически вероятность отклонения выборки должна стремиться к нулю, а на практике часто очень быстро.
    • Согласно предложению, каждый раз, когда мы выбираем отклоняемую точку, мы стягиваем огибающую другим отрезком линии, который касается кривой в точке с той же координатой x, что и выбранная точка.
    • Кусочно-линейная модель логарифмического распределения предложения приводит к набору кусочно- экспоненциальных распределений (то есть сегментов одного или нескольких экспоненциальных распределений, прикрепленных встык). Экспоненциальные распределения хорошо известны и понятны. Логарифм экспоненциального распределения представляет собой прямую линию, и, следовательно, этот метод по существу включает в себя включение логарифма плотности в серию отрезков прямой. Это источник ограничения логарифмической вогнутости: если распределение логарифмически вогнутое, то его логарифм вогнутый (имеет форму перевернутой буквы U), что означает, что касательный к кривой отрезок прямой всегда будет проходить над кривой.
    • Если не работает в журнальном пространстве, кусочно-линейная функция плотности также может быть выбрана с помощью треугольных распределений.
  3. Мы можем воспользоваться еще одним преимуществом требования (логарифмической) вогнутости, чтобы потенциально избежать затрат на оценку того, когда ваш образец
будет принят.
  • Точно так же, как мы можем построить кусочно-линейную верхнюю границу (функцию «конверта»), используя значения, которые мы должны были оценить в текущей цепочке отклонений, мы также можем построить кусочно-линейную нижнюю границу (функция «сжатия»), используя эти значения тоже.
  • Перед оценкой (потенциально дорогостоящей), чтобы увидеть, будет ли принят ваш образец, мы можем
уже знать, будет ли он принят, сравнив его с имеющейся (в идеале более дешевой) (или в данном случае) функцией сжатия.
  • Этот этап сжатия не является обязательным, даже если он предложен Гилксом. В лучшем случае это избавит вас от всего лишь одной дополнительной оценки вашей (беспорядочной и / или дорогой) целевой плотности. Однако, предположительно, для особенно дорогих функций плотности (и при условии быстрой сходимости коэффициента отбраковки к нулю) это может существенно повлиять на конечное время выполнения.
  • Метод по существу включает в себя последовательное определение огибающей прямолинейных сегментов, которая приближает логарифм все лучше и лучше, оставаясь при этом выше кривой, начиная с фиксированного числа сегментов (возможно, только одной касательной). Выборка из усеченной экспоненциальной случайной величины проста. Просто возьмите журнал однородной случайной величины (с соответствующим интервалом и соответствующим усечением).

    К сожалению, ARS можно применять только на основе выборки из логарифмически вогнутых целевых плотностей. По этой причине в литературе было предложено несколько расширений ARS для устранения логарифмически вогнутых целевых распределений. Кроме того, были разработаны различные комбинации ARS и метода Метрополиса-Гастингса, чтобы получить универсальный пробоотборник, который строит самонастраивающиеся плотности предложений (т. Е. Предложение, автоматически построенное и адаптированное к цели). Этот класс методов часто называют алгоритмами Adaptive Rejection Metropolis Sampling (ARMS) . Результирующие адаптивные методы можно всегда применять, но в этом случае сгенерированные выборки коррелируются (хотя корреляция быстро исчезает до нуля по мере увеличения количества итераций).

    Смотрите также

    использованная литература

    • Роберт С.П. и Казелла Г. «Статистические методы Монте-Карло» (второе издание). Нью-Йорк: Springer-Verlag, 2004.
    • J. von Neumann, "Различные методы, используемые в связи со случайными числами. Методы Монте-Карло", Nat. Стандарты бюро, 12 (1951), стр. 36–38.