Аддитивное разглаживание - Additive smoothing

В статистике , добавка сглаживания , которая также называется Лаплас сглаживание (не следует путать с лапласианом сглаживанием , как используются в обработке изображений ), или Лидстоун сглаживанием , является методом , используемым для сглаживания категорических данных . Учитывая набор подсчетов наблюдений из -мерного полиномиального распределения с испытаниями, «сглаженная» версия подсчетов дает оценку :

где сглаженный счет и «псевдосчет» α  > 0 - параметр сглаживания . α  = 0 соответствует отсутствию сглаживания. (Этот параметр объясняется в § Псевдосчет ниже.) Аддитивное сглаживание - это тип оценки усадки , поскольку результирующая оценка будет находиться между эмпирической вероятностью ( относительной частотой ) и равномерной вероятностью . Ссылаясь на правило последовательности Лапласа , некоторые авторы утверждали, что α должно быть равно 1 (в этом случае также используется термин сглаживание добавления единицы ), хотя на практике обычно выбирается меньшее значение.

С байесовской точки зрения, это соответствует ожидаемому значению от заднего распределения , с помощью симметричного распределения Дирихля с параметром & alpha ; в качестве предварительного распределения . В особом случае, когда количество категорий равно 2, это эквивалентно использованию бета-распределения в качестве сопряженного предшествующего для параметров биномиального распределения .

История

Лаплас придумал эту технику сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его объяснение состояло в том, что даже учитывая большую выборку дней с восходящим солнцем, мы все равно не можем быть полностью уверены, что солнце все еще взойдет завтра (это известно как проблема восхода солнца ).

Псевдосчет

Pseudocount представляет собой количество ( как правило , не является целым числом, несмотря на его название) добавляется к числу наблюдаемых случаев, чтобы изменить ожидаемую вероятность в модели этих данных, если не известно, равна нулю . Он назван так потому, что, грубо говоря, псевдосчет значения имеет вес в апостериорном распределении аналогично каждой категории, имеющей дополнительный счетчик . Если частота каждого элемента не входит в выборку, эмпирическая вероятность события равна

но апостериорная вероятность при аддитивном сглаживании равна

как если бы увеличивать каждый отсчет по априорно.

В зависимости от предшествующего знания, которое иногда является субъективным значением, псевдосчет может иметь любое неотрицательное конечное значение. Это может быть только ноль (или возможность игнорирования), если это невозможно по определению, например, возможность того, что десятичная цифра пи является буквой, или физическая возможность, которая будет отклонена и поэтому не будет учитываться, например, компьютер, печатающий букву. когда действующая программа для числа Пи запускается или исключается и не учитывается из-за отсутствия интереса, например, если интересуют только нули и единицы. Как правило, также существует вероятность того, что никакое значение не может быть вычислимым или наблюдаемым за конечное время (см. Проблему остановки ). Но по крайней мере одна возможность должна иметь ненулевое псевдосчетчик, иначе невозможно было бы вычислить прогноз до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные априорные ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой оценочный вес априорных знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.

В любом наборе данных или выборке наблюдаемых данных существует вероятность, особенно в случае маловероятных событий и небольших наборов данных, что возможное событие не произойдет. Следовательно, его наблюдаемая частота равна нулю, что, по-видимому, подразумевает нулевую вероятность. Это чрезмерное упрощение неточно и часто бесполезно, особенно в методах машинного обучения, основанных на вероятности, таких как искусственные нейронные сети и скрытые марковские модели . Искусственно изменяя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были в точности равными нулю, можно избежать проблем с нулевой частотой . Также см . Правило Кромвеля .

Самый простой подход - добавить по единице к каждому наблюдаемому количеству событий, включая возможность нулевого счета. Иногда это называют правилом преемственности Лапласа . Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится между 0 и 1, и все они в сумме равны 1).

Используя предыдущий подход Джеффриса , к каждому возможному результату следует добавить псевдосчет, равный половине.

Псевдосчет должен быть установлен на единицу только тогда, когда нет никаких предварительных знаний - см. Принцип безразличия . Однако, учитывая соответствующие предварительные знания, сумма должна быть скорректирована пропорционально ожиданию того, что априорные вероятности следует считать правильными, несмотря на доказательства обратного - см. Дальнейший анализ . Более высокие значения подходят, поскольку есть предварительные знания об истинных значениях (например, для монеты в состоянии монетного двора); более низкие значения, поскольку имеется предварительная информация о вероятном смещении, но неизвестной степени (например, для согнутой монеты).

Более сложный подход заключается в оценке вероятности событий от других факторов и соответствующей корректировке.

Примеры

Один из способов мотивировать псевдосчет, особенно для биномиальных данных, - использовать формулу для средней точки интервальной оценки , в частности, доверительного интервала биномиальной пропорции . Самая известная из них принадлежит Эдвину Бидвеллу Уилсону в книге Уилсона (1927) : средняя точка интервала оценок Вильсона, соответствующая стандартным отклонениям с обеих сторон, равна:

Взятие стандартных отклонений для аппроксимации 95% доверительного интервала ( ) дает псевдосчет 2 для каждого результата, поэтому всего 4, в просторечии известное как «правило плюс четыре»:

Это также середина интервала Агрести – Кулля ( Agresti & Coull 1998 ).

Обобщено на случай известных показателей заболеваемости

Часто вы проверяете предвзятость неизвестной исследуемой популяции по сравнению с контрольной популяцией с известными параметрами (коэффициентами заболеваемости) . В этом случае равномерная вероятность должна быть заменена известным уровнем заболеваемости контрольной популяции для расчета сглаженной оценки:

В качестве проверки согласованности, если эмпирическая оценка оказывается равной уровню заболеваемости, т. Е. Сглаженная оценка не зависит от частоты заболеваемости, а также равна ей.

Приложения

Классификация

Аддитивное сглаживание обычно является компонентом наивных байесовских классификаторов .

Статистическое языковое моделирование

В модели « мешок слов» обработки естественного языка и поиска информации данные состоят из количества появлений каждого слова в документе. Аддитивное сглаживание позволяет присваивать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы вероятностного сглаживания в нескольких задачах поиска, таких как обратная связь псевдорелевантности на основе языковой модели и рекомендательные системы .

Смотрите также

использованная литература

Источники

внешние ссылки