Генеративная модель - Generative model

В статистической классификации два основных подхода называются генеративным подходом и дискриминационным подходом. Эти классификаторы вычисляют разными подходами, различающимися степенью статистического моделирования . Терминология непоследовательна, но, следуя Jebara (2004), можно выделить три основных типа :

  1. Порождающая модель представляет собой статистическую модель из совместного распределения вероятностей по заданным наблюдаемой переменной X и целевой переменной Y ;
  2. Дискриминационная модель представляет собой модель условной вероятности мишени Y , учитывая наблюдение х ; а также
  3. Классификаторы, вычисленные без использования вероятностной модели, также в общих чертах называют «дискриминационными».

Различие между этими двумя последними классами не проводится последовательно; Джебара (2004) называет эти три класса генеративным обучением , условным обучением и дискриминирующим обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминирующими классификаторами (условное распределение или отсутствие распределения). , не делая различия между двумя последними классами. Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , тогда как классификатор, основанный на дискриминативной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.

Стандартные примеры каждого из них, все из которых являются линейными классификаторами :

Применительно к классификации нужно перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Можно вычислить это непосредственно, без использования распределения вероятностей ( распределение свободного классификатора ); можно оценить вероятность метки на основании наблюдения ( дискриминативная модель ) и основать классификацию на этом; или можно оценить совместное распределение ( генеративная модель ), исходя из этого вычислить условную вероятность , а затем основать классификацию на этом. Они становятся все более косвенными, но все более вероятными, что позволяет применять больше знаний в предметной области и теории вероятностей. На практике используются разные подходы, в зависимости от конкретной проблемы, и гибриды могут сочетать сильные стороны нескольких подходов.

Определение

Альтернативное подразделение определяет их симметрично как:

  • порождающая модель представляет собой модель условной вероятности наблюдаемой X , учитывая цель у , символический,
  • дискриминационная модель представляет собой модель условной вероятности мишени Y , учитывая наблюдение х , символический,

Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения и цели , либо наблюдения x с заданным целевым значением y , в то время как дискриминативная модель или дискриминационная классификатор (без модели) может использоваться для «различения» значения целевой переменной Y , учитывая наблюдение x . Разница между « различать » (различать) и « классифицировать » неуловима, и они не всегда различаются. (Термин «дискриминационный классификатор» становится плеоназмом, когда «различение» эквивалентно «классификации».)

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, который не имеет четкой связи с распределениями вероятностей по потенциальным выборкам входных переменных. Генеративные состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных выходных данных с потенциальными входами. Такие модели не являются классификаторами.

Отношения между моделями

Применительно к классификации наблюдаемая X часто является непрерывной переменной , целевая Y обычно является дискретной переменной, состоящей из конечного набора меток, а условная вероятность также может интерпретироваться как (недетерминированная) целевая функция , учитывая X как входы и Y как выходы.

Учитывая конечный набор ярлыков, два определения «генеративной модели» тесно связаны. Модель условного распределения - это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений меток вместе с распределением наблюдений с заданной меткой ; символически, Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются.

Учитывая модель совместного распределения, распределение отдельных переменных может быть вычислено как маргинальные распределения и (рассматривая X как непрерывное, следовательно, интегрирующее по нему, и Y как дискретное, следовательно, суммирующее по нему), и любое условное распределение может вычисляться из определения условной вероятности : и .

Учитывая модель одной условной вероятности и оценочные распределения вероятностей для переменных X и Y , обозначенных и , можно оценить противоположную условную вероятность, используя правило Байеса :

Например, имея генеративную модель для , можно оценить:

и учитывая дискриминантную модель для , можно оценить:

Обратите внимание, что правило Байеса (вычисление одной условной вероятности в терминах другой) и определение условной вероятности (вычисление условной вероятности в терминах совместного распределения) также часто объединяются.

Противопоставьте дискриминационным классификаторам

Генеративный алгоритм моделирует, как данные были сгенерированы, чтобы классифицировать сигнал. Он задает вопрос: исходя из предположений о моем поколении, какая категория с наибольшей вероятностью будет генерировать этот сигнал? Дискриминантный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал. Итак, дискриминационные алгоритмы пытаются учиться непосредственно на данных, а затем пытаются классифицировать данные. С другой стороны, генеративные алгоритмы пытаются узнать, какие из них можно преобразовать позже для классификации данных. Одним из преимуществ генеративных алгоритмов является то, что вы можете использовать их для генерации новых данных, аналогичных существующим. С другой стороны, дискриминантные алгоритмы обычно обеспечивают лучшую производительность в задачах классификации.

Несмотря на то, что дискриминативные модели не нуждаются в моделировании распределения наблюдаемых переменных, они, как правило, не могут выражать сложные отношения между наблюдаемыми и целевыми переменными. Они не обязательно работают лучше, чем генеративные модели, в задачах классификации и регрессии . Эти два класса рассматриваются как дополняющие друг друга или как разные точки зрения на одну и ту же процедуру.

Глубокие генеративные модели

С развитием глубокого обучения новое семейство методов, называемых глубокими генеративными моделями (DGM), формируется за счет комбинации генеративных моделей и глубоких нейронных сетей. Уловка DGM заключается в том, что нейронные сети, используемые в качестве генеративных моделей, имеют ряд параметров, значительно меньших, чем объем данных, используемых для их обучения, поэтому модели вынуждены обнаруживать и эффективно усваивать сущность данных, чтобы генерировать Это.

Популярные DGM включают вариационные автокодеры (VAE), генеративные состязательные сети (GAN) и авторегрессивные модели. Существует тенденция к построению больших глубинных генеративных моделей. Например, GPT-3 и его предшественник GPT-2 для авторегрессивных нейронных языковых моделей, BigGAN и VQ-VAE для генерации изображений, Optimus как самая большая языковая модель VAE и музыкальный автомат как самая большая модель VAE для генерации музыки.

У DGM есть множество краткосрочных применений. Но в конечном итоге они обладают потенциалом для автоматического изучения естественных особенностей набора данных, будь то категории, измерения или что-то еще.

Типы

Генеративные модели

Типы генеративных моделей:

Если наблюдаемые данные действительно взяты из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является обычным методом. Однако, поскольку большинство статистических моделей являются только приближениями к истинному распределению, если приложение модели состоит в том, чтобы сделать вывод о подмножестве переменных, зависящих от известных значений других, то можно утверждать, что приближение делает больше предположений, чем необходимо для решения задачи. проблема под рукой. В таких случаях может быть более точным моделирование функций условной плотности непосредственно с использованием дискриминантной модели (см. Ниже), хотя детали, специфичные для конкретного приложения, в конечном итоге будут определять, какой подход является наиболее подходящим в каждом конкретном случае.

Дискриминационные модели

Примеры

Простой пример

Предположим, что входные данные - это набор меток для - и есть следующие 4 точки данных:

Для приведенных выше данных оценка совместного распределения вероятностей на основе эмпирической меры будет следующей:

пока будет следующее:

Генерация текста

Шеннон (1948) приводит пример, в котором таблица частот встречаемости пар английских слов используется для создания предложения, начинающегося со слов «представляющий и быстро являющийся благом»; что не является правильным английским языком, но будет все больше приближаться к нему по мере того, как таблица перемещается от пар слов к тройкам слов и т. д.

Смотрите также

Примечания

использованная литература

внешние ссылки