Перекрестная энтропия - Cross entropy

В теории информации , то кросс-энтропия между двумя вероятностными распределениями и за тот же основной набор события измеряют среднее число бит , необходимой для идентификации события извлекаемого из набора , если схема кодирования используется для набора оптимизирована для ориентировочного распределения вероятностей , а не истинное распределение .

Определение

Кросс-энтропия распределения относительно распределения по заданному набору определяется следующим образом:

,

где - оператор математического ожидания относительно распределения .

Определение может быть сформулировано с использованием дивергенции Кульбака – Лейблера , отклонения от (также известного как относительная энтропия по отношению к ).

,

где это энтропия в .

Для дискретных распределений вероятностей и с той же опорой это означает

 

 

 

 

( Уравнение 1 )

Аналогичная ситуация и для непрерывных распределений. Мы должны предполагать, что и являются абсолютно непрерывными относительно некоторой эталонной меры (обычно это мера Лебега на борелевской σ-алгебре ). Позвольте и быть функциями плотности вероятности от и по отношению к . потом

и поэтому

 

 

 

 

( Уравнение 2 )

Примечание: Обозначение также используется для другой концепции, в совместной энтропии из и .

Мотивация

В теории информации , то крафт-McMillan теорема устанавливает , что любые непосредственно декодируемые схемы кодирования для кодирования сообщения , чтобы определить одно значение из множества возможностей можно рассматривать как представляющие неявное распределение вероятностей над , где длиной коды для в биты. Следовательно, перекрестную энтропию можно интерпретировать как ожидаемую длину сообщения на данные, когда предполагается неправильное распределение, в то время как данные фактически следуют за распределением . Вот почему математическое ожидание берется из истинного распределения вероятностей, а не . Действительно, ожидаемая длина сообщения при истинном распределении равна,

Предварительный расчет

Есть много ситуаций, когда необходимо измерить кросс-энтропию, но распределение неизвестно. Примером является языковое моделирование , когда модель создается на основе обучающего набора , а затем ее перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере это истинное распределение слов в любом корпусе и распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии рассчитывается по следующей формуле:

где - размер тестового набора, а - вероятность события, оцененная на основе обучающего набора. Другими словами, это оценка вероятности модели, что i-е слово текста . Сумма усредняется по словам теста. Это оценка истинной кросс-энтропии методом Монте-Карло , где тестовый набор рассматривается как выборка из .

Отношение к логарифмической вероятности

В задачах классификации мы хотим оценить вероятность различных исходов. Пусть оценочная вероятность результата будет с параметрами, которые должны быть оптимизированы, и пусть частота (эмпирическая вероятность) результата в обучающем наборе будет . Учитывая N условно независимых выборок в обучающем наборе, вероятность параметров модели на обучающем наборе равна

так что логарифм правдоподобия, деленный на, равен

так что максимизация правдоподобия относительно параметров - это то же самое, что минимизация перекрестной энтропии.

Минимизация кросс-энтропии

Минимизация кросс-энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения с фиксированным эталонным распределением кросс-энтропия и дивергенция KL идентичны с точностью до аддитивной константы (поскольку фиксировано): оба принимают свои минимальные значения, когда , то есть для дивергенции KL, и для кросс-энтропии. В технической литературе принцип минимизации расхождения KL (« Принцип минимальной информации о различении» Кульбака ) часто называют принципом минимальной кросс-энтропии (MCE) или Minxent .

Однако, как обсуждалось в статье о расхождении Кульбака – Лейблера , иногда распределение является фиксированным априорным эталонным распределением, и распределение оптимизируется, чтобы быть как можно более близким к такому, с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, причем некоторые авторы пытались разрешить несогласованность путем переопределения кросс-энтропии как «быть , а не» .

Функция кросс-энтропийных потерь и логистическая регрессия

Кросс-энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Истинная вероятность - это истинная метка, а данное распределение - это прогнозируемое значение текущей модели.

В частности, рассмотрите логистическую регрессию , которая (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помеченных и ). Выходные данные модели для данного наблюдения с учетом вектора входных характеристик можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. Вероятность моделируется с помощью логистической функции, где - некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода определяется как

где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск . Точно так же дополнительная вероятность обнаружения выходных данных просто дается выражением

Установив нашу нотацию и , мы можем использовать кросс-энтропию, чтобы получить меру несходства между и :

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть выборки, каждая из которых проиндексирована . Среднее функции потерь затем определяются по формуле:

где с логистической функцией, как и раньше.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).

Примечание . Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент квадрата потери ошибки для линейной регрессии . То есть определить

Тогда у нас есть результат

Доказательство таково. Для любого у нас есть

Аналогичным образом в итоге получаем желаемый результат.

Смотрите также

использованная литература

внешние ссылки