LogSumExp - LogSumExp

LogSumExp (LSE) (также называемый RealSoftMax или многофакторная Softplus ) функция является гладким максимум - это гладкое приближение к максимальной функции, в основном используется машинным обучение алгоритмов. Он определяется как логарифм суммы экспонент аргументов:

{\ Displaystyle \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) = \ log \ left (\ exp (x_ {1}) + \ cdots + \ exp (x_ {n}) \ right ).}

Характеристики

Функция LogSumExp домена является , то реальная координатного пространства , и его кообласть это , то реальная линия . Это приближение к максимуму со следующими оценками ${\ Displaystyle \ mathbb {R} ^ {п}}$ ${\ Displaystyle \ mathbb {R}}$ ${\ Displaystyle \ макс _ {я} х_ {я}}$

{\ displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} \ leq \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

Первое неравенство строгое за исключением . Второе неравенство является строгим, если все аргументы не равны. (Доказательство: Пусть . Тогда . Применение логарифма к неравенству дает результат.) ${\ displaystyle n = 1}$ ${\ Displaystyle м = \ макс _ {я} х_ {я}}$ ${\ Displaystyle \ ехр (м) \ Leq \ сумма _ {я = 1} ^ {п} \ ехр (x_ {я}) \ Leq п \ ехр (м)}$

Кроме того, мы можем масштабировать функцию, чтобы сделать границы более жесткими. Рассмотрим функцию . потом ${\ displaystyle {\ frac {1} {t}} \ mathrm {LSE} (tx)}$

{\ displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} <{\ frac {1} {t}} \ mathrm {LSE} (tx) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + {\ frac {\ log (n)} {t}}.}

(Доказательство: Заменить каждый с для некоторых в приведенных выше неравенств, чтобы дать ${\ displaystyle x_ {i}}$ ${\ displaystyle tx_ {i}}$ ${\ displaystyle t> 0}$

{\ displaystyle \ max {\ {tx_ {1}, \ dots, tx_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq \ max {\ { tx_ {1}, \ dots, tx_ {n} \}} + \ log (n).}

и с тех пор ${\ displaystyle t> 0}$

{\ displaystyle t \ max {\ {x_ {1}, \ dots, x_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq t \ max { \ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

наконец, деление на дает результат.) ${\ displaystyle t}$

Кроме того, если мы вместо этого умножим на отрицательное число, мы, конечно, найдем сравнение с функцией: ${\ displaystyle \ min}$

{\ displaystyle \ min {\ {x_ {1}, \ dots, x_ {n} \}} - {\ frac {\ log (n)} {t}} \ leq {\ frac {1} {- t} } \ mathrm {LSE} (-tx) <\ min {\ {x_ {1}, \ dots, x_ {n} \}}.}

Функция LogSumExp является выпуклой и строго возрастает всюду в своей области определения (но не строго выпуклой везде).

Запись в частные производные являются: ${\ displaystyle \ mathbf {x} = (x_ {1}, \ dots, x_ {n}),}$

{\ displaystyle {\ frac {\ partial} {\ partial x_ {i}}} {\ mathrm {LSE} (\ mathbf {x})} = {\ frac {\ exp x_ {i}} {\ sum _ { j} \ exp {x_ {j}}}},}

что означает, что градиент LogSumExp является функцией softmax .

Выпуклые сопряженная из LogSumExp является отрицательной энтропией .

трюк log-sum-exp для вычислений в лог-области

Функция LSE часто встречается, когда обычные арифметические вычисления выполняются в логарифмическом масштабе , например, в логарифмической вероятности .

Подобно тому, как операции умножения в линейном масштабе становятся простыми сложениями в логарифмическом масштабе, операция сложения в линейном масштабе становится LSE в логарифмическом масштабе:

{\ displaystyle \ mathrm {LSE} (\ log (x_ {1}), ..., \ log (x_ {n})) = \ log (x_ {1} + \ dots + x_ {n})}

Общей целью использования вычислений в лог-области является повышение точности и избежание проблем с переполнением и переполнением, когда очень маленькие или очень большие числа представляются напрямую (т. Е. В линейной области) с использованием чисел с плавающей запятой ограниченной точности.

К сожалению, использование LSE напрямую в этом случае может снова вызвать проблемы переполнения / потери значимости. Следовательно, вместо этого должен использоваться следующий эквивалент (особенно, когда точность приведенного выше приближения «max» недостаточна). Поэтому многие математические библиотеки, такие как IT ++, предоставляют подпрограмму LSE по умолчанию и используют эту формулу для внутренних целей.

{\ displaystyle \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) = x ^ {*} + \ log \ left (\ exp (x_ {1} -x ^ {*}) + \ cdots + \ exp (x_ {n} -x ^ {*}) \ right)}

куда ${\ displaystyle x ^ {*} = \ max {\ {x_ {1}, \ dots, x_ {n} \}}}$

Строго выпуклая функция типа log-sum-exp

LSE выпуклый, но не строго выпуклый. Мы можем определить строго выпуклую функцию типа log-sum-exp, добавив дополнительный аргумент, равный нулю:

{\ displaystyle \ mathrm {LSE} _ {0} ^ {+} (x_ {1}, ..., x_ {n}) = \ mathrm {LSE} (0, x_ {1}, ..., x_ {n})}

Эта функция является собственным генератором Брегмана (строго выпуклой и дифференцируемой ). Он встречается в машинном обучении, например, как кумулянт полиномиального / биномиального семейства.

В тропическом анализе это сумма в лог-полукольце .

Languages

In other projects

LogSumExp - LogSumExp

СОДЕРЖАНИЕ

Характеристики

трюк log-sum-exp для вычислений в лог-области

Строго выпуклая функция типа log-sum-exp

Смотрите также

использованная литература