Усреднение по ансамблю (машинное обучение) - Ensemble averaging (machine learning)

В машинном обучении , особенно при создании искусственных нейронных сетей , усреднение по ансамблю - это процесс создания нескольких моделей и их объединения для получения желаемого результата, в отличие от создания только одной модели. Часто ансамбль моделей работает лучше, чем любая отдельная модель, потому что различные ошибки моделей «усредняются».

Обзор

Усреднение по ансамблю - один из простейших типов комитетных машин . Наряду с повышением , это один из двух основных типов машин статических комитетов. В отличие от стандартной конструкции сети, в которой создается много сетей, но сохраняется только одна, усреднение по ансамблю сохраняет менее удовлетворительные сети, но с меньшим весом. Теория усреднения по ансамблю основана на двух свойствах искусственных нейронных сетей:

  1. В любой сети смещение можно уменьшить за счет увеличения дисперсии.
  2. В группе сетей дисперсия может быть уменьшена без каких-либо затрат на смещение.

Усреднение по ансамблю создает группу сетей, каждая с низким смещением и высокой дисперсией, затем объединяет их в новую сеть с (надеюсь) низким смещением и низкой дисперсией. Таким образом, это решение дилеммы смещения и дисперсии . Идея объединения экспертов восходит к Пьеру-Симону Лапласу .

Методика

Вышеупомянутая теория дает очевидную стратегию: создать набор экспертов с низким смещением и высокой дисперсией, а затем усреднить их. Как правило, это означает создание набора экспертов с различными параметрами; часто это начальные синаптические веса, хотя другие факторы (такие как скорость обучения, импульс и т. д.) также могут варьироваться. Некоторые авторы не рекомендуют варьировать снижение веса и преждевременно прекращать занятия. Таким образом, шаги следующие:

  1. Сгенерируйте N экспертов, каждый со своими начальными значениями. (Начальные значения обычно выбираются случайным образом из распределения.)
  2. Тренируйте каждого специалиста отдельно.
  3. Объедините экспертов и усредните их значения.

В качестве альтернативы, знания предметной области могут использоваться для создания нескольких классов экспертов. Эксперт из каждого класса обучается, а затем объединяется.

Более сложная версия среднего по ансамблю рассматривает конечный результат не как простое среднее значение всех экспертов, а как взвешенную сумму. Если каждый эксперт есть , то общий результат можно определить как:

где - набор весов. Задача оптимизации поиска альфа легко решается с помощью нейронных сетей, следовательно, можно обучить «метасеть», где каждый «нейрон» фактически представляет собой целую нейронную сеть, а синаптические веса конечной сети - это вес, применяемый к каждой из них. эксперт. Это известно как линейная комбинация экспертов .

Можно видеть, что большинство форм нейронных сетей представляют собой некоторое подмножество линейной комбинации: стандартная нейронная сеть (где используется только один эксперт) представляет собой просто линейную комбинацию со всеми и одним . Необработанное среднее - это когда все равны некоторому постоянному значению, а именно единице от общего числа экспертов.

Более поздний метод усреднения ансамбля - это обучение с отрицательной корреляцией, предложенный Y. Liu и X. Yao. Сейчас этот метод широко используется в эволюционных вычислениях .

Преимущества

  • Результирующий комитет почти всегда менее сложен, чем отдельная сеть, которая могла бы достичь того же уровня производительности.
  • Получившийся комитет легче обучить на меньших наборах входных данных.
  • В результате комитет часто улучшает производительность в любой отдельной сети.
  • Риск переобучения снижается, так как требуется установить меньше параметров (весов).

Смотрите также

Рекомендации

  1. ^ a b c Хайкин, Саймон. Нейронные сети: всеобъемлющая основа. 2-е изд. Верхняя река Сэдл, штат Нью-Джерси: Prentice Hall, 1999.
  2. ^ а б в г Хашем, С. «Оптимальные линейные комбинации нейронных сетей». Нейронные сети 10, вып. 4 (1997): 599–614.
  3. ^ a b Нафтали У., Интратор Н. и Хорн Д. «Оптимальное ансамблевое усреднение нейронных сетей». Сеть: вычисления в нейронных системах 8, вып. 3 (1997): 283–296.
  4. ^ Geman, С. Е. Bienenstock и Р. Doursat. «Нейронные сети и дилемма смещения / дисперсии». Нейронные вычисления 4, вып. 1 (1992): 1–58.
  5. ^ Клемен, RT "Объединение прогнозов: обзор и аннотированная библиография". Международный журнал прогнозирования 5, вып. 4 (1989): 559–583.
  6. ^ Ю. Лю и Х. Яо, Ансамблевое обучение с помощью нейронных сетей с отрицательной корреляцией , том 12, выпуск 10, декабрь 1999 г., стр. 1399-1404. DOI : 10.1016 / S0893-6080 (99) 00073-8
  7. ^ Pearlmutter, Б. А., Р. Розенфельд. «Сложность Чайтина – Колмогорова и обобщение в нейронных сетях». В материалах конференции 1990 г. по достижениям в системах обработки нейронной информации 3, 931. Morgan Kaufmann Publishers Inc., 1990.

дальнейшее чтение

  • Perrone, MP (1993), Улучшение оценки регрессии: методы усреднения для уменьшения дисперсии с расширениями общей оптимизации выпуклой меры
  • Уолперт, DH (1992), "Stacked обобщение", нейронные сети , 5 (2): 241-259, CiteSeerX   10.1.1.133.8090 , DOI : 10.1016 / S0893-6080 (05) 80023-1
  • Хаш, С. (1997), "Оптимальная линейные комбинаций нейронных сетей", нейронные сети , 10 (4): 599-614, DOI : 10.1016 / S0893-6080 (96) 00098-6 , PMID   12662858
  • Хашем, С. и Б. Шмайзер (1993), «Аппроксимация функции и ее производных с использованием оптимальных для MSE линейных комбинаций обученных нейронных сетей прямого распространения», Труды Объединенной конференции по нейронным сетям , 87 : 617–620