Обучение без учителя - Unsupervised learning

Неконтролируемое обучение - это тип машинного обучения, в котором алгоритму не предоставляются какие-либо заранее назначенные метки или оценки для обучающих данных. В результате алгоритмы неконтролируемого обучения должны сначала самостоятельно обнаружить любые естественные закономерности в этом наборе обучающих данных. Общие примеры включают кластеризацию , когда алгоритм автоматически группирует свои обучающие примеры по категориям со схожими функциями, и анализ главных компонентов , где алгоритм находит способы сжатия набора обучающих данных, определяя, какие функции наиболее полезны для различения различных обучающих примеров, и отбросив остальное. Это контрастирует с обучением с учителем, в котором данные обучения включают предварительно назначенные метки категорий (часто выполняемые человеком или на основе результатов алгоритма классификации, не связанного с обучением). Другие промежуточные уровни в спектре супервизии включают обучение с подкреплением , где для каждого обучающего примера доступны только числовые баллы, а не подробные теги, и полу-контролируемое обучение, когда тегами помечена только часть обучающих данных.

Преимущества обучения без учителя включают в себя минимальную рабочую нагрузку на подготовку и аудит обучающего набора, в отличие от методов обучения с учителем, где требуется значительный объем экспертного человеческого труда для назначения и проверки начальных тегов, а также большую свободу для выявления и использования ранее необнаруженных шаблонов. это могло не быть замечено «экспертами». Это часто происходит за счет неконтролируемых методов, требующих большего количества обучающих данных и более медленного схождения до приемлемой производительности, повышенных требований к вычислениям и хранению во время исследовательского процесса и потенциально большей подверженности артефактам или аномалиям в обучающих данных, которые, очевидно, могут быть нерелевантны или признаны человеком ошибочными, но им присвоено чрезмерное значение алгоритмом обучения без учителя.

Подходы

Общие семейства алгоритмов, используемых в неконтролируемом обучении, включают: (1) кластеризацию, (2) обнаружение аномалий, (3) нейронные сети (обратите внимание, что не все нейронные сети являются неконтролируемыми; они могут быть обучены контролируемым, неконтролируемым, частично контролируемым или методы армирования) и (4) скрытые переменные модели.

Метод моментов

Одним из статистических подходов к обучению без учителя является метод моментов . В методе моментов неизвестные параметры, представляющие интерес в модели, связаны с моментами одной или нескольких случайных величин. Эти моменты оцениваются эмпирически на основе доступных выборок данных и используются для расчета наиболее вероятных распределений значений для каждого параметра. Показано, что метод моментов эффективен при изучении параметров моделей со скрытыми переменными , где в дополнение к наблюдаемым переменным, доступным в наборах обучающих и входных данных, также предполагается, что существует ряд ненаблюдаемых скрытых переменных, и для определения категоризации. каждого же. Одним из практических примеров моделей скрытых переменных в машинном обучении является тематическое моделирование , которое представляет собой статистическую модель для прогнозирования слов (наблюдаемых переменных) в документе на основе темы (скрытой переменной) документа. Было показано, что метод моментов (методы тензорной декомпозиции) последовательно восстанавливает параметры большого класса моделей со скрытыми переменными при определенных предположениях.

Алгоритм ожидания Максимизация еще один практический метод для изучения моделей скрытых переменных. Однако он может застрять в локальных оптимумах, и не гарантируется схождение к истинным неизвестным параметрам модели. Напротив, при использовании метода моментов глобальная сходимость гарантируется при некоторых условиях.

Нейронные сети

Следующие пять подразделов содержат основной материал. За ним следует больше материалов среднего уровня в разделе «Сравнение сетей и конкретных сетей». Дополнительные материалы имеют собственные записи в Википедии.

Задачи против методов

Склонность задачи использовать контролируемые и неконтролируемые методы. Разделение может быть размытым.

Традиционно контролируемые методы используются для задач распознавания, а неконтролируемые методы используются для генеративных задач. По мере продвижения вперед некоторые задачи используют оба метода, а некоторые задачи переходят от одного метода к другому. Например, распознавание образов началось как строго контролируемое, но стало гибридным благодаря использованию неконтролируемого предварительного обучения, а затем снова перешло в сторону супервизии с появлением показателей отсева, повторного обучения и адаптивного обучения.

Обучение

На этапе обучения неконтролируемая сеть пытается имитировать данные, которые она дает, и использует ошибку в своих имитированных выходных данных, чтобы исправить себя (т. Е. Исправить свои веса и смещения). Это напоминает мимикрическое поведение детей при изучении языка. Иногда ошибка выражается как низкая вероятность появления ошибочного вывода, или это может быть выражено как нестабильное состояние высокой энергии в сети.

В отличие от доминирующего использования обратного распространения в контролируемых методах, в неконтролируемых методах используются различные алгоритмы обучения, в том числе: правило обучения Хопфилда, правило обучения Больцмана, контрастное расхождение, пробуждение сна, вариационный вывод, максимум A Posteriori, выборка Гиббса, обратное распространение ошибки реконструкции или обратное распространение изменение параметров скрытого состояния. См. Более подробную информацию в таблице ниже.

Энергия

В машинах Больцмана энергия играет роль функции стоимости. Энергетическая функция - это макроскопическая мера состояния сети. Эта аналогия с физикой вдохновлена ​​анализом Людвига Больцмана макроскопической энергии газа на основе микроскопических вероятностей движения частицы p e E / kT , где k - постоянная Больцмана, а T - температура. В сети RBM соотношение p = e -E / Z, где p и E меняются для каждого возможного шаблона активации, а Z = e -E (шаблон) . Точнее, p (a) = e -E (a) / Z, где a - паттерн активации всех нейронов (видимых и скрытых). Следовательно, ранние нейронные сети носят название машины Больцмана. Павел Смоленский называет -Э Гармонией. Сеть ищет низкую энергию, которая является высокой гармонией.

Сети

В этой таблице показаны схемы подключения различных неконтролируемых сетей, подробности которых будут приведены в разделе «Сравнение сетей». Из сетей, носящих имена людей, только Хопфилд напрямую работал с нейронными сетями. Больцман и Гельмгольц жили до изобретения искусственных нейронных сетей, но они вдохновили на использование аналитических методов.

Хопфилд Больцман RBM Гельмгольца Автоэнкодер VAE
Сеть на основе магнитных доменов в железе с одним самосвязанным слоем.
2 слоя. Использует симметричные двусторонние гири. Согласно термодинамике Больцмана, индивидуальные вероятности порождают макроскопические энергии.
Ограниченная машина Больцмана. Это машина Больцмана, в которой боковые соединения внутри слоя запрещены для облегчения анализа.
Вместо двунаправленного симметричного соединения машины Больцмана у нас есть отдельные односторонние соединения, образующие петлю. Это одновременно и поколение, и дискриминация.
Сеть с прямой связью, которая стремится найти хорошее представление среднего уровня своего входного мира.
Применяет вариационный вывод к автоэнкодеру. Средний слой - это набор средних и дисперсий для гауссовых распределений.

История

1969 г. Персептроны Мински и Паперта показывают, что перцептрон без скрытых слоев не работает при XOR
1970-е (приблизительные даты) AI зима I
1974 г. Магнитная модель Изинга, предложенная В.А. Литтлом для познания
1980 г. Фукусима представляет неокогнитрон, который позже стал называться сверточной нейронной сетью. В основном он используется в SL, но заслуживает упоминания здесь.
1982 г. Вариант Изинга в сети Хопфилда, описанный Джоном Хопфилдом как САМ и классификаторы.
1983 г. Вариант машины Больцмана Изинга с вероятностными нейронами, описанный Хинтоном и Сейновски после работы Шерингтона и Киркпатрика 1975 года.
1986 г. Пол Смоленский издает Теорию Гармонии, которая представляет собой RBM с практически той же функцией энергии Больцмана. Смоленский не дал схемы практических занятий. Хинтон сделал в середине 2000-х
1995 г. Шмидтабер представляет нейрон LSTM для языков.
1995 г. Dayan & Hinton представляет машину Гельмгольца
1995-2005 (приблизительные даты) AI Winter II
2013 Kingma, Rezende и другие. представила вариационные автоэнкодеры как байесовскую графическую вероятностную сеть с нейронными сетями в качестве компонентов.

Конкретные сети

Здесь мы выделяем некоторые характеристики каждой сети. Ферромагнетизм вдохновил сети Хопфилда, машины Больцмана и RBM. Нейрон соответствует домену железа с бинарными магнитными моментами вверх и вниз, а нейронные связи соответствуют влиянию домена друг на друга. Симметричные связи позволяют сформулировать глобальную энергетику. Во время логического вывода сеть обновляет каждое состояние, используя стандартную функцию шага активации. Симметричные веса гарантируют сходимость к стабильному паттерну активации.

Хопфилд
сети используются как CAM и гарантированно устанавливаются по некоторому шаблону. Без симметричных весов сеть очень сложно анализировать. При правильной энергетической функции сеть будет сходиться.
Машины Больцмана
Это стохастические сети Хопфилда. Их значение состояния выбирается из этого PDF-файла следующим образом: предположим, что бинарный нейрон срабатывает с вероятностью Бернулли p (1) = 1/3 и отдыхает с p (0) = 2/3. Один выбирает из него, беря УНИВЕРСАЛЬНО распределенное случайное число y и вставляя его в инвертированную кумулятивную функцию распределения, которая в данном случае является ступенчатой ​​функцией с пороговым значением 2/3. Обратная функция = {0, если x <= 2/3, 1, если x> 2/3}
Гельмгольца
Это ранние источники вдохновения для вариационных автокодировщиков. Это две сети, объединенные в одну: прямые веса управляют распознаванием, а обратные веса воплощают воображение. Возможно, это первая сеть, в которой реализованы и то и другое. Гельмгольц не работал в области машинного обучения, но он вдохновил взгляд на «механизм статистического вывода, функция которого состоит в том, чтобы делать выводы о вероятных причинах сенсорного ввода» (3). стохастический бинарный нейрон выдает вероятность того, что его состояние равно 0 или 1. Входные данные обычно не считаются слоем, но в режиме генерации машины Гельмгольца уровень данных получает входные данные от среднего уровня и имеет отдельные веса для этой цели, поэтому он считается слоем. Следовательно, эта сеть имеет 3 уровня.
Вариационный автоэнкодер
Они вдохновлены машинами Гельмгольца и объединяют сеть вероятностей с нейронными сетями. Автоэнкодер - это трехуровневая сеть CAM, где средний уровень должен быть некоторым внутренним представлением входных паттернов. Нейронная сеть кодировщика представляет собой распределение вероятностей q φ (z при заданном x), а сеть декодера - p θ (x при заданном z). Веса называются phi & theta, а не W и V, как у Гельмгольца - косметическая разница. Эти 2 сети могут быть полностью соединены или использовать другую схему NN.

Сравнение сетей

Хопфилд Больцман RBM Гельмгольца Автоэнкодер VAE
использование и известные личности CAM, задача коммивояжера САМ. Свобода подключений затрудняет анализ этой сети. распознавание образов (MNIST, распознавание речи) воображение, мимика язык: творческое письмо, перевод. Зрение: улучшение размытых изображений генерировать реалистичные данные
нейрон детерминированное двоичное состояние. Активация = {0 (или -1), если x отрицательно, иначе 1} стохастический бинарный нейрон Хопфилда стохастический бинарный. Продлен до реальной стоимости в середине 2000-х гг. стохастический, двоичный, сигмовидный язык: LSTM. зрение: локальные рецептивные поля. Обычно активация relu имеет реальную ценность. Нейроны среднего слоя кодируют средства и отклонения для гауссиан. В режиме выполнения (логический вывод) на выходе среднего слоя используются значения выборки из гауссиан.
связи 1 слой с симметричными весами. Никаких самостоятельных подключений. 2-х слойный. 1-скрытый и 1-видимый. симметричные веса. <- то же самое.
нет боковых соединений внутри слоя.
3 слоя: асимметричные веса. 2 сети объединены в 1. 3-х слойный. Вход считается слоем, даже если у него нет входящих весов. повторяющиеся слои для НЛП. свертки с прямой связью для зрения. вход и выход имеют одинаковое количество нейронов. 3 уровня: вход, кодировщик, декодер сэмплера распределения. пробоотборник не считается слоем (д)
вывод и энергия энергия дается вероятностной мерой Гиббса: ← такой же ← такой же минимизировать расхождение KL вывод является только прямой связью. предыдущие сети UL работали вперед И назад минимизировать ошибку = ошибка реконструкции - KLD
обучение Δw ij = s i * s j , для + 1 / -1 нейрона Δw ij = e * (p ij - p ' ij ). Это происходит из минимизации KLD. e = скорость обучения, p '= прогнозируемое и p = фактическое распределение. контрастное расхождение с выборкой Гиббса бодрствование-сон 2 фазы тренировки Обратное распространение ошибки восстановления изменить параметры скрытого состояния для обратного распространения
сила напоминает физические системы, поэтому наследует их уравнения <--- то же самое. скрытые нейроны действуют как внутреннее представление внешнего мира более быстрая более практичная схема обучения, чем машины Больцмана слегка анатомический. анализируемый с теорией информации и статистической механикой
слабость трудно тренировать из-за боковых связей

Hebbian Learning, ART, SOM
Классическим примером неконтролируемого обучения при изучении нейронных сетей является принцип Дональда Хебба , то есть нейроны, которые срабатывают вместе, соединяются вместе. В хеббийском обучении связь усиливается независимо от ошибки, но является исключительно функцией совпадения потенциалов действия между двумя нейронами. Похожая версия, которая изменяет синаптические веса, учитывает время между потенциалами действия ( пластичность, зависящая от времени спайка, или STDP). Было высказано предположение, что обучение Хебба лежит в основе ряда когнитивных функций, таких как распознавание образов и экспериментальное обучение.

Среди моделей нейронных сетей в алгоритмах неконтролируемого обучения обычно используются самоорганизующаяся карта (SOM) и теория адаптивного резонанса (ART). SOM - это топографическая организация, в которой близлежащие местоположения на карте представляют входные данные с аналогичными свойствами. Модель ART позволяет количеству кластеров варьироваться в зависимости от размера проблемы и позволяет пользователю контролировать степень сходства между членами одних и тех же кластеров с помощью определяемой пользователем константы, называемой параметром бдительности. Сети ART используются для многих задач распознавания образов, таких как автоматическое распознавание целей и обработка сейсмических сигналов.

Смотрите также

использованная литература

дальнейшее чтение