Искусственная нейронная сеть - Artificial neural network

Искусственная нейронная сеть - это взаимосвязанная группа узлов, вдохновленная упрощением нейронов в мозге . Здесь каждый круговой узел представляет собой искусственный нейрон, а стрелка представляет собой соединение между выходом одного искусственного нейрона и входом другого.

Искусственные нейронные сети ( ИНС ), обычно называемые просто нейронными сетями ( НС ), представляют собой вычислительные системы, вдохновленные биологическими нейронными сетями, которые составляют мозг животных .

ИНС основана на наборе связанных блоков или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны в биологическом мозге. Каждое соединение, как синапсы в биологическом мозге, может передавать сигнал другим нейронам. Искусственный нейрон получает сигнал, затем обрабатывает его и может сигнализировать о нейронах, связанных с ним. «Сигнал» в соединении - это действительное число , и выходной сигнал каждого нейрона вычисляется некоторой нелинейной функцией суммы его входов. Связи называются ребрами . Нейроны и ребра обычно имеют вес, который корректируется по мере обучения. Вес увеличивает или уменьшает силу сигнала в соединении. Нейроны могут иметь такой порог, что сигнал отправляется только в том случае, если совокупный сигнал пересекает этот порог. Обычно нейроны объединены в слои. Разные слои могут выполнять разные преобразования на своих входах. Сигналы проходят от первого слоя (входной) к последнему (выходному), возможно, после многократного прохождения слоев.

Обучение

Нейронные сети обучаются (или обучаются) на примерах обработки, каждый из которых содержит известные «входные данные» и «результат», формируя между ними взвешенные по вероятности ассоциации, которые хранятся в структуре данных самой сети. Обучение нейронной сети из данного примера обычно проводится путем определения разницы между обработанным выводом сети (часто предсказанием) и целевым выводом. Эта разница и есть ошибка. Затем сеть корректирует свои взвешенные ассоциации в соответствии с правилом обучения и с использованием этого значения ошибки. Последовательные корректировки приведут к тому, что нейронная сеть будет выдавать результат, который становится все более похожим на целевой. После достаточного количества этих корректировок обучение может быть прекращено по определенным критериям. Это называется обучением с учителем .

Такие системы «учатся» выполнять задачи, рассматривая примеры, как правило, не запрограммированные с помощью правил для конкретных задач. Например, при распознавании изображений они могут научиться определять изображения, содержащие кошек, путем анализа примеров изображений, которые были вручную помечены как «кошка» или «без кошек», и использования результатов для идентификации кошек на других изображениях. Они делают это, не зная заранее о кошках, например, что у них мех, хвосты, усы и кошачьи лица. Вместо этого они автоматически генерируют идентифицирующие характеристики из примеров, которые они обрабатывают.

История

Уоррен Маккаллох и Уолтер Питтс (1943) открыли эту тему, создав вычислительную модель для нейронных сетей. В конце 1940-х годов Д.О. Хебб создал гипотезу обучения, основанную на механизме нейронной пластичности, которая стала известна как обучение Хебба . Фарли и Уэсли А. Кларк (1954) сначала использовали вычислительные машины, тогда называемые «калькуляторами», для моделирования хеббской сети. В 1958 году психолог Фрэнк Розенблатт изобрел перцептрон , первую искусственную нейронную сеть, финансируемую Управлением военно-морских исследований США . Первые функциональные сети со многими уровнями были опубликованы Ивахненко и Лапой в 1965 году как групповой метод обработки данных . Основы непрерывного обратного распространения ошибки были получены в контексте теории управления Келли в 1960 году и Брайсоном в 1961 году с использованием принципов динамического программирования . После этого исследования застопорились после Мински и Паперта (1969), которые обнаружили, что базовые перцептроны неспособны обрабатывать схему исключающего ИЛИ и что компьютерам не хватает мощности для обработки полезных нейронных сетей.

В 1970 году Сеппо Линнаинмаа опубликовал общий метод автоматического дифференцирования (AD) дискретных связанных сетей вложенных дифференцируемых функций. В 1973 году Дрейфус использовал обратное распространение ошибок, чтобы адаптировать параметры контроллеров пропорционально градиентам ошибок. Алгоритм обратного распространения ошибки Werbos (1975) сделал возможным практическое обучение многослойных сетей. В 1982 году он применил AD-метод Линнайнмаа к нейронным сетям, получив широкое распространение.

Развитие очень крупномасштабной интеграции (СБИС) металл-оксид-полупроводник (МОП) в виде технологии комплементарных МОП (КМОП) позволило увеличить количество МОП- транзисторов в цифровой электронике . Это обеспечило большую вычислительную мощность для разработки практических искусственных нейронных сетей в 1980-х годах.

В 1986 году Рамелхарт , Хинтон и Уильямс показали, что обратное распространение обучается интересным внутренним представлениям слов как векторов признаков при обучении предсказанию следующего слова в последовательности.

В 1992 году было введено max-pooling, чтобы помочь с наименьшей инвариантностью к сдвигу и устойчивостью к деформации, чтобы облегчить распознавание 3D-объектов . Шмидхубер принял многоуровневую иерархию сетей (1992), предварительно обучая один уровень за раз путем неконтролируемого обучения и тонко настраиваясь с помощью обратного распространения ошибки .

Первые успехи нейронных сетей включали предсказание фондового рынка и (в основном) беспилотного автомобиля в 1995 году.

Джеффри Хинтон и др. (2006) предложили изучить высокоуровневое представление с использованием последовательных слоев двоичных или действительных скрытых переменных с помощью ограниченной машины Больцмана для моделирования каждого слоя. В 2012 году Нг и Дин создали сеть, которая научилась распознавать концепции более высокого уровня, такие как кошки, только путем просмотра немаркированных изображений. Неконтролируемое предварительное обучение и увеличенная вычислительная мощность от графических процессоров и распределенных вычислений позволили использовать более крупные сети, особенно в задачах распознавания изображений и визуального распознавания, которые стали известны как « глубокое обучение ».

Чиресан и его коллеги (2010) показали, что, несмотря на проблему исчезающего градиента , графические процессоры делают возможным обратное распространение в многоуровневых нейронных сетях с прямой связью. В период с 2009 по 2012 год ИНС начали выигрывать призы в конкурсах ИНС, приближаясь к человеческому уровню при выполнении различных задач, первоначально в области распознавания образов и машинного обучения . Например, двунаправленная и многомерная долговременная кратковременная память (LSTM) Graves et al. выиграл три соревнования по распознаванию связного почерка в 2009 году, не имея никаких предварительных знаний о трех языках, которые нужно выучить.

Чиресан и его коллеги создали первые распознаватели образов для достижения конкурентоспособных / сверхчеловеческих возможностей человека в таких тестах, как распознавание дорожных знаков (IJCNN 2012).

Модели

Нейрон и миелинизированный аксон с потоком сигналов от входов дендритов к выходам на терминалах аксонов

ИНС начинались как попытка использовать архитектуру человеческого мозга для выполнения задач, с которыми обычные алгоритмы не имели большого успеха. Вскоре они переориентировались на улучшение эмпирических результатов, в основном отказавшись от попыток остаться верными своим биологическим предшественникам. Нейроны соединены друг с другом по разным схемам, чтобы выходные данные одних нейронов становились входными данными для других. Сеть образует направленный , взвешенный граф .

Искусственная нейронная сеть состоит из набора смоделированных нейронов. Каждый нейрон представляет собой узел, который связан с другими узлами посредством связей, которые соответствуют биологическим связям аксон-синапс-дендрит. У каждой ссылки есть вес, который определяет силу влияния одного узла на другой.

Компоненты ИНС

Нейроны

ИНС состоят из искусственных нейронов, которые концептуально происходят из биологических нейронов . Каждый искусственный нейрон имеет входы и выдает один выходной сигнал, который может быть отправлен на несколько других нейронов. Входными данными могут быть значения характеристик выборки внешних данных, таких как изображения или документы, или они могут быть выходами других нейронов. Выходы конечных выходных нейронов нейронной сети выполняют такую ​​задачу, как распознавание объекта на изображении.

Для того, чтобы найти выход нейрона, первый взять взвешенную сумму всех входов, взвешенную по весам этих соединений от входов к нейрону. К этой сумме мы добавляем смещение . Эту взвешенную сумму иногда называют активацией . Эта взвешенная сумма затем проходит через (обычно нелинейную) функцию активации для получения выходных данных. Первоначальные входные данные - это внешние данные, такие как изображения и документы. Конечные результаты выполняют задачу, например, распознают объект на изображении.

Соединения и вес

Сеть состоит из соединений, каждое соединение обеспечивает выход одного нейрона в качестве входа для другого нейрона. Каждому соединению присваивается вес, который отражает его относительную важность. У данного нейрона может быть несколько входных и выходных соединений.

Функция распространения

Функция распространения вычисляет входные данные нейрона из выходов его предшественников нейронов и их соединений в виде взвешенной суммы. Смещения термин может быть добавлен в результате распространения.

Организация

Нейроны обычно организованы в несколько уровней, особенно в глубоком обучении . Нейроны одного слоя соединяются только с нейронами непосредственно предшествующего и непосредственно следующего слоев. Слой, который получает внешние данные, является входным слоем . Слой, который дает окончательный результат, - это выходной слой . Между ними ноль или более скрытых слоев . Также используются однослойные и неслойные сети. Между двумя уровнями возможны несколько схем соединения. Они могут быть полностью связаны , при этом каждый нейрон одного слоя соединяется с каждым нейроном следующего слоя. Они могут быть объединены , когда группа нейронов в одном слое соединяется с одним нейроном в следующем слое, тем самым уменьшая количество нейронов в этом слое. Нейроны только с такими связями образуют ориентированный ациклический граф и известны как сети прямого распространения . В качестве альтернативы сети, которые позволяют соединения между нейронами на том же или предыдущих уровнях, известны как рекуррентные сети .

Гиперпараметр

Гиперпараметр - это постоянный параметр , значение которого устанавливается до начала процесса обучения. Значения параметров выводятся путем обучения. Примеры гиперпараметров включают скорость обучения , количество скрытых слоев и размер пакета. Значения некоторых гиперпараметров могут зависеть от значений других гиперпараметров. Например, размер некоторых слоев может зависеть от общего количества слоев.

Обучение

Обучение - это адаптация сети для лучшего решения задачи с учетом выборочных наблюдений. Обучение включает в себя настройку весов (и необязательных пороговых значений) сети для повышения точности результата. Это делается путем минимизации наблюдаемых ошибок. Обучение завершено, когда изучение дополнительных наблюдений не снижает частоту ошибок. Даже после обучения частота ошибок обычно не достигает 0. Если после обучения частота ошибок слишком высока, сеть обычно необходимо перепроектировать. Практически это достигается путем определения функции затрат, которая периодически оценивается во время обучения. Пока его объем производства продолжает снижаться, обучение продолжается. Стоимость часто определяется как статистика , значение которой можно только приблизительно определить. На самом деле выходными данными являются числа, поэтому, когда ошибка мала, разница между результатом (почти наверняка кошка) и правильным ответом (кошка) невелика. Обучение пытается уменьшить совокупность различий между наблюдениями. Большинство обучающих моделей можно рассматривать как прямое приложение теории оптимизации и статистической оценки .

Скорость обучения

Скорость обучения определяет размер корректирующих шагов, которые модель предпринимает для корректировки ошибок в каждом наблюдении. Высокая скорость обучения сокращает время обучения, но с меньшей конечной точностью, в то время как более низкая скорость обучения занимает больше времени, но с потенциалом для большей точности. Оптимизация, такая как Quickprop , в первую очередь нацелена на ускорение минимизации ошибок, в то время как другие улучшения в основном направлены на повышение надежности. Чтобы избежать колебаний внутри сети, таких как чередование весов соединений, и улучшить скорость сходимости, уточнения используют адаптивную скорость обучения, которая увеличивается или уменьшается по мере необходимости. Концепция импульса позволяет взвесить баланс между градиентом и предыдущим изменением, так что корректировка веса в некоторой степени зависит от предыдущего изменения. Импульс, близкий к 0, подчеркивает градиент, а значение, близкое к 1, подчеркивает последнее изменение.

Функция затрат

В то время как можно определить функцию стоимости специальной , часто выбор определяется желаемыми свойствами работы функции (например, выпуклость ) или потому , что она возникает из модели (например , в вероятностной модели модели апостериорная вероятность может быть использована в качестве обратного Стоимость).

Обратное распространение

Обратное распространение - это метод, используемый для корректировки весов соединений для компенсации каждой ошибки, обнаруженной во время обучения. Сумма ошибки эффективно распределяется между соединениями. Технически backprop вычисляет градиент (производную) функции стоимости, связанной с данным состоянием, по отношению к весам. Обновления веса могут быть выполнены с помощью стохастического градиентного спуска или других методов, таких как машины экстремального обучения , сети «без поддержки», обучение без возврата, «невесомые» сети и нейронные сети без связи .

Парадигмы обучения

Три основных обучение парадигмы контролируемое обучение , бесконтрольное обучение и обучение с подкреплением . Каждый из них соответствует определенной учебной задаче.

Контролируемое обучение

В обучении с учителем используется набор парных входов и желаемых выходов. Задача обучения состоит в том, чтобы произвести желаемый результат для каждого входа. В этом случае функция стоимости связана с устранением неправильных вычетов. Обычно используемая стоимость - это среднеквадратичная ошибка , которая пытается минимизировать среднеквадратичную ошибку между выходом сети и желаемым выходом. Задачи, подходящие для обучения с учителем, - это распознавание образов (также известное как классификация) и регрессия (также известная как аппроксимация функций). Обучение с учителем также применимо к последовательным данным (например, для рукописного ввода, распознавания речи и жестов ). Это можно рассматривать как обучение с «учителем» в форме функции, которая обеспечивает постоянную обратную связь о качестве решений, полученных на данный момент.

Неконтролируемое обучение

При обучении без учителя входные данные даются вместе с функцией стоимости, некоторой функцией данных и выходом сети. Функция стоимости зависит от задачи (предметной области модели) и любых априорных предположений (неявных свойств модели, ее параметров и наблюдаемых переменных). В качестве тривиального примера рассмотрим модель, где - константа, а стоимость . Минимизация этой стоимости дает значение , равное среднему значению данных. Функция стоимости может быть намного сложнее. Его форма зависит от приложения: например, при сжатии он может быть связан с взаимной информацией между и , тогда как в статистическом моделировании он может быть связан с апостериорной вероятностью модели с учетом данных (обратите внимание, что в обоих этих примерах эти количества будут максимизированы, а не минимизированы). Задачи, которые подпадают под парадигму обучения без учителя, относятся к общим задачам оценки ; приложения включают кластеризацию , оценку статистических распределений , сжатие и фильтрацию .

Обучение с подкреплением

В таких приложениях, как видеоигры, актер выполняет ряд действий, получая обычно непредсказуемый ответ от окружающей среды после каждого из них. Цель состоит в том, чтобы выиграть игру, т. Е. Получить самые положительные (с наименьшими затратами) отзывы. В обучении с подкреплением цель состоит в том, чтобы взвесить сеть (разработать политику) для выполнения действий, которые минимизируют долгосрочные (ожидаемые совокупные) затраты. В каждый момент времени агент выполняет действие, а среда генерирует наблюдение и мгновенную стоимость в соответствии с некоторыми (обычно неизвестными) правилами. Обычно можно только оценить правила и долгосрочную стоимость. В любой момент агент решает, следует ли изучить новые действия, чтобы раскрыть свои затраты, или использовать предыдущее обучение, чтобы действовать быстрее.

Формально среда моделируется как марковский процесс принятия решений (MDP) с состояниями и действиями . Поскольку переходы между состояниями неизвестны, вместо них используются распределения вероятностей: распределение мгновенных затрат, распределение наблюдений и распределение переходов , в то время как политика определяется как условное распределение по действиям с учетом наблюдений. Взятые вместе, они определяют цепь Маркова (MC). Цель состоит в том, чтобы найти MC с самой низкой стоимостью.

ИНС служат обучающим компонентом в таких приложениях. Динамическое программирование в сочетании с ИНС (обеспечивающее нейродинамическое программирование) применялось к проблемам, связанным с маршрутизацией транспортных средств , видеоиграми, управлением природными ресурсами и медициной, благодаря способности ИНС снижать потери точности даже при уменьшении плотности сетки дискретизации для численного приближения. решение задач управления. Задачи, которые подпадают под парадигму обучения с подкреплением, - это задачи управления, игры и другие задачи последовательного принятия решений.

Самообучение

Самообучение в нейронных сетях было введено в 1982 году вместе с нейронной сетью, способной к самообучению, под названием Crossbar Adaptive Array (CAA). Это система только с одним входом, ситуацией s и только одним выходом, действием (или поведением) a. У него нет ни внешнего совета, ни внешнего подкрепления из окружающей среды. CAA перекрестным образом вычисляет как решения о действиях, так и эмоциях (чувствах) в связи с возникшими ситуациями. Система управляется взаимодействием познания и эмоций. Учитывая матрицу памяти, W = || w (a, s) ||, алгоритм самообучения перекладины на каждой итерации выполняет следующие вычисления:

  In situation s perform action a;
  Receive consequence situation s';
  Compute emotion of being in consequence situation v(s');
  Update crossbar memory w'(a,s) = w(a,s) + v(s').

Ценность обратного распространения (вторичное подкрепление) - это эмоция по отношению к ситуации последствий. CAA существует в двух средах: одна - это поведенческая среда, в которой она ведет себя, а другая - генетическая среда, откуда она изначально и только один раз получает начальные эмоции, которые могут возникнуть в поведенческой среде. Получив вектор генома (вектор видов) из генетической среды, CAA будет изучать стремление к цели в поведенческой среде, которая содержит как желательные, так и нежелательные ситуации.

Нейроэволюция

Neuroevolution может создавать топологии и веса нейронных сетей, используя эволюционные вычисления . Он конкурентоспособен со сложными подходами к градиентному спуску. Одно из преимуществ нейроэволюции состоит в том, что она менее подвержена попаданию в «тупики».

Другой

В байесовской структуре для минимизации затрат выбирается распределение по набору допустимых моделей. Эволюционные методы , программирование экспрессии генов , моделирование отжига , максимизация ожидания , непараметрические методы и оптимизация роя частиц - это другие алгоритмы обучения. Конвергентная рекурсия - это алгоритм обучения нейронных сетей контроллера артикуляции модели мозжечка (CMAC).

Режимы

Доступны два режима обучения: стохастический и пакетный. В стохастическом обучении каждый вход создает корректировку веса. При пакетном обучении веса корректируются на основе пакета входных данных, накапливая ошибки по пакету. Стохастическое обучение вносит «шум» в процесс, используя локальный градиент, рассчитанный на основе одной точки данных; это снижает вероятность застревания сети в локальных минимумах. Однако пакетное обучение обычно дает более быстрый и стабильный спуск к локальному минимуму, поскольку каждое обновление выполняется в направлении средней ошибки пакета. Распространенным компромиссом является использование «мини-партий», небольших партий с выборками в каждой партии, выбранными стохастически из всего набора данных.

Типы

ИНС превратились в широкое семейство методов, которые продвинули уровень техники во многих областях. Самые простые типы имеют один или несколько статических компонентов, включая количество единиц, количество слоев, веса единиц и топологию . Динамические типы позволяют одному или нескольким из них развиваться в процессе обучения. Последние намного сложнее, но могут сократить периоды обучения и дать лучшие результаты. Некоторые типы позволяют / требуют, чтобы обучение «контролировалось» оператором, в то время как другие работают независимо. Некоторые типы работают исключительно аппаратно, а другие - чисто программно и работают на компьютерах общего назначения.

Некоторые из основных достижений включают: сверточные нейронные сети , которые оказались особенно успешными при обработке визуальных и других двумерных данных; долговременная кратковременная память позволяет избежать проблемы исчезающего градиента и может обрабатывать сигналы, которые содержат сочетание низкочастотных и высокочастотных компонентов, что способствует распознаванию речи с большим словарным запасом, синтезу текста в речь и фотореалистичным говорящим головам; конкурирующие сети, такие как генеративные состязательные сети, в которых несколько сетей (разной структуры) конкурируют друг с другом за такие задачи, как выигрыш в игре или обман оппонента относительно подлинности входных данных.

Сетевой дизайн

Поиск нейронной архитектуры (NAS) использует машинное обучение для автоматизации проектирования ИНС. Различные подходы к NAS позволили разработать сети, которые хорошо сопоставимы с системами, созданными вручную. Базовый алгоритм поиска состоит в том, чтобы предложить модель кандидата, оценить ее по набору данных и использовать результаты в качестве обратной связи для обучения сети NAS. Доступные системы включают AutoML и AutoKeras.

Проблемы проектирования включают определение количества, типа и связности сетевых уровней, а также размера каждого из них и типа подключения (полное, объединение в пул и т. Д.).

Гиперпараметры также должны быть определены как часть дизайна (они не изучаются), управляя такими вопросами, как количество нейронов в каждом слое, скорость обучения, шаг, шаг, глубина, восприимчивое поле и отступ (для CNN) и т. Д.

Использовать

Использование искусственных нейронных сетей требует понимания их характеристик.

  • Выбор модели: это зависит от представления данных и приложения. Слишком сложные модели учатся медленно.
  • Алгоритм обучения: существует множество компромиссов между алгоритмами обучения. Практически любой алгоритм будет хорошо работать с правильными гиперпараметрами для обучения на конкретном наборе данных. Однако выбор и настройка алгоритма обучения на невидимых данных требует значительных экспериментов.
  • Надежность: если модель, функция стоимости и алгоритм обучения выбраны надлежащим образом, полученная ИНС может стать надежной.

Возможности ИНС подпадают под следующие широкие категории:

Приложения

Благодаря своей способности воспроизводить и моделировать нелинейные процессы искусственные нейронные сети нашли применение во многих дисциплинах. Области применения включают в себя идентификацию системы и контроля (управление автомобилем, траектория предсказания, управление процессами , управление природными ресурсов ), квантовую химию , общие игры играть , распознавание образов (радарные системы, идентификации лица , классификацию сигнала, 3D - реконструкцию , распознавание объекта и более), распознавание последовательности (распознавание жестов, речи, рукописного и печатного текста), медицинская диагностика , финансы (например, автоматизированные торговые системы ), интеллектуальный анализ данных , визуализация, машинный перевод , фильтрация социальных сетей и фильтрация спама в электронной почте . ИНС использовались для диагностики нескольких типов рака и для отделения линий высокоинвазивных раковых клеток от менее инвазивных линий, используя только информацию о форме клеток.

ИНС использовались для ускорения анализа надежности инфраструктуры, подверженной стихийным бедствиям, и для прогнозирования оседания фундамента. ИНС также использовались для построения моделей черного ящика в геонауках : гидрологии , моделировании океана и прибрежной инженерии , а также геоморфологии . ИНС используются для обеспечения кибербезопасности с целью различения законных действий и злонамеренных. Например, машинное обучение использовалось для классификации вредоносных программ Android, для определения доменов, принадлежащих злоумышленникам, и для обнаружения URL-адресов, представляющих угрозу безопасности. В настоящее время проводятся исследования систем ИНС, предназначенных для тестирования на проникновение, обнаружения ботнетов, мошенничества с кредитными картами и сетевых вторжений.

ИНС были предложены в качестве инструмента для решения уравнений в частных производных в физике и моделирования свойств открытых квантовых систем многих тел . В исследованиях мозга ИНС изучали краткосрочное поведение отдельных нейронов , динамику нейронных цепей, возникающую из взаимодействий между отдельными нейронами, и то, как поведение может возникать из абстрактных нейронных модулей, которые представляют собой целые подсистемы. Исследования рассматривали долгосрочную и краткосрочную пластичность нейронных систем и их связь с обучением и памятью от отдельного нейрона до системного уровня.

Теоретические свойства

Вычислительная мощность

Многослойный персептрон является универсальной функцией аппроксиматором, как доказано в теореме универсальной аппроксимации . Однако доказательство неконструктивно в отношении количества требуемых нейронов, топологии сети, весов и параметров обучения.

Конкретные рецидивирующий архитектуры с рациональными значными весами (в отличие от полной точности вещественного числа -значного веса) имеют мощность универсальной машины Тьюринга , используя конечное число нейронов и стандартных линейных соединений. Кроме того, использование иррациональных значений весов приводит к машине с супер- силой Тьюринга .

Емкость

Свойство модели «емкость» соответствует ее способности моделировать любую заданную функцию. Это связано с объемом информации, которая может храниться в сети, и с понятием сложности. Сообществу известны два понятия емкости. Информационная емкость и размерность ВК. Информационная способность перцептрона интенсивно обсуждается в книге сэра Дэвида Маккея, обобщающей работу Томаса Ковер. Пропускная способность сети стандартных нейронов (не сверточной) может быть определена с помощью четырех правил, которые вытекают из понимания нейрона как электрического элемента . Информационная емкость охватывает функции, моделируемые сетью при любых данных в качестве входных. Второе понятие - это размер ВК . VC Dimension использует принципы теории меры и находит максимальную пропускную способность при наилучших возможных обстоятельствах. Это при заданных входных данных в определенной форме. Как отмечено выше, размер VC для произвольных входов составляет половину информационной емкости персептрона. Размер VC для произвольных точек иногда называют объемом памяти.

Конвергенция

Модели могут не сходиться последовательно в одном решении, во-первых, потому что могут существовать локальные минимумы, в зависимости от функции стоимости и модели. Во-вторых, используемый метод оптимизации может не гарантировать сходимости, когда он начинается далеко от любого локального минимума. В-третьих, для достаточно больших данных или параметров некоторые методы становятся непрактичными.

Поведение конвергенции одних типов архитектур ИНС изучено лучше, чем других. Когда ширина сети приближается к бесконечности, ИНС хорошо описывается расширением Тейлора первого порядка на протяжении всего обучения и, таким образом, наследует поведение сходимости аффинных моделей . Другой пример: когда параметры малы, можно заметить, что ИНС часто соответствуют целевым функциям от низких до высоких частот. Такое поведение называется спектральным смещением или частотным принципом нейронных сетей. Это явление противоположно поведению некоторых хорошо изученных итерационных численных схем, таких как метод Якоби . Было замечено, что более глубокие нейронные сети более склонны к низкочастотным функциям.

Обобщение и статистика

Приложения, цель которых - создать систему, которая хорошо обобщается на невидимые примеры, сталкиваются с возможностью перетренированности. Это возникает в запутанных или чрезмерно заданных системах, когда пропускная способность сети значительно превышает необходимые свободные параметры. Два подхода к проблеме перетренированности. Первый - использовать перекрестную проверку и аналогичные методы для проверки наличия перетренированности и выбора гиперпараметров для минимизации ошибки обобщения.

Второй - использовать некоторую форму регуляризации . Эта концепция возникает в вероятностной (байесовской) структуре, где регуляризация может быть выполнена путем выбора большей априорной вероятности по сравнению с более простыми моделями; но также и в статистической теории обучения, где цель состоит в том, чтобы минимизировать более двух величин: «эмпирический риск» и «структурный риск», что примерно соответствует ошибке по обучающей выборке и прогнозируемой ошибке в невидимых данных из-за переобучения.

Доверительный анализ нейронной сети

Контролируемые нейронные сети, которые используют функцию стоимости среднеквадратичной ошибки (MSE), могут использовать формальные статистические методы для определения достоверности обученной модели. MSE на проверочном наборе может использоваться как оценка дисперсии. Затем это значение можно использовать для расчета доверительного интервала выходных данных сети, предполагая нормальное распределение . Проведенный таким образом анализ достоверности статистически достоверен, пока выходное распределение вероятностей остается неизменным, а сеть не изменяется.

При назначении SoftMax функции активации , обобщение логистической функции , на выходном слое нейронной сети (или SoftMax компонента в сети на основе компонентов) для категориальных целевых переменных, выходы могут быть интерпретированы как апостериорные вероятности. Это полезно при классификации, поскольку дает определенную степень уверенности в классификациях.

Функция активации softmax:


Критика

Обучение

Распространенная критика нейронных сетей, особенно в робототехнике, заключается в том, что они требуют слишком большого обучения для работы в реальном мире. Возможные решения включают в себя случайное перемешивание обучающих примеров с использованием алгоритма численной оптимизации, который не требует слишком больших шагов при изменении сетевых подключений в соответствии с примером, группирование примеров в так называемые мини-пакеты и / или введение рекурсивного алгоритма наименьших квадратов для CMAC. .

Теория

Основное возражение состоит в том, что ИНС недостаточно отражают функцию нейронов. Обратное распространение - критический шаг, хотя такого механизма не существует в биологических нейронных сетях. Как информация кодируется реальными нейронами, неизвестно. ДАТЧИК нейроны огня потенциалы действия более часто с активацией датчика и мышечных клеток тянуть сильнее , когда связанные с ними двигательные нейроны получают потенциалы действия более часто. За исключением случая передачи информации от сенсорного нейрона к двигательному нейрону, почти ничего не известно о принципах обработки информации биологическими нейронными сетями.

Основное требование ИНС - то, что они воплощают новые и мощные общие принципы обработки информации. Эти принципы плохо определены. Часто утверждается, что они возникают из самой сети. Это позволяет описать простую статистическую ассоциацию (основная функция искусственных нейронных сетей) как обучение или распознавание. Александр Дьюдни отметил, что в результате искусственные нейронные сети обладают «бесполезным качеством», которое придает особую ауру лени и явное отсутствие любопытства по поводу того, насколько хороши эти вычислительные системы. Никакой человеческой руки (или разум) вмешивается; решения находят как по волшебству; и никто, кажется, ничему не научился ". Один из ответов Дьюдни заключается в том, что нейронные сети выполняют множество сложных и разнообразных задач, начиная от автономного управления самолетом и заканчивая обнаружением мошенничества с кредитными картами и овладением игрой в го .

Писатель по технологиям Роджер Бриджмен прокомментировал:

Нейронные сети, например, находятся на скамье подсудимых не только потому, что они были раскручены до небес (а что нет?), Но и потому, что вы можете создать успешную сеть, не понимая, как она работает: набор чисел, который фиксирует ее поведение, по всей вероятности, будет «непрозрачной, нечитаемой таблицей ... бесполезной как научный ресурс».

Несмотря на его решительное заявление о том, что наука - это не технология, Дьюдни, кажется, здесь называет нейронные сети плохой наукой, когда большинство из тех, кто их разрабатывает, просто пытаются стать хорошими инженерами. Нечитаемую таблицу, которую могла бы прочитать полезная машина, все равно стоило бы иметь.

Биологический мозг использует как мелкие, так и глубокие цепи, как сообщает анатомия мозга, демонстрируя широкий спектр инвариантности. Вэн утверждал, что мозг самонастраивается в основном в соответствии со статистикой сигналов, и, следовательно, последовательный каскад не может уловить все основные статистические зависимости.

Аппаратное обеспечение

Большие и эффективные нейронные сети требуют значительных вычислительных ресурсов. В то время как в мозгу есть оборудование, адаптированное к задаче обработки сигналов через граф нейронов, моделирование даже упрощенного нейрона на архитектуре фон Неймана может потреблять огромные объемы памяти и хранилища. Кроме того, разработчику часто требуется передавать сигналы через многие из этих соединений и связанных с ними нейронов, что требует огромной мощности и времени процессора .

Шмидхубер отметил, что возрождение нейронных сетей в двадцать первом веке в значительной степени связано с достижениями в области аппаратного обеспечения: с 1991 по 2015 год вычислительная мощность, особенно предоставляемая GPGPU (на графических процессорах ), увеличилась примерно в миллион раз, что сделало стандартный алгоритм обратного распространения ошибки возможен для обучающих сетей, которые на несколько уровней глубже, чем раньше. Использование ускорителей, таких как ПЛИС и графические процессоры, может сократить время обучения с месяцев до дней.

Нейроморфная инженерия или физическая нейронная сеть решает проблему аппаратного обеспечения напрямую, создавая не-фон Неймановские микросхемы для непосредственной реализации нейронных сетей в схемах. Другой тип микросхемы, оптимизированный для обработки нейронных сетей, называется Tensor Processing Unit или TPU.

Практические контрпримеры

Анализировать то, что было изучено с помощью ИНС, намного проще, чем анализировать то, что было изучено биологической нейронной сетью. Кроме того, исследователи, занимающиеся изучением алгоритмов обучения нейронных сетей, постепенно открывают общие принципы, которые позволяют машине обучения быть успешной. Например, локальное и нелокальное обучение, мелкая или глубокая архитектура.

Гибридные подходы

Сторонники гибридных моделей (сочетающих нейронные сети и символические подходы) утверждают, что такая смесь может лучше охватить механизмы человеческого разума.

Галерея

Смотрите также

Примечания

использованная литература

Библиография

внешние ссылки