Глубокое изучение - Deep learning


Из Википедии, свободной энциклопедии

Глубокое изучение (также известное как глубокое структурированное обучение или иерархическое обучение ) является частью более широкого семейства машинного обучения методы , основанной на изучение представлений данных , в отличии от конкретных задач алгоритмов. Обучение может быть под контролем , полуобучаемой или неконтролируемой .

Глубокие архитектуры обучения , такие как глубокие нейронные сети , глубокие сети верований и рецидивирующий нейронные сети были применены к областям , включая компьютерное зрение , распознавание речи , обработки естественного языка , аудио распознавания, фильтрации социальной сети, машинный перевод , биоинформатику , разработки лекарственных препаратов , анализ медицинских изображений , осмотр материала и настольные игры программа, где они дали результаты , сравнимые с , а в некоторых случаях превосходят человек эксперт.

Глубокие модели обучения нечетко вдохновленные обработки информации и структура связи в биологических нервных системах еще имеют различные отличия от структурных и функциональных свойств биологических мозгов (особенно человеческий мозг ), что делает их несовместимыми с нейронаука доказательствами.

содержание

Определение

Глубокое изучение является классом машинного обучения алгоритмов , что:

  • использовать каскад нескольких слоев нелинейной обработки блоков для извлечения признаков и трансформации. Каждый последующий слой использует выходной сигнал из предыдущего слоя в качестве входных данных.
  • учиться в контролируемой (например, классификации) и / или оставлен без присмотра (например, анализ картины) манеры.
  • узнать несколько уровней представлений, которые соответствуют различным уровням абстракции; уровни образуют иерархию понятий.

обзор

Большинство современных глубокие модели обучения основаны на искусственной нейронной сеть , хотя они также могут включать в себя пропозициональные формулы или латентные переменные , организованные послойным в глубоких моделях порождающих таких как узлы в глубоких сетях веры и глубоких машинах Больцмана .

В глубоком обучении, каждый уровень учится трансформировать свои входные данные в несколько более абстрактное и композиционное представление. В приложении распознавания изображений, сырье ввод может быть матрицей пикселей; первый слой может репрезентативный абстрактные пиксели и кодирует ребро; второй слой может составлять и кодировать механизмы ребер; третий слой может кодировать нос и глаз; и четвертый слой может признать , что изображение содержит лицо. Важно отметить, что глубокий процесс обучения может узнать , какие функции оптимально разместить в которых уровень сам по себе . (Конечно, это не полностью устраняет необходимость ручной настройки, например, различным количество слоев и размеры слоев могут обеспечить различную степень абстракции.)

«Глубокий» в «глубоком обучении» относится к числу слоев , через которые трансформированной данные. Более точно, глубокие системы обучения имеют значительный путь кредитного присваивания (CAP) глубину. CAP является цепочка преобразований от входа к выходу. ПСП описывает потенциально причинные связи между входом и выходом. Для предуправления нейронной сети , глубина ПСП является то , что в сети , и это число скрытых слоев плюс один (как выходной слой также параметризованных). Для повторяющихся нейронных сетей , в которых сигнал может распространяться через слой несколько раз, глубина CAP потенциально неограниченна. Нет универсально согласованных порог глубины делит неглубокое обучение с углубленного изучения, но большинство исследователей сходятся на том , что глубокое изучение вовлекает CAP глубину> 2. CAP глубины 2 было показано, что универсальный аппроксиматор в том смысле , что он может эмулировать любую функцию. Помимо того, что более слоев не добавляет к функции аппроксиматор способности сети. Глубокие модели (CAP> 2) способны извлечь лучшие характеристики , чем мелкие модели и , следовательно, дополнительные слои помогают в особенности обучения.

Глубокие архитектуры обучения часто строятся с жадным методом слой за слоем. Глубокое изучение помогает распутать эти абстракции и выбрать, какие функции повышения производительности.

Для поднадзорного обучения задач, глубокие методы обучения устранят особенность инженерию , путем перевода данных в компактные промежуточные представления родственных основных компонентов , а также получить слоистые структуры , которые устраняют избыточность в представлении.

Алгоритмы Глубоких обучений могут быть применены к неконтролируемым учебным задачам. Это важное преимущество , так как немаркированные данные более многочисленны , чем меченые данные. Примеры глубоких структур , которые могут быть обучены неконтролируемым образом , являются нейронными компрессорами истории и глубокими сети доверия .

Интерпретации

Глубокие нейронные сети , как правило , интерпретируются в терминах универсальной теоремы приближения или вероятностного вывода .

Универсальная теорема Классического приближения касается потенциала Feedforward нейронных сетей с одним скрытым слоем конечного размера , чтобы аппроксимировать непрерывные функции . В 1989 году первое доказательство было опубликовано Джордж Сибенко для сигмовидной функций активации и была обобщена на опережающее архитектуры многоуровневые в 1991 году Курт Hornik.

Универсальная теорема аппроксимации для глубоких нейронных сетей относится к способности сетей с ограниченной шириной , но глубина позволено расти. Лу и др. Доказано , что если ширина глубокой нейронной сети с РЕЛУ активации строго больше , чем размер входного сигнала, то сеть может аппроксимировать любую Лебегу функцию ; Если ширина меньше или равна размерности входной, то глубоко нейронная сеть не является универсальным аппроксиматор.

Вероятностная интерпретация происходит от области машинного обучения . Он имеет умозаключение, а также оптимизации концепции обучения и тестирования , связанные с присоединением и обобщения , соответственно. Более конкретно, вероятностная интерпретация учитывает нелинейность активации в качестве интегральной функции распределения . Вероятностная интерпретация привела к введению отсева как регуляризатор в нейронных сетях. Вероятностная интерпретация была введена исследователями , включая Хопфилд , Уидроу и Нарендру и популяризировал в обзорах , таких , как тот , по Бишоп .

история

Термин Deep Learning был введен сообществу машинного обучения по Рине Дечтер в 1986 году, а также искусственные нейронные сети Игоря Айзенберг и коллеги в 2000 году, в контексте пороговых нейронов булевых.

Первый общий, работающий алгоритм обучения для контролируемого, глубокого, упреждения, многослойные персептроны были опубликован Алексеем Ивахненко и Лапами в 1965 году 1971 бумаги описана глубокая сеть с 8 слоями обученных по методу групповой обработки данных алгоритма.

Другие глубокие обучения работают архитектуры, специально построенные для компьютерного зрения , начались с Неокогнитроном введенного Кунихико Фукусиме в 1980 г. В 1989 г. Лекун и др. применен стандартный алгоритм обратного распространения, который был вокруг в качестве обратного режима автоматического дифференцирования с 1970 года, к глубокой нейронной сети с целью распознавания рукописных коды ZIP на почте. Хотя алгоритм работал, требуется обучение 3 дня.

К 1991 году таких систем были использованы для распознавания изолированных 2-D рукописных цифр, в то время как распознающие объекты 3-D был сделаны путем сопоставления 2-D изображений с ручным объектной моделью 3-D. Вэн и др. Предполагается , что человеческий мозг не использует монолитную объектную модель 3-D , а в 1992 году они опубликовали Cresceptron, способ выполнения распознавания объекта 3-D в перегруженных сценах. Потому что непосредственно использовали природные образы, Cresceptron начал начало общего назначения визуального изучения природных 3D миров. Cresceptron представляет собой каскад из слоев аналогичен Неокогнитрон. Но в то время как Неокогнитрон требуется человеческий программисту вручную объединить функции, Cresceptron узнал открытый ряд особенностей в каждом слое без присмотра, где каждая функция представлена ядром свертки . Cresceptron сегментирован каждый узнал объект из загроможденной сцены через обратный анализ через сеть. Макс пулы , теперь часто принимается глубокими нейронными сетями (например , ImageNet тесты), был впервые использован в Cresceptron уменьшить разрешение позиции на коэффициент (2х2) на 1 через каскад для лучшего обобщения.

В 1994 году Андре де Карвальо, вместе с Майком Фейрхёрстом и Дэвид Биссет, опубликовал экспериментальные результаты многослойным булевой нейронной сети, также известный как невесомой нейронной сети, состоящей из 3- х слоев самоорганизующейся извлечения признаков модуля нейронной сети ( SOFT) , а затем модуль многослойной классификации нейронной сети (ПСГ), которые независимо друг от друга подготовки. Каждый слой в модуле выделения признаков извлекаются черты с возрастающей сложностью относительно предыдущего слоя.

В 1995 году , Brendan Frey показал , что можно было обучить (за два дня) сеть , содержащая шесть полностью соединенных слоев и несколько сотен скрытых блоков , используя алгоритм бодрствование-сон , разработанное совместно с Питером Даяна и Хинтон . Многие факторы влияют на медленной скорости, в том числе исчезающей проблемы градиентной анализируемой в 1991 году Йозефом Hochreiter .

Упрощенные модели, использующие конкретные задачи ручной функции , такие как Габор фильтры и опорные векторы (SVM) были популярной в 1990 - х и 2000 - х годах, из - за искусственную нейронную сеть «s (ИНС) вычислительных затрат и отсутствия понимания того , как мозг провод его биологические сети.

И поверхностное и глубокое обучение (например, рецидивирующие сети) ИНС были изучены в течение многих лет. Эти методы не обогнали неравномерную внутренней Gaussian ручных ремесел модели смеси / Hidden Markov модель технологии (GMM-СММ) на основе генеративных моделей речи обученных дискриминационно. Основные трудности были проанализированы, в том числе градиента уменьшения и слабой временной корреляционной структуру нейронных моделей прогнозирования. Дополнительные трудности были отсутствием обучающих данных и ограниченных вычислительных мощностей.

Большинство распознавания речи исследователи отошли от нейронных сетей преследовать порождающее моделирование. Исключением был SRI International в конце 1990 - х годов. Финансируется правительством США АНБ и DARPA , НИИ изучали глубокие нейронных сетей в речи и распознавания диктора. Команда распознавания диктора Хека добилась первого значительного успеха с глубокими нейронными сетями в обработке речи в 1998 году Национального института стандартов и технологии оценке Громкоговоритель распознавания. В то время как SRI испытал успех с глубокими нейронными сетями распознавания акустических систем , они не увенчались успехом продемонстрировать подобный успех в распознавании речи. Принцип подъема «сырые» особенности по сравнению с ручной оптимизации был впервые успешно исследовал в архитектуре глубокой автоассоциатор на «сырой» спектрограммы или линейных функций фильтра-банка в конце 1990 - х годов, показывая свое превосходство над Mel-кепстральных функций, содержат этапы перехода от фиксированных спектрограмм. Необработанные особенности речи, формы волны , позже превосходные результаты крупномасштабных.

Многие аспекты распознавания речи были переданы глубокий метод обучения под названием долго кратковременная память (LSTM), рекуррентной нейронной сети , опубликованной Hochreiter и Шмидхубера в 1997 году LSTM RNNs избежать исчезающую проблему градиента и может учиться «Очень Глубокое изучение» задачи, требующие воспоминания о событиях , которые произошли тысячи дискретных временных шагов до того , что важно для речи. В 2003 годе LSTM начала становиться конкурентоспособным с традиционным распознаванием речи на выполнении определенных задач. Позднее она была объединена с коннекционистской временной классификацией (ККА) в штабелях LSTM RNNs. В 2015 году, распознавания речи Google, как сообщается , произошел резкий скачок производительности на 49% через КТК обученной LSTM, которые они сделали доступны через Google Voice Search .

В 2006 годе , публикации по Geoff Хинтон , Руслан Салахутдинам, Osindero и Дэ показали , как много-слоистого упреждение нейронной сети может быть эффективно предварительно обучен один слой за один раз, рассматривая каждый слой в своей очереди , как неконтролируемая ограниченной машина Больцмана , то мелко- настраивая его с помощью контролируемого обратного распространения . Бумаги называют обучение для глубоких сетей верований.

Глубокое изучение является частью внедренный систем в различных областях, в частности , компьютерного зрения и автоматического распознавания речи (ASR). Результаты на наиболее часто используемые наборах оценки , такие как TIMIT (ASR) и MNIST ( классификации изображений ), а также в области больших-лексике задач распознавания речи постоянно улучшаются. Сверточные нейронные сети (CNNs) были заменены на ASR СТС для LSTM. но более успешны в области компьютерного зрения.

Влияние глубокого обучения в промышленности началось в начале 2000-х годов, когда CNNs уже обработали по оценкам от 10% до 20% от всех проверок, написанных в США, в соответствии с Лекун. Промышленное применение глубокого изучения в крупномасштабном распознавания речи началось примерно в 2010 году.

2009 NIPS семинар по Deep Learning для распознавания речи был мотивирован ограничениями глубоких моделей генеративных речи, а также возможность того, что дано более совместимых аппаратные средства и крупномасштабные наборы данных, что глубокие нейронные сети (DNN) могут стать практичными. Считалось, что предварительная подготовка DNNS с использованием порождающие модели глубоких сетей верований (ДБН) будет преодолеть основные трудности нейронных сетей. Тем не менее, было обнаружено, что замена предварительной подготовки с большим количеством обучающих данных для непосредственного обратного распространения при использовании DNNS с большими, контекстно-зависимых выходных слоев, полученных коэффициентов ошибок значительно ниже, чем тогда-состоянии самой современной модели гауссовой смеси (GMM ) / Hidden Markov Model (СММ), а также, чем более продвинутых генеративных систем на основе моделей. Характер ошибок распознавания, полученных два типов систем был характерно разные, предлагая техническое понимание того, как интегрировать глубокое обучение в существующем высокоэффективную, время выполнения системы декодирования речи, развернутой всех основных системы распознавания речи. Анализ около 2009-2010, противопоставил GMM (и другие генеративные модели речи) по сравнению с моделями DNN, стимулировал раннеиндустриальных инвестицию в глубоком обучении для распознавания речи, в конечном итоге приводит к повсеместному и доминирующему использованию в этой отрасли. Этот анализ был сделан с сопоставимой производительностью (менее чем 1,5% в частоте ошибок) между дискриминационным DNNS и генеративной моделей.

В 2010 году исследователи расширить глубокое изучение от TIMIT до большого словаря распознавания речи, путем принятия больших выходных слоев DNN на основе контекстно-зависимых состояний СММ построенных деревьев решений .

Прогресс в области аппаратных средств позволило возобновление интереса. В 2009 году , Nvidia был вовлечен в то , что называется «большой взрыв» глубокого обучения « как глубокие обучения нейронных сетей были обучены с Nvidia графических процессоров (GPU).» В этом году, Google Brain использовали графические процессоры NVIDIA для создания способных DNNS , В то время, Ng установлено , что графические процессоры могут увеличить скорость глубоководной системы обучения около 100 раз. В частности, графические процессоры хорошо подходят для матрицы / вектор математики , участвующей в машинном обучении. Графические процессоры ускорить алгоритмы обучения на несколько порядков, уменьшение продолжительности работы в от нескольких недель до нескольких дней. Специализированные аппаратные и алгоритм оптимизации может быть использована для эффективной обработки.

Глубокая революция обучения

В 2012 году команда под руководством Dahl выиграл «Merck Molecular активность Challenge» с использованием многоцелевых глубоких нейронных сетей для прогнозирования биомолекулярной цель одного препарата. В 2014 году группа Hochreiter использовали глубокое изучение , чтобы обнаружить вне цели и токсическое воздействие окружающей среды химических веществ в питательных веществ, бытовых изделий и лекарственных средств и выиграл «Tox21 Data Challenge» из NIH , FDA и NCATS .

Значительные дополнительные воздействия на изображении или объект распознавание ощущалось с 2011 по 2012 году Хотя CNNs обученного обратного распространения было вокруг в течение многих десятилетий, и реализация ГПУ NNS в течение многих лет, в том числе CNNs, быстрые реализации CNNs с макс-Объединив на графических процессорах в стиле из Ciresan и его коллег были необходимы для прогресса в области компьютерного зрения. В 2011 году этот подход достиг в первый раз нечеловеческой работы в визуальном конкурсе распознавания образов. Также в 2011 году он выиграл конкурс рукописного ICDAR китайский, а в мае 2012 года , он выиграл конкурс сегментации изображений ISBI. До 2011 года CN не играла главную роль в компьютерном зрении конференциях, но в июне 2012 года статья Ciresan и др. на ведущей конференции CVPR показала , как Макс-Объединив CNNs на GPU может значительно улучшить многие видения эталонных записей. В октябре 2012 года аналогичной системы по Крижевской и др. выиграл крупномасштабную ImageNet конкуренции со значительным отрывом от неглубоких методов машинного обучения. В ноябре 2012 года система Ciresan и др. Также выиграл конкурс ICPR на анализе крупных медицинских изображений для обнаружения рака, и в следующем году также MICCAI Grand Challenge по той же теме. В 2013 и 2014 годах, частота ошибок на задаче ImageNet с использованием глубокого обучения был сокращен, после аналогичной тенденции в крупномасштабном распознавания речи. Wolfram проект Identification Image огласка этих улучшений.

Классификация Изображения было затем распространена на более сложную задачу генерации описаний (титры) для изображений, часто в комбинации CNNs и LSTMs.

Некоторые исследователи оценивают, что ImageNet победа октября 2012 якорь старт «глубокого изучения революции», которая превратила индустрию AI.

Нейронные сети

Искусственные нейронные сети

Искусственные нейронные сети ( ИНС ) или Коннекшионистские системы являются вычислительными системами , вдохновленных биологическими нейронными сетями , которые составляют мозг животных. Такие системы обучения (постепенно улучшить их способность) для выполнения задач, рассматривая примеры, как правило , без конкретных задач программирования. Так , например, в распознавании изображений, они могут научиться распознавать образа , которые содержат кошка, анализируя примеры изображений , которые были вручную помечены как «кошка» или «нет» кошек и используя аналитические результаты для идентификации кошек в других изображениях. Они нашли применение в наиболее сложных приложениях , чтобы выразить с помощью традиционного компьютерного алгоритма с использованием правил на основе программирования .

ИНС на основе коллекции подключенных устройств , называемых искусственными нейронами , (аналог биологических нейронов в биологическом мозге ). Каждое соединение ( синапс ) между нейронами может передавать сигнал другого нейрона. Приема (постсинаптические) нейрон может обрабатывать сигнал (ы) , а затем вниз по течению сигнал нейронов , подсоединенных к нему. Нейроны может иметь состояние, как правило , представленное действительных чисел , обычно между 0 и 1. Нейроны и синапсы могут также иметь вес , который изменяется в качестве учебных средств, которые могут увеличивать или уменьшать уровень сигнала , который он посылает вниз по течению.

Как правило, нейроны организованы в слои. Различные слои могут выполнять различные виды преобразований на их входах. Сигналы перемещаются от первого (входного), до последнего (выходного) слоя, возможно, после прохождения слоев несколько раз.

Первоначальная цель сетевого подхода нейронного было решать проблемы таким же образом, что человеческий мозг. Со времени, внимание сосредоточено на соответствие конкретных умственные способностей, что приводит к отклонениям от биологии, таких как прямое распространение или передачи информации в обратном направлении и настройке сети, чтобы отразить эту информацию.

Нейронные сети были использованы на различных задач, в том числе компьютерного зрения, распознавания речи , машинного перевода , социальной сети фильтрации, играя в настольные и видеоигры и медицинской диагностики.

По состоянию на 2017 года, нейронные сети, как правило, имеют несколько тысяч до нескольких миллионов единиц и миллионов соединений. Несмотря на это число которых на несколько порядков меньше, чем число нейронов на человеческий мозг, эти сети могут выполнять множество задач на уровне за что людей (например, распознающего лица, играя «Go»).

Глубокие нейронные сети

Глубокая нейронная сеть (DNN) является искусственной нейронной сетью (ИНС) с несколькими слоями между входными и выходным слоями. DNN находит правильную математическую манипуляцию , чтобы превратить вход в выход, будь то линейная зависимость или нелинейное соотношение. Сеть перемещается через слои вычисления вероятности каждого выхода. Например, DNN , который обучен распознавать породы собак будет идти по заданному изображению и вычислить вероятность того, что собака в изображении является определенной породой. Пользователь может просмотреть результаты и выбрать вероятности сеть должна отображать (выше определенный порог, и т.д.) и вернуть предложенный ярлык. Каждая математическая манипуляция как таковой считаются слоем, и комплексом DNN имеет много слоев, отсюда и название «глубокая» сеть. Цель состоит в том, что в конце концов, сеть будет обучен для разложения изображения в особенности , выявить тенденции , которые существуют во всех образцах и классификации новых изображений от их сходства , не требуя ввода информации человеком.

DNNS может моделировать сложные нелинейные отношения. DNN архитектуры генерируют композиционные модели , в которых объект выражается в виде слоистой композиции примитивов . Дополнительные слои позволяют состав функций из нижних слоев, потенциально моделирования сложных данных с меньшим количеством единиц , чем аналогично исполняющей мелкой сети.

Глубокие архитектуры включают в себя множество вариантов несколько основных подходов. Каждая архитектура успеха в конкретных областях. Это не всегда можно сравнить производительность нескольких архитектур, если они не были оценены на один и те же наборы данных.

DNNS, как правило, с прямой связью по сети, в котором потоки данных из входного слоя к выходному слою без цикла назад. Во-первых, DNN создает карту виртуальных нейронов и присваивает случайные числовые значения, или «веса», чтобы связь между ними. Веса и входы умножаются и возвращают выход между 0 и 1. Если сеть не точно распознать конкретный шаблон, алгоритм скорректируют весы. Таким образом, алгоритм может сделать определенные параметры более влиятельны, пока он не определяет правильную математическую манипуляцию, чтобы полностью обработать данные.

Периодические нейронных сетей (RNNs), в которой данные могут течь в любом направлении, используются для приложений , таких как язык моделирования . Длинная кратковременная память является особенно эффективной для такого использования.

Сверточных глубокие нейронные сети (CNNs) используются в компьютерном зрении. CNNs также был применен к акустическим моделированию для автоматического распознавания речи (ASR).

проблемы

Как и ИНС, многие проблемы могут возникнуть с наивностью обученного DNNS. Две общие вопросы переобучения и время вычислений.

DNNS склонны к переобучению из добавленных слоев абстракции, которые позволяют им моделировать редкие зависимости в обучающих данных. Регуляризация метода , такие как блок обрезка или Ивахненко по весу распад ( -regularization) или разреженности ( -regularization) может быть применена во время тренировки по борьбе с переобучением. В качестве альтернативы отсева регуляризации случайного образом пропускает единицу из скрытых слоев в процессе обучения. Это позволяет исключить редкую зависимость. Наконец, данные могут быть увеличены с помощью таких методов, как обрезка и вращение таким образом, что небольшие учебные наборы могут быть увеличены в размерах , чтобы снизить вероятность переобучения.

DNNS должен учитывать множество параметров обучения, такие как размер (количество слоев и количество единиц в слой), на скорость обучения и начальные весы. Подметание через пространство параметров для оптимальных параметров может оказаться невозможным из - за затрат времени и вычислительных ресурсов. Различные приемы, такие как дозирования (вычисления градиента на несколько обучающих примеров сразу , а не отдельных примеров) ускорить вычисление. Большие возможности обработки многих многоядерных архитектур (например, графические процессоры или Intel Xeon Phi) привели к значительным ускорениям в обучении, из - за пригодности таких архитектур обработки для матричных и векторных вычислений.

Кроме того , инженеры могут искать другие типы нейронных сетей с более простыми и сходящимися алгоритмами обучения. КЦР ( мозжечковая модель контроллер сочленения ) является одним из таких родов нейронной сети. Она не требует обучения ставки или рандомизированные начальные веса для КЦР. Процесс обучения может быть гарантировано сходиться в одну стадию с новой порцией данных, а вычислительная сложность алгоритма обучения является линейным относительно числа нейронов , участвующих.

Приложения

Автоматическое распознавание речи

Масштабная автоматическое распознавание речи является первым и наиболее убедительным успешным примером глубокого изучения. LSTM RNNs может научиться «Очень Deep Learning» задачи, которые включают несколько секундные интервалы, содержащие речевые события, разделенные тысячами дискретных шагов по времени, где один шаг по времени соответствует примерно 10 мс. LSTM с забыть ворота конкурентоспособен с традиционным распознаванием речи на выполнении определенных задач.

Первоначальный успех в распознавании речи был основан на мелкомасштабных задачах распознавания , основанных на TIMIT. Набор данных содержит 630 докладчиков из восьми основных диалектов в американском варианте английского языка , где каждый оратор читает 10 предложений. Его небольшой размер позволяет много конфигураций судить. Более важно то , что касается TIMIT задачи распознавания телефона-последовательности, которая, в отличии от распознавания слов последовательности, позволяет слабому телефону биграммы языковых моделей. Это позволяет прочность моделирования акустических аспектов распознавания речи быть более легко проанализирована. Скорости ошибок перечисленные ниже, в том числе ранних результатов и измеряется как процент ошибок процента телефон (PER), были суммированы с 1991 года.

метод ПЕР (%)
Случайным Initialized РНН 26,1
Байесовский Triphone GMM-HMM 25,6
Скрытая Траектория (генеративная) Модель 24,8
Монофонная Случайный Initialized DNN 23,4
Монофонное ДБН-DNN 22,4
Triphone GMM-НММЫ с подготовкой BMMI 21,7
Монофонное ДБН-DNN на fbank 20,7
Конволюционное DNN 20,0
Конволюционное DNN ш. Гетерогенный Pooling 18,7
Ансамбль DNN / CNN / РНН 18,3
Двунаправленный LSTM 17,9
Иерархическая Конволюционное Deep Maxout Network 16,5

Дебют DNNS для распознавания диктора в конце 1990-х и распознавании речи около 2009-2011 лет и в LSTM около 2003-2007, ускоренного прогресса в восьми основных областях:

  • Расширение масштабов подготовки и декодирования / выходов и acclerated DNN
  • Последовательность дискриминационное обучение
  • при обработке функции глубоких моделей с глубоким пониманием основных механизмов
  • Адаптация DNNS и связанных с ними глубоких моделей
  • Multi-задача и обучение передачи по DNNS и связанными с ними глубокими моделями
  • CNNs и как проектировать их , чтобы наилучшим образом использовать знания предметной области речи
  • РНН и его богатые варианты LSTM
  • Другие типы глубоких моделей, включая модели тензорной основы и интегрированную глубокую генеративную / гуманную модель.

Все основные коммерческие системы распознавания речи (например, Microsoft Кортана , Xbox , Skype Переводчик , Amazon Alexa , Google Теперь , Apple , Siri , Baidu и IFLYTEK голосового поиска, и диапазон Nuance речевых продуктов и т.д.) основаны на глубоком обучении.

распознавание образов

Обычная оценка набора для классификации изображений является набором данных базов данных MNIST. MNIST состоит из рукописных цифр и включает 60000 примеров обучения и 10000 примеров испытаний. Как TIMIT, его небольшой размер позволяет пользователям тестировать несколько конфигураций. Полный список результатов на этом наборе имеется.

Глубокое распознавание образов обучения на основе стало «сверхчеловеком», производя более точные результаты, чем человек конкурентов. Это первое место в 2011 году.

Глубокое изучение подготовленных транспортных средств в настоящее время интерпретировать 360 ° вид на камеры. Другой пример может служить дисморфологии лица Нового анализ (FDNA) используется для анализа случаев человеческой мальформации, соединенной с большой базой данных генетических синдромов.

обработка Визуальное искусство

Тесно связана с прогрессом , который был достигнут в распознавании изображений является все большее применение глубоких методов обучения для различных задач изобразительного искусства. DNNS зарекомендовали себя способными, например, а) определение периода стиля данной картины, б) Neural Style Transfer - захватывая стиль данного произведения и его применение в визуально приятном способе произвольной фотографии или видео, а также с) генерацией поразительных изображений на основе случайного визуального полого ввода.

Обработка естественного языка

Нейронные сети используются для реализации моделей языка с начала 2000-х годов. LSTM помогли улучшить машинный перевод и моделирования языка.

Другие ключевые методы в этой области отрицательные выборки и слово вложение . Слово вложение, такие как word2vec , можно рассматривать в качестве репрезентативного слоя в глубокой архитектуре обучения, меняющая атомное слово в позиционное представление слова по отношению к другим словам в наборе данных; позиция представлена в виде точки в векторном пространстве . Используя слово вложения в качестве входного слоя РННА позволяет сеть для разбора предложений и фраз с использованием эффективной композиционной вектор грамматики. Композиционное вектор грамматики можно рассматривать как вероятностное контекстно - свободной грамматики (PCFG) , осуществляемой в RNN. Рекурсивные авто-кодеры , построенные поверх слова вложений можно оценить приговор схожесть и выявление перефразируя. Глубокие нейронные архитектуры обеспечивают лучшие результаты для избирательного округа разбора , анализа настроений , поиска информации, общение понимания языка, машинного перевода, контекстной объекта связывания, распознавания стиля письма, классификации текста и других.

Последние события обобщать слово вложения в приговорить вложение .

Google Переводчик (GT) использует большую конец в конец длинной кратковременной сеть памяти. Google Neural Machine Translation (GNMT) использует пример на основе машинного перевода метод , в котором система «узнает из миллионов примеров.» Он переводит «целые предложения , в то время, а не части. Google Translate поддерживает более сотни языков. Сеть кодирует„семантику предложения , а не просто запоминая фразы-к-фразу переводов“. GT использует английский язык в качестве промежуточного между наиболее языковые пары.

Обнаружение наркотиков и токсикологии

Большой процент потенциальных лекарственных средств не в состоянии выиграть одобрение регулирующих органов. Эти неудачи обусловлены недостаточной эффективностью (на мишени эффект), нежелательные взаимодействия (офф-мишени эффектов), или непредвиденных токсических эффектов . Исследования исследовались использование глубокого изучения для прогнозирования биомолекул целей , отходящих целей , а также токсического воздействия экологических химических веществ в питательных веществах, бытовые изделиях и лекарственных средствах.

AtomNet глубокая система обучения для структуры на основе рационального дизайна лекарств . AtomNet был использован для прогнозирования новых кандидатов биомолекул для целей заболеваний , таких как вирус Эбола и рассеянный склероз .

Управление взаимоотношениями с клиентами

Глубокое обучение с подкреплением было использовано для аппроксимации значений возможных прямых маркетинговых действий, определенных в терминах RFM переменных. Функция оценочного значения была показана, имеет естественную интерпретацию как жизни клиента стоимость .

системы Рекомендации

Рекомендация система использовала глубокое обучение, чтобы извлечь значимые возможности для скрытой факторной модели для рекомендаций музыкального контента на основе. Multiview глубокое изучение применялось для изучения предпочтений пользователей из нескольких доменов. Модель использует гибридный совместный и контент на основе подхода и повышает рекомендации в нескольких задачах.

Биоинформатика

Автоассоциатор ИНС был использован в биоинформатики , чтобы предсказать ген онтологии аннотации и ген-функциональные отношения.

В медицинской информатике, глубокое обучение было использовано для прогнозирования качества сна на основе данных из носимых и предсказаний осложнений от электронных медицинских записей данных. Глубокое изучение также показало эффективность в здравоохранении .

Искусственный интеллект и Глубокое изучение в отношении здравоохранения

В последние года область здравоохранения видела выгоду от универсализации искусственно интеллектуальных машин для выполнения задач (например, измерения артериального давления), но не узнать, как интерпретировать то, что мы знаем. Это важное событие, мы видим теперь, что может существенно продвинуть наши диагностические способности. В корреляции мы также можем наблюдать более лучшие показатели выживаемости для некоторых заболеваний, мы можем сосредоточиться на профилактике заболеваний, а не в обратном направлении подхода пытается лечить болезнь, как только оно было приобретено. Это делается с помощью варианта искусственного интеллекта под названием «глубокого обучения», в которой программное обеспечение «научается распознавать образы в различных слоях ... и каждый из нейронной сети слой работает как самостоятельно, так и совместно, разделяя аспекты, такие как цвет, размер и форма до объединения результатов»медицинской визуализации (Forbes, 2018). Это продвижение в использовании визуальных средств имеет жизненно важное значение для улучшения медицинской диагностики. Основная идея здесь в том, что в последние годы мы только использовали искусственный интеллект на самом базовом уровне-обучая машин для выполнения человеческих навыков. Хотя это был большой прогресс, новые идеи Изучаются о машинного обучения и глубокое изучение оказывают еще большее влияние на здравоохранение в настоящее время и будет продолжать давать успех на будущих открытий. «Эти новые визуальные инструменты держать обещание трансформации диагностической медицины и может даже найти рак на индивидуальном уровне клеток.» (Forbes, 2018).

https://www.forbes.com/sites/robertpearl/2018/03/13/artificial-intelligence-in-healthcare/#7169a8941d75

https://www.sas.com/en_us/solutions/ai/health-life-sciences.html

Мобильная реклама

Поиск соответствующей мобильной аудитории для мобильной рекламы всегда является сложной задачей, так как много точек данных должны быть рассмотрены и усваиваются перед целевым сегментом может создаваться и использоваться в объявлении, служащее любой сервер объявлений. Глубокое изучение используется для интерпретации больших, много-размерами рекламных наборов данных. Много точек данных собраны во время запроса / обслуживания / нажмите Интернет рекламный цикл. Эта информация может стать основой машинного обучения, чтобы улучшить выбор объявлений.

восстановление изображений

Глубокое изучение успешно применяется для обратных задач , таких как шумоподавление , супер-разрешение , inpainting и КОЛОРИЗАЦИИ . Эти приложения включают в себя методы обучения , такие как «усадка Поле для эффективного восстановления изображения» , который тренируется на наборе данных изображения, и Deep Image Prior , готовящее на изображении , которое нуждается в реставрации.

Обнаружение финансового мошенничества

Глубокое изучение успешно применяются для финансового выявления случаев мошенничества и борьбы с отмыванием денег. «Глубокая система обнаружения по борьбе с отмыванием денег , может обнаружить и распознать отношения и сходство между данными и, далее вниз по дороге, научиться обнаруживать аномалии или классифицировать и предсказывать конкретные события». Решение использует как контролируемые методы обучения, такие как классификация подозрительных операций и неконтролируемого обучения, например , обнаружение аномалий.

военный

Государственный департамент Соединенных обороны применяется глубокое обучение, чтобы обучить роботов в новых задач путем наблюдения.

Отношение к когнитивным и мозга человеческого развития

Глубокое изучение тесно связано с классом теорий развития мозга ( в частности, неокортекса развитие) , предложенный когнитивных нейробиологов в начале 1990 - х годов. Эти теории развития были конкретизируется в вычислительных моделях, что делает их предшественник глубоких систем обучения. Эти модели развития разделяют свойство , что различные предлагаемые динамики обучения в головном мозге (например, волну фактора роста нервов ) поддерживать самоорганизацию несколько аналогичной нейронные сети , используемые в глубоких моделях обучения. Как и в коре головного мозга , нейронные сети используют иерархию слоистых фильтров , в которых каждый слой считает информацию из предыдущего слоя (или операционной среды), а затем передает свой выходной сигнал (и , возможно , первоначальный ввод данных), с другими слоями. Этот процесс дает самоорганизующуюся стек датчиков , отлаженную их операционной среде. В 1995 году описание заявил, что »... мозг младенца кажется самоорганизоваться под воздействием волн , так называемых трофических-факторов ... различных областей мозга становятся соединены последовательно, с одним слоем ткани созревания перед другим и так далее , пока весь мозг не является зрелым «.

Разнообразие подходов были использовано для изучения правдоподобия глубоких моделей обучения с точки зрения нейробиологическом. С одной стороны, несколько вариантов обратного распространения алгоритма были предложены в целях повышения ее обработки реализма. Другие исследователи утверждают , что неконтролируемые формы глубокого обучения, такие как те , которые основаны на иерархических моделях генеративных и глубоких сетей убеждений , может быть ближе к биологической реальности. В связи с этим, порождающие модели нейронных сетей, были связаны с нейробиологическими доказательствами об обработке выборки на основе в коре головного мозга.

Хотя систематическое сравнение между организацией головного мозга человека и нейронного кодирования в глубоких сетях до сих пор не установлено, было зарегистрировано несколько аналогий. Например, расчеты, выполненные глубокими учебные единицы могут быть аналогичны тем, актуальных нейронов и нейронных популяций. Точно так же, представление, разработанное глубокие модели обучения, аналогично тем, которые измеряются в приматах зрительной системы как в моноблочном и на уровне населения.

коммерческая деятельность

Многие организации используют глубокое изучение для конкретных применений. Facebook «s лаборатории ИИ выполняет такие задачи, как автоматически помечать загруженные снимки с именами людей в них.

Google, DeepMind Technologies разработала систему , способную научиться играть Atari видеоигры с использованием только пикселей в качестве входных данных. В 2015 году они продемонстрировали свою AlphaGo систему, узнал игру Go достаточно хорошо , чтобы бить профессиональный игрок Go. Google Переводчик использует LSTM переводить между более чем 100 языков.

В 2015 году Blippar продемонстрировала мобильный дополненной реальности приложение , которое использует глубокое изучение распознавать объекты в режиме реального времени.

В 2008 году исследователи из Техасского университета в Остине (UT) разработал основы машинного обучения под названием Тренинг Агентом вручную через оценочный Армирование или TAMER, которые предложили новые методы для роботов или компьютерных программ , чтобы узнать , как выполнять задачи, взаимодействуя с человек инструктор.

Первый разработан как TAMER, новый алгоритм под названием Deep TAMER позже была введена в 2018 году во время сотрудничества лаборатории армии США Research (ARL) и исследователей UT. Deep TAMER использовали глубокое обучение , чтобы обеспечить роботу возможность изучить новые задачи путем наблюдения.

Использование Deep TAMER, робот изучил задачу с человеческим тренером, смотреть видео потоков или наблюдения человека выполнить задачу человека. Робот позже практиковал задачу с помощью некоторых коучинга от тренера, который обеспечил обратную связь, такие как «хорошая работа» и «плохой работы.»

Критика и комментарии

Глубокое изучение привлекает как критику и комментарии, в некоторых случаях из-за пределов области информатики.

теория

Основная критика касается отсутствия теории окружающей некоторых методов. Обучение в наиболее распространенных глубоких архитектур внедрено с использованием хорошо понят градиентного спуска. Тем не менее, теория окружающей другие алгоритмов, такие как сопоставительная дивергенция менее ясна. (например, ли сходиться это? Если да, то как быстро? Что это аппроксимирующее?) Глубокие методы обучения часто рассматриваются в качестве черного ящика , при этом большинстве подтверждений делаются эмпирический, а не теоретически.

Другие указывают на то , что глубокое изучение следует рассматривать как шаг на пути к реализации сильного ИИ, а не как всеохватывающего решения. Несмотря на мощь глубоких методов обучения, они все еще не имеют много функциональных возможностей, необходимых для реализации этой цели полностью. Исследовательский психолог Гэри Маркус отметил:

«Реально, глубокое изучение является лишь частью более крупной проблемы построения интеллектуальных машин. Такие методы не имеют способы представления причинно - следственных связей (...) не имеют очевидных способов выполнения логических выводов , и они также по- прежнему далеки от интеграции абстрактных знания, такие как информация о том , что объекты, для чего они, и как они обычно используются. наиболее мощные системы ИИ, как Уотсон (...) использовать такие методы , как глубокое обучение , как только один элемент в очень сложном ансамбле методы, начиная от статистической методики байесовского вывода к дедукции «.

В качестве альтернативы этому акцент на границах глубокого изучения, один автор предположил , что можно было бы обучить стек машинное зрение для выполнения сложной задачи различения между «старым мастером» и самодеятельной фигурой чертежами, и предположил , что такую чувствительность может представлять собой зачатки нетривиальной машины эмпатии. Этот же автор предположил , что это было бы в соответствии с антропологией, которая идентифицирует озабоченность в связи с эстетикой как ключевой элемент поведенческой современности .

В дальнейшем применительно к идее , что художественная чувствительность может принадлежать в относительно низких уровнях когнитивной иерархии, опубликованной серии графических представлений внутренних состояний глубоко (20-30 слоев) нейронных сетей пытаются усмотреть в сути случайных данных изображений на которые они были обучены демонстрируют визуальную привлекательность: оригинальное исследование извещение получило более 1000 комментариев, и был предметом того , что было в то время , наиболее часто используемые статьи на The Guardian «s веб - сайте.

ошибки

Некоторые глубокие архитектуры обучения отображения проблемного поведения, такие как уверенно классифицировать нераспознаваемые изображения как принадлежащие к знакомой категории обычных изображений и неправильной оценки крохотные возмущений правильно классифицированных изображений. Goertzel предположили , что такое поведение из - за ограничений в их внутренние представления , и что эти ограничения будут препятствовать интеграции в гетерогенной многокомпонентный искусственный общий интеллект (AGI) архитектур. Эти проблемы могут быть решены , возможно , глубокими изучениями архитектуры , которые внутренне формируют состояния гомологичных изображений грамматических разбиений наблюдаемых лиц и событий. Изучение грамматики (визуальное или лингвистическое) от подготовки данных было бы эквивалентно ограничению системы на здравом рассуждении , который работает на концепции с точки зрения грамматических правил производства и является основной целью как приобретение человеческого языка и искусственного интеллекта (ИИ).

киберугрозами

Как глубокие обучения перемещаются из лаборатории в мире, исследование и опыт показывает , что искусственные нейронные сети уязвимы для хакеров и обмана. Выявляя закономерности , которые эти системы используют для функции, злоумышленники могут изменить входы в ИНС таким образом , что ANN находит совпадение , что человеческие наблюдатели не признают. Например, злоумышленник может внести незначительные изменения в изображение таким образом, что ИНС находит совпадение , даже если изображение выглядит на человек ничего , как цели поиска. Такая манипуляция называется в «состязательные атаках.» В 2016 году исследователи использовали один ИНС к врачу изображений в пробах и ошибках моды, определить чужую координационные центры и тем самым генерировать изображения , которые обманули его. Модифицированные изображения выглядели не отличаются от человеческих глаз. Другая группа исследователей показала , что распечатка лечил изображений затем сфотографировали успешно обмануты систему классификации изображений. Одна защиты обратный поиск изображения, в котором можно поддельное изображение представляется на сайт , такие как TinEye , которые затем могут найти другие экземпляры этого. Уточнение заключается в поиске с использованием только части изображения, чтобы идентифицировать изображения , из которых , возможно, были приняты меры, которые часть .

Другая группа исследователей показала , что некоторые психоделические очки могли обмануть систему распознавания лиц в заблуждение простых людей были знаменитостями, потенциально позволяя один человек выдавать себя за другого. В 2017 году исследователи добавили наклейки знаков остановки и вызвали ИНС к их неправильной классификации.

ИНС , однако , может быть дополнительно обучены обнаруживать попытки обмана, потенциально ведущих нападающих и защитников в гонку вооружений , похожий на вид , что уже определяет вредоносные программы оборонной промышленности. ИНС было обучен , чтобы победить ИНС на основе анти-вредоносное программное обеспечение, неоднократно нападая на защиту с вредоносными программами , которые постоянно измененном с помощью генетического алгоритма , пока не обманут защиты от вредоносного ПО , сохраняя при этом своей способности повредить цель.

Другая группа показала , что некоторые звуки могли бы сделать Google Now голосовой команды системы открыть конкретный веб - адрес , который будет загружать вредоносные программы.

В «отравлении данных», ложные данные постоянно контрабандные в обучающем обучающейся системе станка, чтобы предотвратить его от достижения мастерства.

Смотрите также

Рекомендации

дальнейшее чтение