DeepDream - DeepDream

«Мона Лиза» с эффектом DeepDream с использованием сети VGG16, обученной на ImageNet

DeepDream - это программа компьютерного зрения, созданная инженером Google Александром Мордвинцевым, которая использует сверточную нейронную сеть для поиска и улучшения закономерностей в изображениях с помощью алгоритмической парейдолии , тем самым создавая подобный сновидению психоделический вид в преднамеренно переработанных изображениях.

Программа Google популяризировала термин (глубокое) «сновидение» для обозначения генерации изображений, которые производят желаемые активации в обученной глубокой сети , и теперь этот термин относится к набору связанных подходов.

История

Программное обеспечение DeepDream, созданное в глубокой сверточной сети под кодовым названием «Начало» в честь одноименного фильма , было разработано для конкурса ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) в 2014 году и выпущено в июле 2015 года.

Идея и имя сновидения стали популярными в Интернете в 2015 году благодаря программе DeepDream от Google. Идея возникла в начале истории нейронных сетей, и аналогичные методы использовались для синтеза визуальных текстур. Связанные с этим идеи визуализации были разработаны (до работы Google) несколькими исследовательскими группами.

После того, как Google опубликовал свои методики и сделал свой код открытым , на рынке появился ряд инструментов в виде веб-сервисов, мобильных приложений и программного обеспечения для настольных компьютеров, позволяющих пользователям преобразовывать свои собственные фотографии.

Процесс

Изображение медузы на синем фоне
Изображение медузы, обработанное DeepDream после десяти итераций
Изображение медузы, обработанное DeepDream после пятидесяти итераций
Исходное изображение (вверху) после применения десяти (в центре) и пятидесяти (внизу) итераций DeepDream, сеть была обучена воспринимать собак

Программное обеспечение предназначено для обнаружения лиц и других узоров на изображениях с целью автоматической классификации изображений. Однако после обучения сеть также может работать в обратном направлении, ее попросят немного скорректировать исходное изображение, чтобы данный выходной нейрон (например, тот, который используется для лиц или определенных животных) имел более высокий показатель достоверности. Это можно использовать для визуализаций, чтобы лучше понять возникающую структуру нейронной сети, и это основа концепции DeepDream. Эта процедура обращения никогда не бывает совершенно ясной и недвусмысленной, потому что в ней используется процесс сопоставления « один ко многим» . Однако после достаточного количества повторений даже изображения, изначально лишенные искомых характеристик, будут достаточно скорректированы, чтобы получилась форма парейдолии , с помощью которой алгоритмически генерируются психоделические и сюрреалистические изображения. Оптимизация похожа на обратное распространение , однако вместо настройки весов сети веса остаются фиксированными, а входные данные корректируются.

Например, существующее изображение можно изменить так, чтобы оно было «более похожим на кошку», и получившееся улучшенное изображение можно снова ввести в процедуру. Это использование напоминает поиск животных или других узоров в облаках.

Применение градиентного спуска независимо к каждому пикселю ввода создает изображения, в которых смежные пиксели имеют мало взаимосвязи, и, следовательно, изображение содержит слишком много высокочастотной информации. Сгенерированные изображения можно значительно улучшить, включив априор или регуляризатор, который предпочитает входные данные с естественной статистикой изображения (без предпочтения какого-либо конкретного изображения) или просто сглаженными. Например, Mahendran et al. использовал регуляризатор полной вариации, который предпочитает кусочно-постоянные изображения. Различные регуляризаторы обсуждаются далее. Подробное визуальное исследование методов визуализации функций и регуляризации было опубликовано совсем недавно.

Указанное сходство образов с галлюцинациями, вызванными ЛСД и псилоцибином, наводит на мысль о функциональном сходстве между искусственными нейронными сетями и определенными слоями зрительной коры.

Computerphile, информатика шоу, подробно описывает машину процессов , используемых Google мечта обучения.

использование

Сильно обработанная DeepDream фотография трех мужчин в бассейне.

Идея сновидения может быть применена к скрытым (внутренним) нейронам, отличным от тех, которые находятся на выходе, что позволяет исследовать роли и представления различных частей сети. Также можно оптимизировать входные данные для удовлетворения требований либо одного нейрона (такое использование иногда называют максимизацией активности), либо всего слоя нейронов.

Хотя сновидение чаще всего используется для визуализации сетей или создания компьютерного искусства, недавно было предложено, что добавление «сновидений» к обучающему набору может сократить время обучения абстракциям в компьютерных науках.

Модель DeepDream также продемонстрировала свое применение в области истории искусства .

DeepDream использовался в клипе Foster the People на песню "Doing It for the Money".

В 2017 году исследовательская группа из Университета Сассекса создала машину галлюцинаций , применив алгоритм DeepDream к предварительно записанному панорамному видео, что позволяет пользователям исследовать среду виртуальной реальности, имитируя переживание психоактивных веществ и / или психопатологических состояний. Они смогли продемонстрировать, что субъективные переживания, вызванные машиной галлюцинаций, значительно отличаются от контрольных (не «галлюциногенных») видеороликов, но имеют феноменологическое сходство с психоделическим состоянием (после введения псилоцибина).

Смотрите также

использованная литература

внешние ссылки