AlexNet - AlexNet

Сравнение свертки, объединения и плотных слоев LeNet и AlexNet

AlexNet - это название архитектуры сверточной нейронной сети (CNN), разработанной Алексом Крижевским в сотрудничестве с Ильей Суцкевер и Джеффри Хинтоном , который был доктором философии Крижевского. советник.

AlexNet участвовал в конкурсе ImageNet Large Scale Visual Recognition Challenge 30 сентября 2012 года. Ошибка сети составила 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Первичный результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что требовало больших вычислительных ресурсов, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения.

Исторический контекст

AlexNet была не первой быстрой реализацией CNN на GPU, выигравшей конкурс распознавания изображений. CNN на GPU К. Челлапилла и др. (2006) была в 4 раза быстрее, чем эквивалентная реализация на CPU. Глубокий CNN Дэна Чиредана и др. (2011) на IDSIA была уже в 60 раз быстрее и достигла сверхчеловеческих результатов в августе 2011 года. В период с 15 мая 2011 года по 10 сентября 2012 года их CNN выиграл не менее четырех конкурсов изображений. Они также значительно улучшили лучшую производительность в литературе для нескольких баз данных изображений .

Согласно статье AlexNet, более ранняя сеть Cireșan «в чем-то похожа». Оба изначально были написаны на CUDA для работы с поддержкой графического процессора . Фактически, оба они на самом деле являются просто вариантами проектов CNN, представленных Янном ЛеКуном и др. (1989), которые применили алгоритм обратного распространения ошибки к варианту оригинальной архитектуры CNN Кунихико Фукусимы, названной « неокогнитрон ». Позднее архитектура была изменена методом Дж. Венга, который получил название max-pooling .

В 2015 году AlexNet уступил очень глубокому CNN Microsoft Research Asia с более чем 100 слоями, который выиграл конкурс ImageNet 2015.

Сетевой дизайн

AlexNet содержит восемь уровней; первые пять были сверточными слоями, за некоторыми из них следовали слои максимального объединения , а последние три были полностью связанными слоями. Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенные тренировочные характеристики по сравнению с tanh и sigmoid .

Влиять

AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, благодаря чему появилось гораздо больше статей, опубликованных с использованием CNN и графических процессоров для ускорения глубокого обучения. По данным Google Scholar, по состоянию на 2021 год статью AlexNet цитировали более 80 000 раз.

использованная литература