ImageNet - ImageNet

Проект ImageNet - это большая визуальная база данных, предназначенная для использования в исследованиях программного обеспечения для распознавания визуальных объектов . В рамках проекта было вручную аннотировано более 14 миллионов изображений, чтобы указать, какие объекты изображены, и, по крайней мере, в одном миллионе изображений также предусмотрены ограничивающие рамки. ImageNet содержит более 20 000 категорий, среди которых типичная категория, такая как «воздушный шар» или «клубника», состоит из нескольких сотен изображений. База данных аннотаций URL-адресов сторонних изображений находится в свободном доступе непосредственно из ImageNet, хотя фактические изображения не принадлежат ImageNet. С 2010 года в рамках проекта ImageNet проводится ежегодный конкурс программного обеспечения ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), в котором программы соревнуются за правильную классификацию и обнаружение объектов и сцен. В задаче используется «усеченный» список из тысячи неперекрывающихся классов.

Значение для глубокого обучения

30 сентября 2012 года сверточная нейронная сеть (CNN) под названием AlexNet достигла первой пятерки ошибок в 15,3% в конкурсе ImageNet 2012 Challenge, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Это стало возможным благодаря использованию графических процессоров (GPU) во время обучения, что является важным компонентом революции глубокого обучения . По словам The Economist , «внезапно люди начали обращать внимание не только в сообществе ИИ, но и во всей технологической индустрии в целом».

В 2015 году AlexNet уступил очень глубокому CNN Microsoft с более чем 100 слоями, который выиграл конкурс ImageNet 2015.

История базы данных

Исследователь ИИ Фей-Фей Ли начал работать над идеей ImageNet в 2006 году. В то время, когда большинство исследований ИИ было сосредоточено на моделях и алгоритмах, Ли хотел расширить и улучшить данные, доступные для обучения алгоритмов ИИ. В 2007 году Ли встретился с профессором Принстона Кристиан Феллбаум , одним из создателей WordNet, чтобы обсудить проект. В результате этой встречи Ли продолжил создание ImageNet, начав с базы данных WordNet и используя многие из ее функций.

В качестве доцента в Принстоне Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk, чтобы помочь с классификацией изображений.

Они впервые представили свою базу данных в качестве плаката на конференции 2009 года по компьютерному зрению и распознаванию образов (CVPR) во Флориде.

Набор данных

ImageNet краудсорсинг процесса аннотации. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например, «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта представляют собой ограничивающую рамку вокруг (видимой части) указанного объекта. ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненной 120 категориями пород собак для демонстрации детальной классификации. Одним из недостатков использования WordNet является то, что категории могут быть более «повышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким видом диплодока ». В 2012 году ImageNet был крупнейшим в мире академическим пользователем Mechanical Turk . Средний рабочий распознал 50 изображений в минуту.

История конкурса ImageNet

История ошибок в ImageNet (показывает лучший результат на команду и до 10 записей в год)

Цель ILSVRC - «пойти по стопам» более мелкой задачи PASCAL VOC, учрежденной в 2005 году, которая содержала всего около 20 000 изображений и двадцать классов объектов. Чтобы «демократизировать» ImageNet, Фей-Фэй Ли предложил команде PASCAL VOC сотрудничество, начиная с 2010 года, в котором исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания.

Итоговый ежегодный конкурс теперь известен как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «обрезанный» список только из 1000 категорий или «классов» изображений, включая 90 из 120 пород собак, классифицированных по полной схеме ImageNet. В 2010-е годы произошел значительный прогресс в обработке изображений. Примерно в 2011 году частота ошибок первой пятерки по классификации ILSVRC составляла 25%. В 2012 годе глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в следующие пару лет количество ошибок в топ-5 упало до нескольких процентов. В то время как прорыв 2012 года «объединил элементы, которые были все ранее», резкое количественное улучшение ознаменовало начало промышленного бума в области искусственного интеллекта. К 2015 году исследователи Microsoft сообщили, что их CNN превзошли человеческие возможности в узких задачах ILSVRC. Однако, как указала в 2015 году одна из организаторов конкурса Ольга Русаковская , в программах нужно только идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) могут судить о контексте изображения.

К 2014 году в ILSVRC приняли участие более пятидесяти организаций. В 2015 году ученые Baidu были заблокированы на год за использование разных учетных записей, значительно превышающее установленный лимит - две заявки в неделю. Позже Baidu заявила, что уволила руководителя группы и создала научную консультативную группу.

В 2017 году 29 из 38 соревнующихся команд имели точность более 95%. В 2017 году ImageNet заявила, что в 2018 году развернет новую, гораздо более сложную задачу, связанную с классификацией трехмерных объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности .

Смещение в ImageNet

Изучение истории нескольких уровней ( таксономия , классы объектов и маркировка) ImageNet и WordNet в 2019 году показало, как предвзятость глубоко укоренилась в большинстве подходов к классификации для всех видов изображений. ImageNet работает над устранением различных источников предвзятости.

Смотрите также

использованная литература

внешние ссылки