Список наборов данных для исследований в области машинного обучения - List of datasets for machine-learning research

Эти наборы данных применяются для исследований в области машинного обучения и цитируются в рецензируемых академических журналах. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут благодаря достижениям в алгоритмах обучения (таких как глубокое обучение ), компьютерному оборудованию и, что менее интуитивно понятно, доступности высококачественных наборов данных для обучения. Высококачественные маркированные наборы обучающих данных для контролируемых и частично контролируемых алгоритмов машинного обучения, как правило, сложно и дорого производить из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим.

Данные изображения

Наборы данных, состоящие в основном из изображений или видео, для таких задач, как обнаружение объектов , распознавание лиц и классификация по нескольким меткам .

Распознавание лиц

В компьютерном зрении , лицевые изображения были широко используются для разработки лицевых систем распознавания , обнаружение лица , и много других проектов , которые используют изображения лиц.

Название набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Aff-Wild 298 видео с 200 людьми, ~ 1 250 000 изображений с ручными аннотациями: аннотированные с точки зрения пространственного аффекта (валентное возбуждение); в дикой природе; база цветов; различные разрешения (среднее = 640x360) обнаруженные лица, лицевые ориентиры и аннотации валентного возбуждения ~ 1,250,000 изображений с ручными аннотациями видео (визуальные + аудио) аффект распознавания (оценка валентности-возбуждения) 2017 г. CVPR

IJCV

D.Kollias et al.
Aff-Wild2 558 видеороликов 458 человек, ~ 2 800 000 изображений с ручными аннотациями: аннотированные с точки зрения i) категориального аффекта (7 основных выражений: нейтральный, счастье, печаль, удивление, страх, отвращение, гнев); б) размерный аффект (валентное возбуждение); iii) единицы действия (1, 2, 4, 6, 12, 15, 20, 25 а.е.); в дикой природе; база цветов; различные разрешения (среднее = 1030x630) обнаруженные лица, обнаруженные и выровненные лица и аннотации ~ 2 800 000 изображений с ручными аннотациями видео (визуальные + аудио) распознавание аффекта (оценка валентности-возбуждения, классификация основных выражений, обнаружение единиц действия) 2019 г. BMVC

FG

D.Kollias et al.
FERET (технология распознавания лиц) 11338 изображений 1199 человек в разных положениях и в разное время. Никто. 11 338 Изображений Классификация, распознавание лиц 2003 г. Министерство обороны США
Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS) 7356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций с двумя уровнями интенсивности каждая. Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками. 7 356 Видео, звуковые файлы Классификация, распознавание лиц, распознавание голоса 2018 г. С.Р. Ливингстон и Ф.А. Руссо
SCFace Цветные изображения лиц под разными углами. Расположение извлеченных черт лица. Приведены координаты объектов. 4 160 Изображения, текст Классификация , распознавание лиц 2011 г. M. Grgic et al.
База данных лиц Йельского университета Лица 15 человек в 11 различных выражениях. Ярлыки выражений. 165 Изображений Распознавание лица 1997 г. J. Yang et al.
Cohn-Kanade База данных выражений, закодированных в AU Большая база изображений с надписями к выражениям. Отслеживание определенных черт лица. 500+ последовательностей Изображения, текст Анализ мимики 2000 г. T. Kanade et al.
База данных выражений лица JAFFE 213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), представленных 10 японскими женщинами-моделями. Изображения обрезаются до лицевой области. Включает данные семантических оценок по ярлыкам эмоций. 213 Изображения, текст Познание выражения лица 1998 г. Лион, Камачи, Гьоба
Скраб для лица Изображения общественных деятелей удалены из результатов поиска. Название и м / ж аннотация. 107 818 Изображения, текст Распознавание лица 2014 г. H. Ng et al.
База данных лиц BioID Изображения лиц с отмеченным положением глаз. Установите положение глаз вручную. 1521 Изображения, текст Распознавание лица 2001 г. BioID
Набор данных сегментации кожи Цветовые значения, выбранные случайным образом из изображений лиц. B, G, R, значения извлечены. 245 057 Текст Сегментация, классификация 2012 г. Р. Бхатт.
Босфор База данных трехмерных изображений лиц. Отмечены 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира. 4652

Изображения, текст

Распознавание лиц, классификация 2008 г. А. Савран и др.
UOY 3D-лицо нейтральное лицо, 5 выражений: гнев, счастье, печаль, глаза закрыты, брови подняты. маркировка. 5250

Изображения, текст

Распознавание лиц, классификация 2004 г. Йоркский университет
База данных лиц CASIA 3D Выражения: гнев, улыбка, смех, удивление, закрытые глаза. Никто. 4624

Изображения, текст

Распознавание лиц, классификация 2007 г. Институт автоматики Китайской академии наук
КАЗИЯ НИР Выражения: Гнев Отвращение Страх Счастье Печаль Сюрприз Никто. 480 Запись видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секунду Распознавание лиц, классификация 2011 г. Zhao, G. et al.
БУ-3ДФЭ нейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены. Никто. 2500 Изображения, текст Распознавание мимики, классификация 2006 г. Бингемтонский университет
Набор данных Grand Challenge для распознавания лиц До 22 образцов по каждому предмету. Выражения: гнев, счастье, печаль, удивление, отвращение, одутловатость. 3D-данные. Никто. 4007 Изображения, текст Распознавание лиц, классификация 2004 г. Национальный институт стандартов и технологий
Гавабдб До 61 образца по каждому предмету. Выражения лица нейтральное, улыбка, фронтальный акцентированный смех, фронтальный случайный жест. 3D изображения. Никто. 549 Изображения, текст Распознавание лиц, классификация 2008 г. Университет короля Хуана Карлоса
3D-RMA До 100 субъектов, выражения в основном нейтральные. Также несколько поз. Никто. 9971 Изображения, текст Распознавание лиц, классификация 2004 г. Королевская военная академия (Бельгия)
SoF 112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения. Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности. 42,592 (2,662 исходных изображения × 16 синтетических изображений) Изображения, Мат файл Гендерная классификация, обнаружение лиц, распознавание лиц, оценка возраста и обнаружение очков 2017 г. Афифи М. и др.
IMDB-WIKI IMDB и Википедия сталкиваются с изображениями с отметками пола и возраста. Никто 523 051 Изображений Гендерная классификация, распознавание лиц, распознавание лиц, оценка возраста 2015 г. Р. Рот, Р. Тимофте, Л. В. Гул

Распознавание действий

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о взаимодействии с людьми на телевидении Видео из 20 различных телешоу для прогнозирования социальных действий: рукопожатие, дай пять, объятия, поцелуй и т. Д. Никто. 6766 видеоклипов видеоклипы Прогноз действий 2013 Патрон-Перес, А. и др.
База данных мультимодальных действий человека в Беркли (MHAD) Записи одного человека, выполняющего 12 действий Предварительная обработка MoCap 660 сэмплов действий 8 PhaseSpace Motion Capture, 2 стерео камеры, 4 Quad камеры, 6 акселерометров, 4 микрофона Классификация действий 2013 Ofli, F. et al.
Набор данных THUMOS Большой набор видеоданных для классификации действий. Действия классифицированы и помечены. 45 млн кадров видео Видео, изображения, текст Классификация, обнаружение действий 2013 Y. Jiang et al.
MEXAction2 Набор видеоданных для локализации и обнаружения действий Действия классифицированы и помечены. 1000 видео Обнаружение действия 2014 г. Stoian et al.

Обнаружение и распознавание объектов

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Визуальный геном Изображения и их описание 108 000 изображения, текст Подписи к изображениям 2016 г. Р. Кришна и др.
Набор данных трехмерных объектов Беркли 849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов. Ограничительные рамки и маркировка объектов. 849 помеченные изображения, текст Распознавание объекта 2014 г. A. Janoch et al.
Набор данных сегментации Berkeley и контрольные показатели 500 (BSDS500) 500 естественных изображений, явно разделенных на непересекающиеся подмножества поездов, валидации и тестирования + тестовый код. На основе BSDS300. Каждое изображение сегментировано в среднем по пяти различным объектам. 500 Сегментированные изображения Обнаружение контуров и иерархическая сегментация изображений 2011 г. Калифорнийский университет в Беркли
Общие объекты Microsoft в контексте (COCO) сложные повседневные сцены обычных предметов в их естественном контексте. Подсветка, маркировка и классификация объектов по 91 типу объектов. 2 500 000 Помеченные изображения, текст Распознавание объекта 2015 г. T. Lin et al.
База данных SUN Очень большая база данных по распознаванию сцен и объектов. Маркируются места и объекты. Объекты сегментированы. 131 067 Изображения, текст Распознавание объектов, распознавание сцен 2014 г. J. Xiao et al.
ImageNet База данных изображений помеченных объектов, используемая в конкурсе ImageNet Large Scale Visual Recognition Challenge Помеченные объекты, ограничивающие рамки, описательные слова, функции SIFT 14 197 122 Изображения, текст Распознавание объектов, распознавание сцен 2009 (2014) J. Deng et al.
Открытые изображения Большой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов. Метки уровня изображения, ограничивающие рамки 9 178 275 Изображения, текст Классификация, Распознавание объектов 2017 г.
Набор данных обнаружения коммерческих новостных телеканалов Телевизионные рекламные ролики и выпуск новостей. Аудио и видео функции, извлеченные из неподвижных изображений. 129 685 Текст Кластеризация, классификация 2015 г. P. Guha et al.
Набор данных Statlog (Image Segmentation) Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и сегментированы вручную, чтобы создать классификацию для каждого пикселя. Многие функции просчитаны. 2310 Текст Классификация 1990 г. Массачусетский университет
Калтех 101 Картинки предметов. Обозначены подробные очертания объекта. 9146 Изображений Классификация, распознавание объектов. 2003 г. F. Li et al.
Калтех-256 Большой набор изображений для классификации объектов. Изображения категоризированы и отсортированы вручную. 30 607 Изображения, текст Классификация, обнаружение объекта 2007 г. G. Griffin et al.
Набор данных SIFT10M Особенности SIFT набора данных Caltech-256. Расширенное извлечение функций SIFT. 11 164 866 Текст Классификация, обнаружение объекта 2016 г. X. Fu et al.
LabelMe Аннотированные изображения сцен. Обозначены объекты. 187 240 Изображения, текст Классификация, обнаружение объекта 2005 г. Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института
Набор данных "Городские пейзажи" Стерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные. Сегментация и маркировка на уровне пикселей 25 000 Изображения, текст Классификация, обнаружение объекта 2016 г. Daimler AG et al.
Набор данных PASCAL VOC Большое количество изображений для задач классификации. Маркировка, ограничительная рамка в комплекте 500 000 Изображения, текст Классификация, обнаружение объекта 2010 г. M. Everingham et al.
Набор данных CIFAR-10 Множество небольших изображений 10 классов объектов с низким разрешением. Размечены классы, созданы разбиения обучающих наборов. 60 000 Изображений Классификация 2009 г. А. Крижевский и др.
Набор данных CIFAR-100 Подобно CIFAR-10, выше, но дано 100 классов объектов. Размечены классы, созданы разбиения обучающих наборов. 60 000 Изображений Классификация 2009 г. А. Крижевский и др.
Набор данных CINIC-10 Объединенный вклад CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10. Размечены классы, обучение, проверка, созданы разбиения тестовых наборов. 270 000 Изображений Классификация 2018 г. Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки
Fashion-MNIST База данных модных товаров в стиле MNIST Размечены классы, созданы разбиения обучающих наборов. 60 000 Изображений Классификация 2017 г. Zalando SE
notMNIST Некоторые общедоступные шрифты и извлеченные из них глифы, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы AJ взяты из разных шрифтов. Размечены классы, созданы разбиения обучающих наборов. 500 000 Изображений Классификация 2011 г. Ярослав Булатов
Набор данных по обнаружению дорожных знаков в Германии Изображения с автомобилей дорожных знаков на немецких дорогах. Эти знаки соответствуют стандартам ООН и поэтому такие же, как в других странах. Знаки, помеченные вручную 900 Изображений Классификация 2013 S Houben et al.
Набор данных KITTI Vision Benchmark Автономные транспортные средства, проезжающие по среднему городу, снимали изображения различных областей с помощью камер и лазерных сканеров. Многие тесты взяты из данных. > 100 ГБ данных Изображения, текст Классификация, обнаружение объекта 2012 г. Гейгер и др.
Набор данных Linnaeus 5 Изображения 5 классов предметов. Размечены классы, созданы разбиения обучающих наборов. 8000 Изображений Классификация 2017 г. Чаладзе и Калатозишвили
FieldSAFE Мультимодальный набор данных для обнаружения препятствий в сельском хозяйстве, включая стереокамеру, тепловизор, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию. Классы с географической маркировкой. > 400 ГБ данных Изображения и трехмерные облака точек Классификация, обнаружение объекта, локализация объекта 2017 г. M. Kragh et al.
11K рук 11076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации. Никто 11076 изображений рук Изображения и файлы меток (.mat, .txt и .csv) Распознавание пола и биометрическая идентификация 2017 г. М Афифи
CORe50 Специально разработанный для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими к 10 различным категориям. Размеченные классы, разбиение обучающего набора, созданное на основе трехстороннего многозадачного теста. 164866 изображений RBG-D изображения (.png или .pkl)

и файлы меток (.pkl, .txt, .tsv)

Классификация, Распознавание объектов 2017 г. В. Ломонако и Д. Мальтони
OpenLORIS-Объект Набор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный реальными роботами, установленными с несколькими датчиками высокого разрешения, включает в себя коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости до 20 сцен). Набор данных строго учитывает 4 фактора окружающей среды в разных сценах, включая освещение, загорание, размер пикселя объекта и беспорядок, и явно определяет уровни сложности каждого фактора. Помеченные классы, набор для обучения / проверки / тестирования, созданный с помощью сценариев тестирования. 1 106 424 изображения RBG-D изображения (.png и .pkl)

и (.pkl) файлы этикеток

Классификация, Распознавание объектов на протяжении всей жизни, Роботизированное зрение 2019 г. Q. She et al.
Набор данных ТГц и тепловизионного видеосигнала Этот набор мультиспектральных данных включает терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей. Предусмотрены таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D. Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров). AP2J Эксперименты с обнаружением скрытых объектов 2019 г. Алексей А. Морозов и Ольга С. Сушкова

Рукописный ввод и распознавание символов

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных искусственных персонажей Искусственно сгенерированные данные, описывающие структуру 10 заглавных букв английского алфавита. Координаты нарисованных линий даны в виде целых чисел. Различные другие функции. 6000 Текст Распознавание почерка, классификация 1992 г. H. Guvenir et al.
Набор данных букв Печатные буквы верхнего регистра. 17 функций извлечены из всех изображений. 20 000 Текст OCR, классификация 1991 г. D. Slate et al.
CASIA-HWDB Автономная база данных рукописных китайских иероглифов . 3755 классов в наборе символов GB 2312 . Изображения в оттенках серого с фоновыми пикселями, обозначенными как 255. 1,172,907 Изображения, текст Распознавание почерка, классификация 2009 г. КАЗИЯ
CASIA-OLHWDB Онлайн-база данных рукописных китайских иероглифов, собранных с помощью ручки Anoto на бумаге. 3755 классов в наборе символов GB 2312 . Предоставляет последовательности координат штрихов. 1,174,364 Изображения, текст Распознавание почерка, классификация 2009 г. КАЗИЯ
Набор данных траекторий персонажей Маркированные образцы траекторий кончика пера для людей, пишущих простые символы. Трехмерная матрица траекторий скорости кончика пера для каждого образца 2858 Текст Распознавание почерка, классификация 2008 г. Б. Уильямс
Набор данных Chars74K Распознавание символов в естественных изображениях символов, используемых как в английском, так и в каннаде 74 107 Распознавание символов, распознавание почерка, OCR, классификация 2009 г. Т. де Кампос
Набор данных символов пера UJI Изолированные рукописные символы Приведены координаты положения пера по мере написания. 11 640 Текст Распознавание почерка, классификация 2009 г. F. Prat et al.
Набор данных Gisette Образцы почерка из часто путающих 4 и 9 знаков. Функции, извлеченные из изображений, разделенные на поезд / тест, изображения рукописного ввода нормализованы по размеру. 13 500 Изображения, текст Распознавание почерка, классификация 2003 г. Ян ЛеКун и др.
Набор данных Omniglot 1623 разных рукописных символа из 50 разных алфавитов. Маркированы вручную. 38 300 Изображения, текст, штрихи Классификация, однократное обучение 2015 г. Американская ассоциация развития науки
База данных MNIST База данных рукописных цифр. Маркированы вручную. 60 000 Изображения, текст Классификация 1998 г. Национальный институт стандартов и технологий
Оптическое распознавание набора данных рукописных цифр Нормализованные растровые изображения рукописных данных. Размер нормализован и сопоставлен с растровыми изображениями. 5620 Изображения, текст Распознавание почерка, классификация 1998 г. Э. Алпайдин и соавт.
Распознавание набора рукописных цифр с помощью пера Рукописные цифры на электронном планшете. Векторы признаков, извлеченные для равномерного распределения. 10 992 Изображения, текст Распознавание почерка, классификация 1998 г. Э. Алпайдин и соавт.
Набор рукописных цифр Semeion Рукописные цифры от 80 человек. Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой. 1593 Изображения, текст Распознавание почерка, классификация 2008 г. T. Srl
HASYv2 Рукописные математические символы Все символы расположены по центру и имеют размер 32 x 32 пикселя. 168233 Изображения, текст Классификация 2017 г. Мартин Тома
Шумный рукописный набор данных Bangla Включает набор данных рукописных цифр (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие при движении и пониженный контраст. Все изображения расположены по центру и имеют размер 32x32. Набор числовых данных:

23330, г.

Набор данных символов:

76000

Изображений,

текст

Распознавание почерка,

классификация

2017 г. M. Karki et al.

Аэрофотоснимки

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных сегментации аэрофотоснимков 80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0. Изображения сегментированы вручную. 80 Изображений Классификация по воздуху, обнаружение объектов 2013 J. Yuan et al.
Комплект данных KIT AIS Множественные помеченные наборы данных для обучения и оценки аэрофотоснимков толпы. Изображения помечены вручную, чтобы показать пути людей через толпу. ~ 150 Изображения с путями Отслеживание людей, воздушное отслеживание 2012 г. M. Butenuth et al.
Набор данных Уилта Данные дистанционного зондирования больных деревьев и другого растительного покрова. Извлечены различные функции. 4899 Изображений Классификация, обнаружение воздушных объектов 2014 г. Б. Джонсон
Набор данных MASATI Морские сцены из оптических аэрофотоснимков видимого спектра. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения. Ограничительные рамки и маркировка объектов. 7389 Изображений Классификация, обнаружение воздушных объектов 2018 г. А.-Дж. Gallego et al.
Набор данных сопоставления типов леса Спутниковые снимки лесов Японии. Полосы длин волн изображения извлечены. 326 Текст Классификация 2015 г. Б. Джонсон
Набор данных исследования накладных изображений Аннотированные изображения над головой. Изображения с несколькими объектами. Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения. 1000 Изображения, текст Классификация 2009 г. F. Tanner et al.
SpaceNet SpaceNet - это совокупность коммерческих спутниковых снимков и маркированных тренировочных данных. Файлы GeoTiff и GeoJSON, содержащие контуры зданий. > 17533 Изображений Классификация, идентификация объекта 2017 г. DigitalGlobe, Inc.
Набор данных о землепользовании UC Merced Эти изображения были вручную извлечены из больших изображений из коллекции изображений городских районов USGS National Map для различных городских районов США. Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений. 2100 Чипы изображения 256x256, GSD 30 см (1 фут) Классификация земного покрова 2010 г. И Ян и Шон Ньюсэм
Набор бортовых данных SAT-4 Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земного покрова, кроме трех вышеупомянутых. 500 000 Изображений Классификация 2015 г. S. Basu et al.
Набор бортовых данных SAT-6 Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы. 405 000 Изображений Классификация 2015 г. S. Basu et al.

Другие изображения

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных SUPATLANTIQUE Изображения отсканированных официальных документов и документов из Википедии Никто 4908 TIFF / pdf Идентификация исходного устройства, обнаружение подделки, классификация, .. 2020 г. К. Бен Рабах и др.
Теория функционала плотности квантовое моделирование графена Помеченные изображения сырых входных данных для моделирования графена Исходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотности 60744 тестовых и 501473 обучающих файлов Помеченные изображения Регресс 2019 г. К. Миллс и И. Тэмблин
Квантовое моделирование электрона в двумерной потенциальной яме Помеченные изображения исходных данных для моделирования 2-й квантовой механики Необработанные данные (в формате HDF5) и выходные метки из квантового моделирования 1,3 миллиона изображений Помеченные изображения Регресс 2017 г. К. Миллс, М.А. Спаннер, И. Тэмблин
Набор данных о кулинарии MPII Видео и изображения различных кулинарных мероприятий. Пути и направления действий, метки, мелкозернистая маркировка движения, класс активности, извлечение и маркировка неподвижных изображений. 881755 кадров Помеченное видео, изображения, текст Классификация 2012 г. M. Rohrbach et al.
Набор данных FAMOS 5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер. Исходные файлы PNG, отсортированные по камерам, а затем по получению. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение. 30 000 Изображения и файлы .mat Аутентификация 2012 г. С. Волошиновский и др.
Набор данных PharmaPack 1000 уникальных классов с 54 изображениями в классе. Маркировка классов, множество локальных дескрипторов, таких как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV). 54 000 Изображения и файлы .mat Классификация мелкого зерна 2017 г. О. Таран, С. Резаифар и др.
Набор данных Stanford Dogs Изображения 120 пород собак со всего мира. Предоставляются разделение на обучение / тестирование и аннотации ImageNet. 20 580 Изображения, текст Классификация мелкого зерна 2011 г. A. Khosla et al.
StanfordExtra Dataset 2D ключевые точки и сегментации для набора данных Stanford Dogs. Предусмотрены ключевые точки 2D и сегментация. 12 035 Помеченные изображения 3D-реконструкция / оценка позы 2020 г. Б. Биггс и др.
Набор данных домашних животных Oxford-IIIT 37 категорий домашних животных, примерно по 200 изображений каждой. Породы помечены, жесткая ограничивающая рамка, сегментация переднего и заднего плана. ~ 7 400 Изображения, текст Классификация, обнаружение объекта 2012 г. О. Пархи и др.
Набор данных Corel Image Features База данных изображений с извлеченными функциями. Множество функций, включая гистограмму цвета, текстуру совместного появления и цвета, 68 040 Текст Классификация, обнаружение объекта 1999 г. M. Ortega-Bindenberger et al.
Характеристики онлайн-видео и набор временных данных для транскодирования. Время перекодирования для различных видео и свойств видео. Приведены особенности видео. 168 286 Текст Регресс 2015 г. T. Deneke et al.
Набор данных повествования последовательного изображения Microsoft (SIND) Набор данных для последовательного перевода видения на язык Описательная подпись и повествование даны для каждой фотографии, а фотографии расположены в последовательности. 81 743 Изображения, текст Визуальное повествование 2016 г. Microsoft Research
Набор данных Caltech-UCSD Birds-200-2011 Большой набор изображений птиц. Расположение частей для птиц, ограничивающие рамки, задано 312 двоичных атрибутов 11 788 Изображения, текст Классификация 2011 г. C. Wah et al.
Ютуб-8М Большой и разнообразный маркированный набор видеоданных Идентификаторы видео YouTube и связанные с ними ярлыки из разнообразного словаря из 4800 визуальных объектов. 8 миллионов Видео, текст Классификация видео 2016 г. S. Abu-El-Haija et al.
YFCC100M Большой и разнообразный маркированный набор изображений и видео Видео и изображения Flickr и соответствующее описание, заголовки, теги и другие метаданные (например, EXIF ​​и геотеги) 100 миллионов Видео, изображение, текст Классификация видео и изображений 2016 г. B. Thomee et al.
Дискретный ЛИРИС-АКСЕДЕ Короткие видеоролики с комментариями о валентности и возбуждении. Ярлыки валентности и возбуждения. 9800 видео Обнаружение видеоэмоций 2015 г. Y. Baveye et al.
Непрерывный LIRIS-ACCEDE Длинные видеоролики с аннотациями для валентности и возбуждения, а также для сбора данных о кожно-гальванической реакции. Ярлыки валентности и возбуждения. 30 видео Обнаружение видеоэмоций 2015 г. Y. Baveye et al.
Средневековый LIRIS-ACCEDE Расширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах. Ярлыки насилия, валентности и возбуждения. 10900 видео Обнаружение видеоэмоций 2015 г. Y. Baveye et al.
Спортивная поза Лидса Сочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr. Необработанный урожай вокруг одного человека, представляющего интерес, с 14 совместными этикетками 2000 г. Изображения плюс метки файлов .mat Оценка позы человека 2010 г. С. Джонсон и М. Эверингем
Расширенная тренировка позы Leeds Sports Pose Сочлененные аннотации позы человека на 10 000 изображений естественного спорта с Flickr. 14 совместных лейблов через краудсорсинг 10000 Изображения плюс метки файлов .mat Оценка позы человека 2011 г. С. Джонсон и М. Эверингем
Набор данных MCQ 6 различных реальных экзаменов с множественным выбором (735 листов ответов и 33 540 блоков для ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором. Никто 735 листов для ответов и 33 540 ящиков для ответов Ярлыки изображений и файлов .mat Разработка систем оценки тестов с множественным выбором 2017 г. Афифи М. и др.
Видео наблюдения Реальные видео наблюдения охватывают длительное время наблюдения (7 дней по 24 часа каждый). Никто 19 видео наблюдения (7 дней по 24 часа). Видео Сжатие данных 2016 г. Тадж-Эддин, IATF et al.
ЛИЛА БК Маркированная информационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде. Никто ~ 10 млн изображений Изображений Классификация 2019 г. LILA рабочая группа
Можем ли мы увидеть фотосинтез? 32 видео для восьми живых и восьми мертвых листьев, записанных как при постоянном, так и при переменном освещении. Никто 32 видео Видео Обнаружение живучести растений 2017 г. Тадж-Эддин, IATF et al.

Текстовые данные

Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка , анализ тональности , перевод и кластерный анализ .

Отзывы

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Обзоры Amazon Обзоры продуктов в США с Amazon.com . Никто. 233,1 миллиона Текст Классификация, анализ настроений 2015 (2018) McAuley et al.
Набор данных обзора OpinRank Обзоры автомобилей и отелей соответственно на сайтах Edmunds.com и TripAdvisor . Никто. 42,230 / ~ 259,000 соответственно Текст Анализ настроений, кластеризация 2011 г. K. Ganesan et al.
MovieLens 22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей. Никто. ~ 22 млн Текст Регрессия, кластеризация, классификация 2016 г. GroupLens Research
Yahoo! Рейтинги музыкальных пользователей музыкальных исполнителей Пользователи Yahoo оценили более 10 миллионов художников. Ничего не описано. ~ 10 млн Текст Кластеризация, регрессия 2004 г. Yahoo!
Набор данных оценки автомобиля Свойства автомобилей и их приемлемость в целом. Дано шесть категориальных признаков. 1728 Текст Классификация 1997 г. М. Боханец
Набор данных о предпочтениях в YouTube Comedy Slam Данные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео. Указаны метаданные видео. 1 138 562 Текст Классификация 2012 г. Google
Набор данных отзывов пользователей Skytrax Отзывы пользователей об авиакомпаниях, аэропортах, местах и ​​залах ожидания Skytrax. Рейтинги точны и включают многие аспекты опыта работы в аэропорту. 41396 Текст Классификация, регрессия 2015 г. К. Нгуен
Набор данных оценки помощника учителя Отзывы о помощниках учителя. Приведены характеристики каждого экземпляра, такие как класс, размер класса и преподаватель. 151 Текст Классификация 1997 г. W. Loh et al.
Корпус отзывов вьетнамских студентов (UIT-VSFC) Отзывы студентов. Комментарии 16 000 Текст Классификация 1997 г. Nguyen et al.
Корпус вьетнамских социальных сетей Emotion Corpus (UIT-VSMEC) Комментарии пользователей в Facebook. Комментарии 6 927 Текст Классификация 1997 г. Nguyen et al.
Вьетнамский набор данных обнаружения жалоб открытого домена (ViOCD) Отзывы клиентов о продуктах Комментарии 5 485 Текст Классификация 2021 г. Nguyen et al.

Новостные статьи

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных NYSK Статьи на английском языке о деле, касающемся обвинений в сексуальном посягательстве на бывшего директора МВФ Доминика Стросс-Кана . Отфильтровано и представлено в формате XML. 10 421 XML, текст Анализ тональности, извлечение темы 2013 Dermouche, M. et al.
Корпус Reuters, том 1 Большой корпус новостей Reuters на английском языке. Детальная категоризация и тематические коды. 810 000 Текст Классификация, кластеризация, обобщение 2002 г. Рейтер
Корпус Reuters, том 2 Большой корпус новостей Reuters на нескольких языках. Детальная категоризация и тематические коды. 487 000 Текст Классификация, кластеризация, обобщение 2005 г. Рейтер
Сборник текстовых исследований Thomson Reuters Большой корпус новостей. Подробности не описаны. 1 800 370 Текст Классификация, кластеризация, обобщение 2009 г. T. Rose et al.
Корпус саудовских газет 31 030 газетных статей на арабском языке. Метаданные извлечены. 31 030 JSON Обобщение, кластеризация 2015 г. М. Альхагри
RE3D (набор данных оценки извлечения взаимосвязей и сущностей) Entity and Relation отметили данные из различных новостных и правительственных источников. При поддержке Dstl Отфильтровано, категоризация с использованием усатых типов Неизвестный JSON Классификация, признание сущности и отношения 2017 г. Dstl
Каталог кликбейтов Examiner Spam Clickbait, спам, краудсорсинговые заголовки с 2010 по 2015 год Дата публикации и заголовки 3 089 781 CSV Кластеризация, События, Настроения 2016 г. Р. Кулкарни
Корпус новостей ABC Australia Весь новостной корпус ABC Australia с 2003 по 2019 год Дата публикации и заголовки 1,186,018 CSV Кластеризация, События, Настроения 2020 г. Р. Кулкарни
Мировые новости - 20 тыс. Фидов Снимок всех онлайн-заголовков на более чем 20 языках за одну неделю Время публикации, URL и заголовки 1,398,431 CSV Кластеризация, события, определение языка 2018 г. Р. Кулкарни
Заголовок сообщения Reuters News Wire 11 лет событий с указанием времени, опубликованных в ленте новостей Время публикации, текст заголовка 16 121 310 CSV НЛП, Компьютерная лингвистика, События 2018 г. Р. Кулкарни
The Irish Times Ireland News Corpus 24 года новостей Ирландии с 1996 по 2019 год Время публикации, категория заголовка и текст 1,484,340 CSV НЛП, Компьютерная лингвистика, События 2020 г. Р. Кулкарни
Набор данных заголовков новостей для обнаружения сарказма Высококачественный набор данных с саркастическими и несаркастичными заголовками новостей. Чистый, нормализованный текст 26 709 JSON НЛП, Классификация, Лингвистика 2018 г. Ришаб Мишра

Сообщения

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных электронной почты Enron Электронные письма от сотрудников Enron, упорядоченные по папкам. Вложения удалены, неверные адреса электронной почты преобразованы в user@enron.com или no_address@enron.com. ~ 500 000 Текст Сетевой анализ , анализ настроений 2004 (2015) Климт, Б. и Ю. Ян
Набор данных Ling-Spam Корпус, содержащий как законные, так и спам- сообщения. Четыре версии корпуса с указанием того, был ли включен лемматайзер или стоп-лист. 2,412 Ham 481 Спам Текст Классификация 2000 г. Androutsopoulos, J. et al.
Набор данных для сбора SMS-спама Собранные SMS-спам-сообщения. Никто. 5 574 Текст Классификация 2011 г. T. Almeida et al.
Набор данных "Двадцать групп новостей" Сообщения из 20 разных групп новостей. Никто. 20 000 Текст Обработка естественного языка 1999 г. T. Mitchell et al.
Набор данных Spambase Спам-письма. Извлечено много текстовых функций. 4 601 Текст Обнаружение спама, классификация 1999 г. M. Hopkins et al.
Набор данных ColBERT Короткие анекдоты. Выбросы удалены. 200 000 Текст Обнаружение юмора, классификация 2020 г. I. Annamoradnejad.

Твиттер и твиты

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Фильм Твиты Набор данных рейтинга фильмов на основе публичных и хорошо структурированных твитов ~ 710 000 Текст Классификация, регрессия 2018 г. С. Дума
Twitter100k Пары изображений и твитов 100 000 Текст и изображения Кросс-медиа поиск 2017 г. Y. Hu, et al.
Настроение140 Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и настроения. Классифицируется с помощью дистанционного наблюдения за наличием смайлика в твите. 1 578 627 Твиты, запятая, значения с разделителями Анализ настроений 2009 г. A. Go et al.
Набор данных Twitter ASU Сетевые данные Twitter, а не настоящие твиты. Показывает связи между большим количеством пользователей. Никто. 11316811 пользователей, 85 331 846 подключений Текст Кластеризация, анализ графиков 2009 г. R. Zafarani et al.
Социальные круги SNAP: база данных Twitter Большие сетевые данные Twitter. Особенности узлов, круги и сети эго. 1,768,149 Текст Кластеризация, анализ графиков 2012 г. J. McAuley et al.
Набор данных Twitter для анализа настроений арабов Арабские твиты. Образцы помечаются вручную как положительные или отрицательные. 2000 г. Текст Классификация 2014 г. Н. Абдулла
Жужжание в наборе данных социальных сетей Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. Данные отображаются в виде окон, чтобы пользователь мог попытаться предсказать события, приведшие к ажиотажу в социальных сетях. 140 000 Текст Регрессия, Классификация 2013 F. Kawala et al.
Парафраз и семантическое сходство в Twitter (PIT) Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение / информацию или нет. Отмечено вручную. токенизация, теги части речи и именованных сущностей 18 762 Текст Регрессия, Классификация 2015 г. Xu et al.
Набор данных Geoparse для Twitter Этот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположений, помеченные вручную. аннотации местоположения добавлены в метаданные JSON 6 386 Твиты, JSON Классификация, извлечение информации 2014 г. SE Middleton et al.
Коллекция голландских социальных сетей Этот набор данных содержит твиты о COVID-19, сделанные носителями голландского языка или пользователями из Нидерландов. Данные снабжены машинными аннотациями. классифицируется по настроениям, текст твита и описание пользователя переведены на английский язык. Отраслевые упоминания извлекаются 271 342 JSONL Тональность, классификация по нескольким меткам, машинный перевод 2020 г. Ааакш Гупта, Корона

Диалоги

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Корпус чата NPS Сообщения из онлайн-чатов для разных возрастных категорий. Конфиденциальность рук замаскирована, помечена для части речи и диалогового акта. ~ 500 000 XML НЛП, программирование, лингвистика 2007 г. Форсайт, Э., Лин, Дж., И Мартелл, К.
Twitter Triple Corpus ABA троек, извлеченных из Twitter. 4232 Текст НЛП 2016 г. Сордини, А. и др.
UseNet Corpus Сообщения на форуме UseNet. Анонимные электронные письма и URL-адреса. Пропущенные документы с длиной <500 слов или> 500 000 слов, или которые были <90% на английском языке. 7 миллиардов Текст 2011 г. Шауль К. и Уэстбери К.
NUS SMS Corpus SMS-сообщения, собранные между двумя пользователями, с временным анализом. ~ 10 000 XML НЛП 2011 г. КАН, М
Reddit Корпус всех комментариев Все комментарии Reddit (по состоянию на 2015 год). ~ 1,7 миллиарда JSON НЛП, исследования 2015 г. Застрявший в матрице
Корпус диалогов Ubuntu Диалоги, извлеченные из потока чата Ubuntu в IRC. CSV Исследование диалоговых систем 2015 г. Lowe, R. et al.
Задача отслеживания состояния диалога Задачи отслеживания состояния диалогов 2 и 3 (DSTC2 и 3) были исследовательскими задачами, направленными на улучшение современного состояния отслеживания состояния речевых диалоговых систем. Транскрипция разговорных диалогов с маркировкой DSTC2 содержит ~ 3,2 тыс. Вызовов - DSTC3 содержит ~ 2,3 тыс. Вызовов Json Отслеживание состояния диалога 2014 г. Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д.

Другой текст

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Web of Science Иерархические наборы данных для классификации текста Никто. 46985 Текст Классификация,

Категоризация

2017 г. K. Kowsari et al.
Отчеты по судебным делам Федеральный суд Австралии по делам с 2006 по 2009 год. Никто. 4 000 Текст Обобщение,

анализ цитирования

2012 г. F. Galgani et al.
Корпус авторов Blogger Записи в блогах 19 320 человек с blogger.com. Блогер сам указал пол, возраст, отрасль и знак зодиака. 681 288 Текст Анализ тональности, обобщение, классификация 2006 г. J. Schler et al.
Социальная структура сетей Facebook Большой набор данных социальной структуры Facebook. Никто. 100 колледжей покрыты Текст Сетевой анализ, кластеризация 2012 г. A. Traud et al.
Набор данных для машинного понимания текста Рассказы и связанные вопросы для проверки понимания текста. Никто. 660 Текст Обработка естественного языка, машинное понимание 2013 M. Richardson et al.
Проект Penn Treebank Естественный текст с аннотациями для лингвистической структуры. Текст разбирается на семантические деревья. ~ 1 млн слов Текст Обработка естественного языка, реферирование 1995 г. M. Marcus et al.
Набор данных DEXTER Данная задача состоит в том, чтобы определить по приведенным характеристикам, какие статьи посвящены корпоративным поглощениям. Извлеченные элементы включают основы слов. Включены функции дистрактора. 2600 Текст Классификация 2008 г. Рейтер
N-граммы Google Книги N-граммы из очень большого корпуса книг Никто. 2,2 ТБ текста Текст Классификация, кластеризация, регрессия 2011 г. Google
Personae Corpus Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. Помимо обычных текстов даются синтаксически аннотированные тексты. 145 Текст Классификация, регрессия 2008 г. K. Luyckx et al.
Набор данных CNAE-9 Задача категоризации для произвольных текстовых описаний бразильских компаний. Частота слова была извлечена. 1080 Текст Классификация 2012 г. P. Ciarelli et al.
Набор данных предложений, помеченных настроением 3000 сантиментов помечены предложениями. Тональность каждого предложения была помечена вручную как положительная или отрицательная. 3000 Текст Классификация, анализ настроений 2015 г. Д. Котзиас
BlogFeedback Dataset Набор данных для прогнозирования количества комментариев к сообщению на основе характеристик этого сообщения. Извлечены многие особенности каждого сообщения. 60 021 Текст Регресс 2014 г. К. Буза
Корпус Stanford Natural Language Inference (SNLI) Corpus Подписи к изображениям, сопоставленные с вновь построенными предложениями, образуют следствие, противоречие или нейтральные пары. Метки класса Entailment, синтаксический анализ парсером Stanford PCFG 570 000 Текст Логический вывод на естественном языке / распознавание текстового следования 2015 г. S. Bowman et al.
Коллекция DSL Corpus (DSLCC) Многоязычный сборник коротких отрывков публицистических текстов на схожих языках и диалектах. Никто 294 000 фраз Текст Различение похожих языков 2017 г. Тан, Лилинг и др.
Набор данных городского словаря Корпус слов, голосов и определений Имена пользователей анонимны 2 580 925 CSV НЛП, Машинное понимание 2016 май Анонимный
T-REx Резюме Википедии, согласованные с объектами Викиданных Согласование троек Викиданных с выдержками из Википедии 11M троек совмещенных JSON и NIF [2] НЛП, Извлечение отношений 2018 г. H. Elsahar et al.
Оценка общего понимания языка (GLUE) Бенчмарк из девяти задач Различный ~ 1 млн предложений и пар предложений NLU 2018 г. Wang et al.
Contract Understanding Atticus Dataset (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) Набор юридических договоров с обширными экспертными аннотациями ~ 13 000 этикеток CSV и PDF Обработка естественного языка, QnA 2021 г. Проект Аттикус
Набор данных вьетнамских подписей к изображениям (UIT-ViIC) Набор данных вьетнамских подписей к изображениям 19250 подписей к 3850 изображениям CSV и PDF Обработка естественного языка, Компьютерное зрение 2020 г. Лам и др.
Вьетнамские имена с указанием пола (UIT-ViNames) Вьетнамские имена с указанием пола 26850 вьетнамских полных имен с указанием пола CSV Обработка естественного языка 2020 г. To et al.
Вьетнамский набор данных по обнаружению конструктивной и токсичной речи (UIT-ViCTSD) Вьетнамский набор данных по обнаружению конструктивной и токсичной речи 10 000 комментариев вьетнамских пользователей к онлайн-газетам на 10 доменах CSV Обработка естественного языка 2021 г. Nguyen et al.
Набор данных ColBERT Короткие анекдоты. Выбросы удалены. 200 000 Текст Обнаружение юмора, классификация 2020 г. Annamoradnejad et al.

Звуковые данные

Наборы звуков и звуковых характеристик.

Речь

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вызов речи с нулевым ресурсом 2015 Спонтанная речь (английский), Речь чтения (Xitsonga). необработанный WAV Английский язык: 5 часов, 12 говорящих; Сицонга: 2:30; 24 спикера звук Неконтролируемое обнаружение речевых характеристик / подсловных единиц / словарных единиц 2015 г. Versteegh et al.
Набор данных речи Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Голосовые функции извлечены, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона. 1,040 Текст Классификация, регрессия 2013 BE Sakar et al.
Разговорные арабские цифры Разговорные арабские цифры от 44 мужчин и 44 женщин. Временной ряд коэффициентов мел-частотного кепстра . 8 800 Текст Классификация 2010 г. M. Bedda et al.
Набор данных ISOLET Разговорные имена букв. Особенности извлечены из звуков. 7797 Текст Классификация 1994 г. R. Cole et al.
Набор данных японских гласных Девять говорящих-мужчин произнесли последовательно по две гласные на японском языке. Применил к нему 12-градусный линейный прогнозный анализ, чтобы получить дискретный временной ряд с 12 коэффициентами кепстра. 640 Текст Классификация 1999 г. M. Kudo et al.
Набор данных телемониторинга Паркинсона Множественные записи людей с болезнью Паркинсона и без нее. Звуковые особенности извлечены. 5875 Текст Классификация 2009 г. A. Tsanas et al.
ТИМИТ Записи 630 человек, говорящих на восьми основных диалектах американского английского, каждый из которых читает десять предложений с богатым фонетическим звучанием. Речь транскрибируется лексически и фонематически. 6300 Текст Распознавание речи, классификация. 1986 г. J. Garofolo et al.
Корпус арабской речи Речевой корпус на современном стандартном арабском языке (MSA) с одним говорящим и фонетическими и орфографическими расшифровками, выровненными на уровне фонем. Речь орфографически и фонетически расшифровывается с ударением. ~ 1900 Текст, WAV Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. 2016 г. Н. Халаби
Общий голос Общедоступная база данных краудсорсинговых данных по широкому спектру диалектов. Проверка другими пользователями Английский: 1118 часов MP3 с соответствующими текстовыми файлами Распознавание речи Июнь 2017 (декабрь 2019) Mozilla

Музыка

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Географическое происхождение набора музыкальных данных Аудио особенности музыкальных образцов из разных мест. Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. 1,059 Текст Географическая классификация, кластеризация 2014 г. F. Zhou et al.
Набор данных "Миллион песен" Аудио особенности из миллиона различных песен. Аудио функции извлечены. 1 млн Текст Классификация, кластеризация 2011 г. T. Bertin-Mahieux et al.
MUSDB18 Многодорожечные записи популярной музыки Необработанный звук 150 MP4, WAV Разделение источников 2017 г. Z. Rafii et al.
Бесплатный Музыкальный Архив Аудио по лицензии Creative Commons из 100 тыс. Песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданных, пользовательских данных, текста произвольной формы. Необработанный звук и аудио особенности. 106 574 Текст, MP3 Классификация, рекомендации 2017 г. M. Defferrard et al.
Набор данных хоровой гармонии Баха Бах хоральные аккорды. Аудио функции извлечены. 5665 Текст Классификация 2014 г. D. Radicioni et al.

Другие звуки

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
UrbanSound Маркированные звукозаписи звуков кондиционеров, автомобильных гудков и игры детей. Сортировка по папкам по классу событий, а также по метаданным в файле JSON и аннотациям в файле CSV. 1,059 Звук

( WAV )

Классификация 2014 г. J. Salamon et al.
AudioSet 10-секундные звуковые фрагменты из видеороликов YouTube и онтология более 500 лейблов. 128-d PCA'd VGG-ish показывает каждую 1 секунду. 2,084,320 Текстовые (CSV) и TensorFlow файлы записей Классификация 2017 г. Дж. Геммеке и др., Google
Задача по обнаружению звука птиц Звук со станций мониторинга окружающей среды, а также записи из краудсорсинга 17 000+ Классификация 2016 (2018) Университет Королевы Марии и Общество обработки сигналов IEEE
Смеси для хипстеров WSJ0 Звук с WSJ0 смешанный с шумом, записанный в районе залива Сан-Франциско Шумовые клипы соответствуют клипам WSJ0 28 000 Звук ( WAV ) Разделение источника звука 2019 г. Wichern, G., et al., Whisper and MERL
Clotho 4981 аудиосэмпл продолжительностью от 15 до 30 секунд, каждый аудиосэмпл имеет пять различных заголовков длиной от 8 до 20 слов. 24 905 Звук ( WAV ) и текст ( CSV ) Автоматические субтитры 2020 г. К. Дроссос, С. Липпинг, Т. Виртанен

Данные сигнала

Наборы данных, содержащие информацию об электрическом сигнале, требующую некоторой обработки сигнала для дальнейшего анализа.

Электрические

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных остроумного червя Набор данных с подробным описанием распространения червя Witty и зараженных компьютеров. Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую ​​как заголовки IP и UDP. 55 909 IP-адресов Текст Классификация 2004 г. Центр прикладного анализа интернет-данных
Набор данных для оценки артериального давления без манжеты Очищены жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. Очищены показатели жизненно важных функций 125 Гц. 12 000 Текст Классификация, регрессия 2015 г. M. Kachuee et al.
Набор данных дрейфа матрицы газовых сенсоров Измерения от 16 химических датчиков, используемых при моделировании для компенсации дрейфа. Предоставляется большое количество функций. 13 910 Текст Классификация 2012 г. А. Вергара
Набор сервоприводов Данные, охватывающие нелинейные отношения, наблюдаемые в цепи сервоусилителя. Приведены уровни различных компонентов в зависимости от других компонентов. 167 Текст Регресс 1993 г. К. Ульрих
Набор данных UJIIndoorLoc-Mag База данных локализации в помещении для тестирования систем позиционирования в помещении. Данные основаны на магнитном поле. Даны тренировочные и тестовые шпагаты. 40 000 Текст Классификация, регрессия, кластеризация 2015 г. D. Rambla et al.
Набор данных диагностики бессенсорного привода Электрические сигналы от двигателей с неисправными компонентами. Статистические характеристики извлечены. 58 508 Текст Классификация 2015 г. М. Батор

Отслеживание движения

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Носимые компьютеры: классификация поз и движений тела (PUC-Rio) Люди, выполняющие пять стандартных действий в трекерах движения. Никто. 165 632 Текст Классификация 2013 Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жеста Функции, извлеченные из видео, в котором люди делают различные жесты. Извлеченные функции предназначены для изучения сегментации жестов по фазам. 9900 Текст Классификация, кластеризация 2014 г. Р. Мадео и др.
Набор данных Vicon Physical Action 10 обычных и 10 агрессивных физических действий, которые измеряют активность человека, отслеживаемую 3D-трекером. Многие параметры записываются 3D-трекером. 3000 Текст Классификация 2011 г. Т. Теодоридис
Набор данных о ежедневных и спортивных мероприятиях Данные датчика мотора для 19 ежедневных и спортивных занятий. Дано много датчиков, без предварительной обработки сигналов. 9120 Текст Классификация 2013 Б. Баршан и др.
Распознавание человеческой деятельности с использованием набора данных смартфонов Данные гироскопа и акселерометра от людей, носящих смартфоны и выполняющих обычные действия. Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет помех. 10 299 Текст Классификация 2012 г. J. Reyes-Ortiz et al.
Знаки на австралийском языке жестов Знаки австралийского языка жестов, снятые перчатками для отслеживания движения. Никто. 2565 Текст Классификация 2002 г. М. Кадус
Упражнения по поднятию тяжестей, контролируемые инерциальными измерительными приборами Пять вариантов упражнения на сгибание бицепса под контролем ИДУ. Некоторая статистика рассчитана на основе необработанных данных. 39 242 Текст Классификация 2013 В. Угулино и др.
sEMG для базового набора данных движений руки Две базы данных поверхностных электромиографических сигналов 6 движений рук. Никто. 3000 Текст Классификация 2014 г. C. Sapsanis et al.
Набор данных распознавания активности REALDISP Оценить методы, связанные с эффектами смещения сенсора при распознавании активности носимых устройств. Никто. 1419 Текст Классификация 2014 г. O. Banos et al.
Набор данных распознавания неоднородности Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. Никто. 43 930 257 Текст Классификация, кластеризация 2015 г. A. Stisen et al.
Прогнозирование движения пользователей внутри помещений на основе данных RSS Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. Никто. 13 197 Текст Классификация 2016 г. Д. Баччу
Набор данных мониторинга физической активности PAMAP2 18 различных видов физических нагрузок, выполненных 9 субъектами с 3-мя IMU. Никто. 3 850 505 Текст Классификация 2012 г. А. Рейсс
ВОЗМОЖНОСТЬ Набор данных распознавания действий Распознавание человеческой активности с помощью носимых, объектных и окружающих датчиков - это набор данных, разработанный для тестирования алгоритмов распознавания человеческой активности. Никто. 2551 Текст Классификация 2012 г. D. Roggen et al.
Набор данных распознавания активности в реальном мире Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и включает шесть различных типов датчиков. Никто. 3 150 000 (на датчик) Текст Классификация 2016 г. T. Sztyler et al.
Набор данных позы инсульта в реабилитации Торонто 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с помощью робота для реабилитации после инсульта. Никто. 10 здоровых людей и 9 выживших после инсульта (3500–6000 кадров на человека) CSV Классификация 2017 г. Э. Долатабади и др.
Корпус социальных контактов (CoST) 7805 жестов захватывают 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежный, нормальный и грубый, на сетке датчика давления, обернутой вокруг руки манекена. Выполненные сенсорные жесты сегментированы и помечены. 7805 захватов жестов CSV Классификация 2016 г. M. Jung et al.

Другие сигналы

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных вина Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. Дано 13 свойств каждого вина 178 Текст Классификация, регрессия 1991 г. М. Форина и соавт.
Набор данных электростанции комбинированного цикла Данные с различных датчиков на электростанции за 6 лет. Никто 9568 Текст Регресс 2014 г. P. Tufekci et al.

Физические данные

Наборы данных из физических систем.

Физика высоких энергий

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных HIGGS Моделирование столкновений ускорителей частиц методом Монте-Карло. Дано 28 характеристик каждого столкновения. 11 млн Текст Классификация 2014 г. Д. Уайтсон
Набор данных HEPMASS Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель - отделить сигнал от шума. Дано 28 характеристик каждого столкновения. 10 500 000 Текст Классификация 2016 г. Д. Уайтсон

Системы

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных гидродинамики яхты Характеристики яхты в зависимости от размеров. Для каждой яхты дано шесть характеристик. 308 Текст Регресс 2013 Р. Лопес
Набор данных об ошибках выполнения роботов 5 наборов данных, которые связаны с отказом роботов выполнять общие задачи. Целочисленные функции, такие как измерения крутящего момента и других датчиков. 463 Текст Классификация 1999 г. L. Seabra et al.
Набор данных Pittsburgh Bridges Описание конструкции дано с точки зрения нескольких свойств различных мостов. Приведены различные характеристики моста. 108 Текст Классификация 1990 г. Y. Reich et al.
Автомобильный набор данных Данные об автомобилях, их страховом риске и нормированных убытках. Характеристики автомобиля извлечены. 205 Текст Регресс 1987 г. J. Schimmer et al.
Автоматический набор данных MPG Данные MPG для автомобилей. Дано восемь характеристик каждой машины. 398 Текст Регресс 1993 г. Университет Карнеги Меллон
Набор данных по энергоэффективности Требования к отоплению и охлаждению даны в зависимости от параметров здания. Приведены параметры застройки. 768 Текст Классификация, регрессия 2012 г. A. Xifara et al.
Набор данных самошума аэродинамического профиля Серия аэродинамических и акустических испытаний двух- и трехмерных профилей лопастей. Приведены данные о частоте, угле атаки и т. Д. 1503 Текст Регресс 2014 г. Р. Лопес
Набор данных уплотнительных колец для космического челнока Challenger USA Попытка предсказать проблемы с уплотнительным кольцом на основе прошлых данных Challenger. Приведены некоторые характеристики каждого полета, такие как температура запуска. 23 Текст Регресс 1993 г. D. Draper et al.
Набор данных Statlog (Shuttle) Наборы данных космических челноков НАСА. Дано девять функций. 58 000 Текст Классификация 2002 г. НАСА

Астрономия

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы на Венере - набор данных эксперимента JARtool Изображения Венеры, полученные космическим кораблем Magellan. Изображения маркируются людьми. не дано Изображений Классификация 1991 г. М. Берл
Набор данных MAGIC Gamma Telescope Монте-Карло генерировал события с высокоэнергетическими гамма-частицами. Многочисленные особенности, извлеченные из моделирования. 19 020 Текст Классификация 2007 г. Р. Бок
Набор данных о солнечных вспышках Измерения количества определенных типов солнечных вспышек за 24-часовой период. Приведены многие особенности солнечных вспышек. 1389 Текст Регрессия, классификация 1989 г. Г. Брэдшоу

Наука о планете Земля

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Вулканы мира Данные об извержениях вулканов для всех известных вулканических событий на Земле. Приведены такие детали, как регион, подобласть, тектоническая обстановка, доминирующий тип породы. 1535 Текст Регрессия, классификация 2013 E. Venzke et al.
Набор данных сейсмических ударов Сейсмические работы на угольной шахте. Сейсмическая активность была классифицирована как опасная или нет. 2584 Текст Классификация 2013 M. Sikora et al.
CAMELS -US Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регресс 2017 г. N. Addor et al. / А. Ньюман и др.
CAMELS-Чили Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 516 CSV, текст, шейп-файл Регресс 2018 г. C. Alvarez-Garreton et al.
CAMELS-Бразилия Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 897 CSV, текст, шейп-файл Регресс 2020 г. В. Шагас и др.
CAMELS-GB Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 671 CSV, текст, шейп-файл Регресс 2020 г. G. Coxon et al.
CAMELS-Австралия Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 222 CSV, текст, шейп-файл Регресс 2021 г. K. Fowler et al.
LamaH -CE Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами см. ссылку 859 CSV, текст, шейп-файл Регресс 2021 г. C. Klingler et al.

Другое физическое

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных прочности бетона на сжатие Набор данных свойств бетона и прочности на сжатие. Для каждого образца даны девять характеристик. 1030 Текст Регресс 2007 г. I. Yeh
Набор данных испытаний на просадку бетона Осадочная текучесть бетона дана с точки зрения свойств. Характеристики данного бетона, такие как летучая зола, вода и т. Д. 103 Текст Регресс 2009 г. I. Yeh
Набор данных Musk С учетом характеристик предскажите, будет ли молекула мускусной или немускусной. Для каждой молекулы дано 168 характеристик. 6598 Текст Классификация 1994 г. Arris Pharmaceutical Corp.
Набор данных о неисправностях стальных пластин Стальные пластины 7 разных типов. Для каждого образца дано 27 характеристик. 1941 г. Текст Классификация 2010 г. Исследовательский центр Семейона

Биологические данные

Наборы данных из биологических систем.

Человек

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
База данных ЭЭГ Исследование для изучения коррелятов ЭЭГ генетической предрасположенности к алкоголизму. Измерения от 64 электродов, размещенных на коже головы, с частотой 256 Гц (период 3,9 мс) в течение 1 секунды. 122 Текст Классификация 1999 г. Х. Беглейтер
Набор данных интерфейса P300 Данные девяти субъектов собраны с использованием интерфейса мозг-компьютер на базе P300 для субъектов с ограниченными возможностями. Разделитесь на четыре занятия по каждому предмету. Приведен код MATLAB . 1,224 Текст Классификация 2008 г. У. Хоффман и др.
Набор данных о сердечных заболеваниях Относится к пациентам с сердечными заболеваниями и без них. Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями. 303 Текст Классификация 1988 г. A. Janosi et al.
Набор данных по раку груди, штат Висконсин (диагностический) Набор данных об особенностях образования груди. Диагноз ставится врачом. Дано 10 характеристик для каждого образца. 569 Текст Классификация 1995 г. W. Wolberg et al.
Национальное исследование употребления наркотиков и здоровья Крупномасштабное исследование здоровья и употребления наркотиков в США. Никто. 55 268 Текст Классификация, регрессия 2012 г. Министерство здравоохранения и социальных служб США
Набор данных рака легких Набор данных рака легких без определений атрибутов 56 функций даны для каждого случая 32 Текст Классификация 1992 г. Z. Hong et al.
Набор данных аритмии Данные для группы пациентов, у некоторых из которых есть сердечная аритмия. 276 функций для каждого экземпляра. 452 Текст Классификация 1998 г. H. Altay et al.
Диабет 130 больниц в США за 1999–2008 гг. Данные о повторной госпитализации за 9 лет в 130 больницах США для пациентов с диабетом. Приведены многие особенности каждой реадмиссии. 100 000 Текст Классификация, кластеризация 2014 г. J. Clore et al.
Набор данных о диабетической ретинопатии в Дебрецене Характеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее. Извлечены признаки и диагностированы состояния. 1151 Текст Классификация 2014 г. B. Antal et al.
Набор данных Мессидора о диабетической ретинопатии Методы оценки сегментации и техники индексации в области офтальмологии сетчатки (MESSIDOR) Особенности степени ретинопатии и риска отека желтого пятна 1200 Изображения, текст Классификация, сегментация 2008 г. Мессидор проект
Набор данных заболеваний печени Данные для людей с заболеваниями печени. Каждому пациенту дано семь биологических характеристик. 345 Текст Классификация 1990 г. Bupa Medical Research Ltd.
Набор данных о заболеваниях щитовидной железы 10 баз данных о пациентах с заболеваниями щитовидной железы. Никто. 7200 Текст Классификация 1987 г. Р. Куинлан
Набор данных мезотелиомы Данные пациентов с мезотелиомой. Приведено большое количество характеристик, включая воздействие асбеста. 324 Текст Классификация 2016 г. A. Tanrikulu et al.
Набор данных оценки позы Паркинсона на основе зрения Двухмерные оценки позы человека у пациентов с болезнью Паркинсона, выполняющих различные задачи. Из траекторий убрано дрожание камеры. 134 Текст Классификация, регрессия 2017 г. M. Li et al.
Набор данных сети метаболических реакций KEGG (неориентированный) Сеть метаболических путей. Даны сеть реакций и сеть отношений . Даны подробные характеристики для каждого сетевого узла и пути. 65 554 Текст Классификация, кластеризация, регрессия 2011 г. M. Naeem et al.
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) Изображения человеческой спермы от 235 пациентов с мужским бесплодием, помеченные как нормальные или аномальные акросомы сперматозоидов, голова, вакуоль и хвост. Обрезано вокруг головки одного сперматозоида. Увеличение нормализованное. Созданы разделы для обучения, проверки и тестирования. 1,540 файлы .npy Классификация 2019 г. С. Джавади и С.А. Миррошандель

Животное

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Abalone Физические измерения Abalone. Также указаны погодные условия и местоположение. Никто. 4177 Текст Регресс 1995 г. Лаборатории морских исследований - Тарона
Набор данных зоопарка Искусственный набор данных, охватывающий 7 классов животных. Животные делятся на 7 категорий, и для каждой даны характеристики. 101 Текст Классификация 1990 г. Р. Форсайт
Набор данных Demospongiae Данные о морских губках. Губки 503 класса Demosponge описываются различными характеристиками. 503 Текст Классификация 2010 г. Э. Арменгол и соавт.
Набор данных последовательностей генов сплайс-стыков Последовательности генов сплайс-соединений (ДНК) приматов с теорией связанных несовершенных доменов. Никто. 3190 Текст Классификация 1992 г. G. Towell et al.
Набор данных по экспрессии белка у мышей Уровни экспрессии 77 белков измерены в коре головного мозга мышей. Никто. 1080 Текст Классификация, кластеризация 2015 г. C. Higuera et al.

Грибы

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных грибов UCI Признаки и классификация грибов. Приведены многие свойства каждого гриба. 8124 Текст Классификация 1987 г. Дж. Шлиммер
Вторичный набор данных грибов Признаки и классификация грибов Смоделированные данные из более крупных и реалистичных первичных грибов. Полностью воспроизводимый. 61069 Текст Классификация 2020 г. D. Wagner et al.

Растение

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о лесных пожарах Лесные пожары и их свойства. Выделено 13 характеристик каждого пожара. 517 Текст Регресс 2008 г. P. Cortez et al.
Набор данных Iris Три типа ирисов описываются 4 различными признаками. Никто. 150 Текст Классификация 1936 г. Р. Фишер
Набор данных листьев растений Шестнадцать образцов листа каждого из ста видов растений. Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстуры. 1600 Текст Классификация 2012 г. J. Cope et al.
Набор данных сои База данных больных растений сои. Дано 35 характеристик для каждого растения. Растения делятся на 19 категорий. 307 Текст Классификация 1988 г. R. Michalski et al.
Набор данных семян Измерения геометрических свойств зерен трех различных сортов пшеницы. Никто. 210 Текст Классификация, кластеризация 2012 г. Charytanowicz et al.
Набор данных Covertype Данные для прогнозирования типа лесного покрова строго по картографическим переменным. Приведены многие географические особенности. 581 012 Текст Классификация 1998 г. J. Blackard et al.
Набор данных сети передачи сигналов абсцизовой кислоты Данные для сети сигнализации завода. Цель состоит в том, чтобы определить набор правил, управляющих сетью. Никто. 300 Текст Причинное открытие 2008 г. J. Jenkens et al.
Набор данных Folio По 20 фото листьев для каждого из 32 видов. Никто. 637 Изображения, текст Классификация, кластеризация 2015 г. T. Munisami et al.
Набор данных цветов Оксфорда 17 категорий данных цветов. Разделение поездов / тестов, изображения с метками, 1360 Изображения, текст Классификация 2006 г. ME Nilsback et al.
Набор данных саженцев растений 12 категорийный набор саженцев растений. Помеченные изображения, сегментированные изображения, 5544 Изображений Классификация, обнаружение 2017 г. Giselsson et al.
Набор данных Fruits 360 База данных с изображениями 120 фруктов и овощей. 100x100 пикселей, белый фон. 82213 Изображения (jpg) Классификация 2017–2019 гг. Михай Олтеан, Хорея Мурешан

Микроб

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Ecoli Сайты локализации белков. Приведены различные особенности участков локализации белков. 336 Текст Классификация 1996 г. K. Nakai et al.
Набор данных MicroMass Идентификация микроорганизмов по данным масс-спектрометрии. Различные функции масс-спектрометра. 931 Текст Классификация 2013 P. Mahe et al.
Набор данных дрожжей Предсказания клеточных сайтов локализации белков. Каждому экземпляру дано восемь функций. 1484 Текст Классификация 1996 г. K. Nakai et al.

Открытие наркотиков

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных Tox21 Прогнозирование результатов биологических анализов. Приведены химические дескрипторы молекул. 12707 Текст Классификация 2016 г. A. Mayr et al.

Данные об аномалиях

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Тест Numenta Anomaly Benchmark (NAB) Данные упорядочены, имеют однозначные метрики с отметками времени. Все файлы данных содержат аномалии, если не указано иное. Никто 50+ файлов Значения, разделенные запятыми Обнаружение аномалий 2016 (постоянно обновляется) Numenta
Сколтех Anomaly Benchmark (SKAB) Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. Есть две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменения (коллективные аномалии). 30+ файлов (v0.9) Значения, разделенные запятыми Обнаружение аномалий 2020 (постоянно обновляется)

Юрий Д. Кацер, Вячеслав О. Козицын
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование Большинство файлов данных адаптировано из данных репозитория машинного обучения UCI, некоторые из них собраны из литературы. обрабатываются отсутствующие значения, только числовые атрибуты, различный процент аномалий, метки 1000+ файлов ARFF Обнаружение аномалий 2016 г. (возможно, обновлен новыми наборами данных и / или результатами)

Campos et al.

Вопрос Ответные данные

Этот раздел включает наборы данных, которые имеют дело со структурированными данными.

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных ответов на нейронные вопросы DBpedia (DBNQA) Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронных сетей открытого домена через базу знаний DBpedia. Этот набор данных содержит большую коллекцию шаблонов и экземпляров Open Neural SPARQL для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL. 894 499 Пары вопрос-запрос Ответ на вопрос 2018 г. Хартманн, Сору, Маркс и др.
Вьетнамский набор данных с ответами на вопросы (UIT-ViQuAD) Большой сборник вьетнамских вопросов для оценки моделей MRC. Этот набор данных включает более 23 000 пар вопросов и ответов, созданных людьми на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. 23 074 Пары вопрос-ответ Ответ на вопрос 2020 г. Nguyen et al.
Корпус вьетнамского языка с множественным выбором машинного чтения (ViMMRC) Сборник вьетнамских вопросов с несколькими вариантами ответов для оценки моделей MRC. Этот корпус включает 2783 вьетнамских вопроса с несколькими вариантами ответов. 2783 Пары вопрос-ответ Ответы на вопросы / Машинное чтение 2020 г. Nguyen et al.

Многовариантные данные

Наборы данных, состоящие из строк наблюдений и столбцов атрибутов, характеризующих эти наблюдения. Обычно используется для регрессионного анализа или классификации, но могут использоваться и другие типы алгоритмов. В этот раздел входят наборы данных, не подходящие для вышеперечисленных категорий.

Финансовый

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Индекс Доу-Джонса Еженедельные данные по запасам за первый и второй кварталы 2011 года. Включены расчетные значения, такие как процентное изменение и задержка. 750 Значения, разделенные запятыми Классификация, регрессия, Временные ряды 2014 г. M. Brown et al.
Statlog (одобрение кредита в Австралии) Заявки на получение кредитной карты приняты или отклонены, а также атрибуты заявки. Имена атрибутов удаляются, как и идентифицирующая информация. Факторы были переименованы. 690 Значения, разделенные запятыми Классификация 1987 г. Р. Куинлан
данные аукциона eBay Данные об аукционах с различных объектов eBay.com на аукционах разной длины Содержит все ставки, bidderID, время ставок и цены открытия. ~ 550 Текст Регрессия, классификация 2012 г. G. Shmueli et al.
Statlog (кредитные данные Германии) Классификация бинарных кредитов на «хорошие» и «плохие» с множеством функций. Приведены различные финансовые характеристики каждого человека. 690 Текст Классификация 1994 г. Х. Хофманн
Набор данных банковского маркетинга Данные крупной маркетинговой кампании, проведенной крупным банком. Приведены многие атрибуты клиентов, с которыми вы связались. Если клиент подписался на банк, тоже дается. 45 211 Текст Классификация 2012 г. S. Moro et al.
Набор данных Стамбульской фондовой биржи Несколько фондовых индексов отслеживались почти два года. Никто. 536 Текст Классификация, регрессия 2013 О. Акбилджич
Неисполнение клиентов кредитной карты Данные о кредитных дефолтах тайваньских кредиторов. Приведены различные особенности каждой учетной записи. 30 000 Текст Классификация 2016 г. I. Yeh

Погода

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Cloud DataSet Данные о 1024 различных облаках. Особенности изображения извлечены. 1024 Текст Классификация, кластеризация 1989 г. П. Коллард
Набор данных Эль-Ниньо Океанографические и приземные метеорологические данные сняты с серии буев, расположенных по всей экваториальной части Тихого океана. У каждого буя измеряется 12 метеорологических атрибутов. 178080 Текст Регресс 1999 г. Тихоокеанская лаборатория морской среды
Набор данных сети наблюдения за парниковыми газами Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. Никто. 2921 Текст Регресс 2015 г. Д. Лукас
Атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-Лоа Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. Никто. 44 года Текст Регресс 2001 г. Обсерватория Мауна-Лоа
Набор данных ионосферы Радиолокационные данные из ионосферы. Задача состоит в том, чтобы разделить радарные сигналы на хорошие и плохие. Приведено множество функций радара. 351 Текст Классификация 1989 г. Университет Джона Хопкинса
Набор данных определения уровня озона Два набора данных об уровне приземного озона. Приведены многие характеристики, включая погодные условия на момент измерения. 2536 Текст Классификация 2008 г. K. Zhang et al.

Перепись

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для взрослых Данные переписи 1994 года, содержащие демографические характеристики взрослых и их доходы. Очищено и анонимно. 48 842 Значения, разделенные запятыми Классификация 1996 г. Бюро переписи населения США
Доход от переписи (KDD) Взвешенные данные переписи из текущих обследований населения 1994 и 1995 годов . Разделить на тренировочную и тестовую наборы. 299 285 Значения, разделенные запятыми Классификация 2000 г. Бюро переписи населения США
База данных переписи IPUMS Данные переписи в районах Лос-Анджелеса и Лонг-Бич. Никто 256 932 Текст Классификация, регрессия 1999 г. IPUMS
Данные переписи населения США 1990 г. Частичные данные переписи населения США 1990 года. Результаты рандомизированы, а полезные атрибуты выбраны. 2 458 285 Текст Классификация, регрессия 1990 г. Бюро переписи населения США

Транзит

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных для обмена велосипедами Почасовой и посуточный счет проката велосипедов в большом городе. Приведены многие характеристики, включая погоду, продолжительность поездки и т. Д. 17 389 Текст Регресс 2013 Х. Фанаи-Т
Данные о поездках на такси Нью-Йорка Данные о поездках желтых и зеленых такси в Нью-Йорке. Предоставляет места получения и высадки, тарифы и другие детали поездок. 6 лет Текст Классификация, кластеризация 2015 г. Комиссия по такси и лимузину Нью-Йорка
Траектория службы такси ECML PKDD Траектории всех такси в большом городе. Приведено множество функций, включая точки начала и остановки. 1 710 671 Текст Кластеризация, причинно-следственные связи 2015 г. M. Ferreira et al.
МЕТР-ЛА Скорость от петлевых детекторов на шоссе округа Лос-Анджелес. Средняя скорость с временными шагами 5 минут. 7094304 из 207 датчиков и 34272 временных шага Значения, разделенные запятыми Регрессия, прогнозирование 2014 г. Джагадиш и др.
PeMS Скорость, поток, посещаемость и другие показатели от петлевых детекторов и других датчиков на автостраде штата Калифорния, США. Метрика обычно агрегируется по среднему значению с временными шагами по 5 минут. 39000 индивидуальных детекторов, каждый из которых содержит временные ряды за годы Значения, разделенные запятыми Регрессия, прогнозирование, прогнозирование текущей погоды, интерполяция (обновлено в реальном времени) Департамент транспорта Калифорнии

Интернет

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Веб-страницы из Common Crawl 2012 Большая коллекция веб-страниц и то, как они связаны гиперссылками Никто. 3,5 млрд Текст кластеризация, классификация 2013 В. Гранвиль
Набор данных интернет-рекламы Набор данных для прогнозирования, является ли данное изображение рекламой. Функции кодируют геометрию объявлений и фраз, встречающихся в URL. 3279 Текст Классификация 1998 г. Н. Кушмерик
Набор данных об использовании Интернета Общая демография интернет-пользователей. Никто. 10 104 Текст Классификация, кластеризация 1999 г. Д. Кук
Набор данных URL Данные URL за 120 дней с большой конференции. Приведены многие характеристики каждого URL-адреса. 2 396 130 Текст Классификация 2009 г. Дж. Ма
Набор данных фишинговых сайтов Набор данных фишинговых сайтов. Приведены многие особенности каждого сайта. 2456 Текст Классификация 2015 г. Р. Мустафа и др.
Набор данных для розничной торговли в Интернете Онлайн-транзакции для британского интернет-магазина. Приведена подробная информация о каждой транзакции. 541 909 Текст Классификация, кластеризация 2015 г. Д. Чен
Дамп простой темы Freebase Freebase - это онлайн-попытка структурировать все человеческие знания. Темы из Freebase были извлечены. большой Текст Классификация, кластеризация 2011 г. Freebase
Набор данных Farm Ads Текст фермерских объявлений с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента. Рассчитаны разреженные векторы SVMlight текстовых слов в объявлениях. 4143 Текст Классификация 2011 г. C. Masterharm et al.

Игры

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных покерных рук 5 карточных рук из стандартной колоды из 52 карт. Приведены атрибуты каждой руки, в том числе руки в покере, образованные содержащимися в ней картами. 1 025 010 Текст Регрессия, классификация 2007 г. Р. Каттраль
Набор данных Connect-4 Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один из игроков еще не выиграл и в которых следующий ход не является принудительным. Никто. 67 557 Текст Классификация 1995 г. Дж. Тромп
Набор данных шахмат (король-ладья против короля) База данных эндшпиля для белого короля и ладьи против черного короля. Никто. 28 056 Текст Классификация 1994 г. M. Bain et al.
Набор данных шахмат (король-ладья против королевской пешки) Король + ладья против короля + пешка на a7. Никто. 3196 Текст Классификация 1989 г. Р. Хольте
Набор данных эндшпиля крестики-нолики Бинарная классификация условий выигрыша в крестики-нолики. Никто. 958 Текст Классификация 1991 г. Д. Ага

Другое многомерное

Имя набора данных Краткое описание Предварительная обработка Экземпляры Формат Задача по умолчанию Создано (обновлено) Ссылка Создатель
Набор данных о жилье Средняя стоимость дома в Бостоне с соответствующими атрибутами дома и района. Никто. 506 Текст Регресс 1993 г. D. Harrison et al.
Словари Гетти структурированная терминология для искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. Никто. большой Текст Классификация 2015 г. Центр Гетти
Yahoo! Первая страница модуля "Сегодня" Пользователь нажимает журнал Журнал кликов пользователя для новостных статей, отображаемых на вкладке "Интересные" модуля "Сегодня" на Yahoo! Титульная страница. Сопряженный анализ с билинейной моделью. 45 811 883 посещений пользователей Текст Регрессия, кластеризация 2009 г. Чу и др.
Британский центр океанографических данных Биологические, химические, физические и геофизические данные океанов. Отслежено 22K переменных. Различный. 22K переменных, много экземпляров Текст Регрессия, кластеризация 2015 г. Британский центр океанографических данных
Набор данных для голосования в Конгрессе Данные о голосовании всех представителей США по 16 вопросам. Помимо необработанных данных голосования, предоставляются различные другие функции. 435 Текст Классификация 1987 г. Дж. Шлиммер
Набор данных рекомендаций Entree Chicago Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. Подробная информация об использовании приложения каждым пользователем записывается подробно. 50 672 Текст Регресс, рекомендация 2000 г. Р. Берк
Индекс страховых компаний (COIL 2000) Информация о клиентах страховой компании. Многие особенности каждого клиента и услуг, которые они используют. 9 000 Текст Регрессия, классификация 2000 г. П. ван дер Путтен
Детский набор данных Данные поступающих в детские сады. Включены данные о семье заявителя и различных других факторах. 12 960 Текст Классификация 1997 г. V. Rajkovic et al.
Набор данных университета Данные, описывающие большое количество университетов. Никто. 285 Текст Кластеризация, классификация 1988 г. S. Sounders et al.
Набор данных центра службы переливания крови Данные сервисного центра переливания крови. Предоставляет данные о доходности доноров, частоте и т. Д. Никто. 748 Текст Классификация 2008 г. I. Yeh
Запись набора данных шаблонов сравнения связей Большой набор данных записей. Задача - связать соответствующие записи вместе. Процедура блокировки применяется для выбора только определенных пар записей. 5,749,132 Текст Классификация 2011 г. Университет Майнца
Набор данных Nomao Nomao собирает данные о местах из множества различных источников. Задача - обнаружить предметы, описывающие одно и то же место. Дубликаты помечены. 34 465 Текст Классификация 2012 г. Nomao Labs
Набор данных фильмов Данные для 10 000 фильмов. Дано несколько характеристик для каждого фильма. 10 000 Текст Кластеризация, классификация 1999 г. Г. Видерхольд
Набор данных аналитики обучения открытого университета Информация об учениках и их взаимодействии с виртуальной учебной средой. Никто. ~ 30 000 Текст Классификация, кластеризация, регрессия 2015 г. J. Kuzilek et al.
Записи с мобильных телефонов Телекоммуникационная деятельность и взаимодействие Агрегация по ячейкам географической сетки и каждые 15 минут. большой Текст Классификация, кластеризация, регрессия 2015 г. G. Barlacchi et al.

Курируемые репозитории наборов данных

Поскольку наборы данных имеют множество форматов и иногда могут быть трудными в использовании, была проделана значительная работа по разработке и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.

  • OpenML: веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
  • PMLB: большой репозиторий контрольных наборов данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, которые доступны через Python API.
  • Metatext NLP: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий почти 1000 эталонных наборов данных и подсчет. Предоставляет множество задач, от классификации до контроля качества, и различные языки от английского, португальского до арабского.
  • Appen : готовые наборы данных и наборы данных с открытым исходным кодом, размещенные и поддерживаемые компанией. Эти биологические, графические, физические, вопросы-ответы, сигнальные, звуковые, текстовые и видео ресурсы насчитывают более 250 и могут применяться в более чем 25 различных сценариях использования.

Смотрите также

использованная литература