Список наборов данных для исследований в области машинного обучения - List of datasets for machine-learning research
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Эти наборы данных применяются для исследований в области машинного обучения и цитируются в рецензируемых академических журналах. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут благодаря достижениям в алгоритмах обучения (таких как глубокое обучение ), компьютерному оборудованию и, что менее интуитивно понятно, доступности высококачественных наборов данных для обучения. Высококачественные маркированные наборы обучающих данных для контролируемых и частично контролируемых алгоритмов машинного обучения, как правило, сложно и дорого производить из-за большого количества времени, необходимого для маркировки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим.
Данные изображения
Наборы данных, состоящие в основном из изображений или видео, для таких задач, как обнаружение объектов , распознавание лиц и классификация по нескольким меткам .
Распознавание лиц
В компьютерном зрении , лицевые изображения были широко используются для разработки лицевых систем распознавания , обнаружение лица , и много других проектов , которые используют изображения лиц.
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 видео с 200 людьми, ~ 1 250 000 изображений с ручными аннотациями: аннотированные с точки зрения пространственного аффекта (валентное возбуждение); в дикой природе; база цветов; различные разрешения (среднее = 640x360) | обнаруженные лица, лицевые ориентиры и аннотации валентного возбуждения | ~ 1,250,000 изображений с ручными аннотациями | видео (визуальные + аудио) | аффект распознавания (оценка валентности-возбуждения) | 2017 г. | CVPR
IJCV |
D.Kollias et al. |
Aff-Wild2 | 558 видеороликов 458 человек, ~ 2 800 000 изображений с ручными аннотациями: аннотированные с точки зрения i) категориального аффекта (7 основных выражений: нейтральный, счастье, печаль, удивление, страх, отвращение, гнев); б) размерный аффект (валентное возбуждение); iii) единицы действия (1, 2, 4, 6, 12, 15, 20, 25 а.е.); в дикой природе; база цветов; различные разрешения (среднее = 1030x630) | обнаруженные лица, обнаруженные и выровненные лица и аннотации | ~ 2 800 000 изображений с ручными аннотациями | видео (визуальные + аудио) | распознавание аффекта (оценка валентности-возбуждения, классификация основных выражений, обнаружение единиц действия) | 2019 г. | BMVC
FG |
D.Kollias et al. |
FERET (технология распознавания лиц) | 11338 изображений 1199 человек в разных положениях и в разное время. | Никто. | 11 338 | Изображений | Классификация, распознавание лиц | 2003 г. | Министерство обороны США | |
Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS) | 7356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций с двумя уровнями интенсивности каждая. | Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками. | 7 356 | Видео, звуковые файлы | Классификация, распознавание лиц, распознавание голоса | 2018 г. | С.Р. Ливингстон и Ф.А. Руссо | |
SCFace | Цветные изображения лиц под разными углами. | Расположение извлеченных черт лица. Приведены координаты объектов. | 4 160 | Изображения, текст | Классификация , распознавание лиц | 2011 г. | M. Grgic et al. | |
База данных лиц Йельского университета | Лица 15 человек в 11 различных выражениях. | Ярлыки выражений. | 165 | Изображений | Распознавание лица | 1997 г. | J. Yang et al. | |
Cohn-Kanade База данных выражений, закодированных в AU | Большая база изображений с надписями к выражениям. | Отслеживание определенных черт лица. | 500+ последовательностей | Изображения, текст | Анализ мимики | 2000 г. | T. Kanade et al. | |
База данных выражений лица JAFFE | 213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), представленных 10 японскими женщинами-моделями. | Изображения обрезаются до лицевой области. Включает данные семантических оценок по ярлыкам эмоций. | 213 | Изображения, текст | Познание выражения лица | 1998 г. | Лион, Камачи, Гьоба | |
Скраб для лица | Изображения общественных деятелей удалены из результатов поиска. | Название и м / ж аннотация. | 107 818 | Изображения, текст | Распознавание лица | 2014 г. | H. Ng et al. | |
База данных лиц BioID | Изображения лиц с отмеченным положением глаз. | Установите положение глаз вручную. | 1521 | Изображения, текст | Распознавание лица | 2001 г. | BioID | |
Набор данных сегментации кожи | Цветовые значения, выбранные случайным образом из изображений лиц. | B, G, R, значения извлечены. | 245 057 | Текст | Сегментация, классификация | 2012 г. | Р. Бхатт. | |
Босфор | База данных трехмерных изображений лиц. | Отмечены 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира. | 4652 |
Изображения, текст |
Распознавание лиц, классификация | 2008 г. | А. Савран и др. | |
UOY 3D-лицо | нейтральное лицо, 5 выражений: гнев, счастье, печаль, глаза закрыты, брови подняты. | маркировка. | 5250 |
Изображения, текст |
Распознавание лиц, классификация | 2004 г. | Йоркский университет | |
База данных лиц CASIA 3D | Выражения: гнев, улыбка, смех, удивление, закрытые глаза. | Никто. | 4624 |
Изображения, текст |
Распознавание лиц, классификация | 2007 г. | Институт автоматики Китайской академии наук | |
КАЗИЯ НИР | Выражения: Гнев Отвращение Страх Счастье Печаль Сюрприз | Никто. | 480 | Запись видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секунду | Распознавание лиц, классификация | 2011 г. | Zhao, G. et al. | |
БУ-3ДФЭ | нейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены. | Никто. | 2500 | Изображения, текст | Распознавание мимики, классификация | 2006 г. | Бингемтонский университет | |
Набор данных Grand Challenge для распознавания лиц | До 22 образцов по каждому предмету. Выражения: гнев, счастье, печаль, удивление, отвращение, одутловатость. 3D-данные. | Никто. | 4007 | Изображения, текст | Распознавание лиц, классификация | 2004 г. | Национальный институт стандартов и технологий | |
Гавабдб | До 61 образца по каждому предмету. Выражения лица нейтральное, улыбка, фронтальный акцентированный смех, фронтальный случайный жест. 3D изображения. | Никто. | 549 | Изображения, текст | Распознавание лиц, классификация | 2008 г. | Университет короля Хуана Карлоса | |
3D-RMA | До 100 субъектов, выражения в основном нейтральные. Также несколько поз. | Никто. | 9971 | Изображения, текст | Распознавание лиц, классификация | 2004 г. | Королевская военная академия (Бельгия) | |
SoF | 112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения. | Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности. | 42,592 (2,662 исходных изображения × 16 синтетических изображений) | Изображения, Мат файл | Гендерная классификация, обнаружение лиц, распознавание лиц, оценка возраста и обнаружение очков | 2017 г. | Афифи М. и др. | |
IMDB-WIKI | IMDB и Википедия сталкиваются с изображениями с отметками пола и возраста. | Никто | 523 051 | Изображений | Гендерная классификация, распознавание лиц, распознавание лиц, оценка возраста | 2015 г. | Р. Рот, Р. Тимофте, Л. В. Гул |
Распознавание действий
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о взаимодействии с людьми на телевидении | Видео из 20 различных телешоу для прогнозирования социальных действий: рукопожатие, дай пять, объятия, поцелуй и т. Д. | Никто. | 6766 видеоклипов | видеоклипы | Прогноз действий | 2013 | Патрон-Перес, А. и др. | |
База данных мультимодальных действий человека в Беркли (MHAD) | Записи одного человека, выполняющего 12 действий | Предварительная обработка MoCap | 660 сэмплов действий | 8 PhaseSpace Motion Capture, 2 стерео камеры, 4 Quad камеры, 6 акселерометров, 4 микрофона | Классификация действий | 2013 | Ofli, F. et al. | |
Набор данных THUMOS | Большой набор видеоданных для классификации действий. | Действия классифицированы и помечены. | 45 млн кадров видео | Видео, изображения, текст | Классификация, обнаружение действий | 2013 | Y. Jiang et al. | |
MEXAction2 | Набор видеоданных для локализации и обнаружения действий | Действия классифицированы и помечены. | 1000 | видео | Обнаружение действия | 2014 г. | Stoian et al. |
Обнаружение и распознавание объектов
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Визуальный геном | Изображения и их описание | 108 000 | изображения, текст | Подписи к изображениям | 2016 г. | Р. Кришна и др. | ||
Набор данных трехмерных объектов Беркли | 849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов. | Ограничительные рамки и маркировка объектов. | 849 | помеченные изображения, текст | Распознавание объекта | 2014 г. | A. Janoch et al. | |
Набор данных сегментации Berkeley и контрольные показатели 500 (BSDS500) | 500 естественных изображений, явно разделенных на непересекающиеся подмножества поездов, валидации и тестирования + тестовый код. На основе BSDS300. | Каждое изображение сегментировано в среднем по пяти различным объектам. | 500 | Сегментированные изображения | Обнаружение контуров и иерархическая сегментация изображений | 2011 г. | Калифорнийский университет в Беркли | |
Общие объекты Microsoft в контексте (COCO) | сложные повседневные сцены обычных предметов в их естественном контексте. | Подсветка, маркировка и классификация объектов по 91 типу объектов. | 2 500 000 | Помеченные изображения, текст | Распознавание объекта | 2015 г. | T. Lin et al. | |
База данных SUN | Очень большая база данных по распознаванию сцен и объектов. | Маркируются места и объекты. Объекты сегментированы. | 131 067 | Изображения, текст | Распознавание объектов, распознавание сцен | 2014 г. | J. Xiao et al. | |
ImageNet | База данных изображений помеченных объектов, используемая в конкурсе ImageNet Large Scale Visual Recognition Challenge | Помеченные объекты, ограничивающие рамки, описательные слова, функции SIFT | 14 197 122 | Изображения, текст | Распознавание объектов, распознавание сцен | 2009 (2014) | J. Deng et al. | |
Открытые изображения | Большой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов. | Метки уровня изображения, ограничивающие рамки | 9 178 275 | Изображения, текст | Классификация, Распознавание объектов | 2017 г. | ||
Набор данных обнаружения коммерческих новостных телеканалов | Телевизионные рекламные ролики и выпуск новостей. | Аудио и видео функции, извлеченные из неподвижных изображений. | 129 685 | Текст | Кластеризация, классификация | 2015 г. | P. Guha et al. | |
Набор данных Statlog (Image Segmentation) | Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и сегментированы вручную, чтобы создать классификацию для каждого пикселя. | Многие функции просчитаны. | 2310 | Текст | Классификация | 1990 г. | Массачусетский университет | |
Калтех 101 | Картинки предметов. | Обозначены подробные очертания объекта. | 9146 | Изображений | Классификация, распознавание объектов. | 2003 г. | F. Li et al. | |
Калтех-256 | Большой набор изображений для классификации объектов. | Изображения категоризированы и отсортированы вручную. | 30 607 | Изображения, текст | Классификация, обнаружение объекта | 2007 г. | G. Griffin et al. | |
Набор данных SIFT10M | Особенности SIFT набора данных Caltech-256. | Расширенное извлечение функций SIFT. | 11 164 866 | Текст | Классификация, обнаружение объекта | 2016 г. | X. Fu et al. | |
LabelMe | Аннотированные изображения сцен. | Обозначены объекты. | 187 240 | Изображения, текст | Классификация, обнаружение объекта | 2005 г. | Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института | |
Набор данных "Городские пейзажи" | Стерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные. | Сегментация и маркировка на уровне пикселей | 25 000 | Изображения, текст | Классификация, обнаружение объекта | 2016 г. | Daimler AG et al. | |
Набор данных PASCAL VOC | Большое количество изображений для задач классификации. | Маркировка, ограничительная рамка в комплекте | 500 000 | Изображения, текст | Классификация, обнаружение объекта | 2010 г. | M. Everingham et al. | |
Набор данных CIFAR-10 | Множество небольших изображений 10 классов объектов с низким разрешением. | Размечены классы, созданы разбиения обучающих наборов. | 60 000 | Изображений | Классификация | 2009 г. | А. Крижевский и др. | |
Набор данных CIFAR-100 | Подобно CIFAR-10, выше, но дано 100 классов объектов. | Размечены классы, созданы разбиения обучающих наборов. | 60 000 | Изображений | Классификация | 2009 г. | А. Крижевский и др. | |
Набор данных CINIC-10 | Объединенный вклад CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10. | Размечены классы, обучение, проверка, созданы разбиения тестовых наборов. | 270 000 | Изображений | Классификация | 2018 г. | Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки | |
Fashion-MNIST | База данных модных товаров в стиле MNIST | Размечены классы, созданы разбиения обучающих наборов. | 60 000 | Изображений | Классификация | 2017 г. | Zalando SE | |
notMNIST | Некоторые общедоступные шрифты и извлеченные из них глифы, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы AJ взяты из разных шрифтов. | Размечены классы, созданы разбиения обучающих наборов. | 500 000 | Изображений | Классификация | 2011 г. | Ярослав Булатов | |
Набор данных по обнаружению дорожных знаков в Германии | Изображения с автомобилей дорожных знаков на немецких дорогах. Эти знаки соответствуют стандартам ООН и поэтому такие же, как в других странах. | Знаки, помеченные вручную | 900 | Изображений | Классификация | 2013 | S Houben et al. | |
Набор данных KITTI Vision Benchmark | Автономные транспортные средства, проезжающие по среднему городу, снимали изображения различных областей с помощью камер и лазерных сканеров. | Многие тесты взяты из данных. | > 100 ГБ данных | Изображения, текст | Классификация, обнаружение объекта | 2012 г. | Гейгер и др. | |
Набор данных Linnaeus 5 | Изображения 5 классов предметов. | Размечены классы, созданы разбиения обучающих наборов. | 8000 | Изображений | Классификация | 2017 г. | Чаладзе и Калатозишвили | |
FieldSAFE | Мультимодальный набор данных для обнаружения препятствий в сельском хозяйстве, включая стереокамеру, тепловизор, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию. | Классы с географической маркировкой. | > 400 ГБ данных | Изображения и трехмерные облака точек | Классификация, обнаружение объекта, локализация объекта | 2017 г. | M. Kragh et al. | |
11K рук | 11076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации. | Никто | 11076 изображений рук | Изображения и файлы меток (.mat, .txt и .csv) | Распознавание пола и биометрическая идентификация | 2017 г. | М Афифи | |
CORe50 | Специально разработанный для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими к 10 различным категориям. | Размеченные классы, разбиение обучающего набора, созданное на основе трехстороннего многозадачного теста. | 164866 изображений RBG-D | изображения (.png или .pkl)
и файлы меток (.pkl, .txt, .tsv) |
Классификация, Распознавание объектов | 2017 г. | В. Ломонако и Д. Мальтони | |
OpenLORIS-Объект | Набор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный реальными роботами, установленными с несколькими датчиками высокого разрешения, включает в себя коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости до 20 сцен). Набор данных строго учитывает 4 фактора окружающей среды в разных сценах, включая освещение, загорание, размер пикселя объекта и беспорядок, и явно определяет уровни сложности каждого фактора. | Помеченные классы, набор для обучения / проверки / тестирования, созданный с помощью сценариев тестирования. | 1 106 424 изображения RBG-D | изображения (.png и .pkl)
и (.pkl) файлы этикеток |
Классификация, Распознавание объектов на протяжении всей жизни, Роботизированное зрение | 2019 г. | Q. She et al. | |
Набор данных ТГц и тепловизионного видеосигнала | Этот набор мультиспектральных данных включает терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей. | Предусмотрены таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D. | Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров). | AP2J | Эксперименты с обнаружением скрытых объектов | 2019 г. | Алексей А. Морозов и Ольга С. Сушкова |
Рукописный ввод и распознавание символов
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных искусственных персонажей | Искусственно сгенерированные данные, описывающие структуру 10 заглавных букв английского алфавита. | Координаты нарисованных линий даны в виде целых чисел. Различные другие функции. | 6000 | Текст | Распознавание почерка, классификация | 1992 г. | H. Guvenir et al. | |
Набор данных букв | Печатные буквы верхнего регистра. | 17 функций извлечены из всех изображений. | 20 000 | Текст | OCR, классификация | 1991 г. | D. Slate et al. | |
CASIA-HWDB | Автономная база данных рукописных китайских иероглифов . 3755 классов в наборе символов GB 2312 . | Изображения в оттенках серого с фоновыми пикселями, обозначенными как 255. | 1,172,907 | Изображения, текст | Распознавание почерка, классификация | 2009 г. | КАЗИЯ | |
CASIA-OLHWDB | Онлайн-база данных рукописных китайских иероглифов, собранных с помощью ручки Anoto на бумаге. 3755 классов в наборе символов GB 2312 . | Предоставляет последовательности координат штрихов. | 1,174,364 | Изображения, текст | Распознавание почерка, классификация | 2009 г. | КАЗИЯ | |
Набор данных траекторий персонажей | Маркированные образцы траекторий кончика пера для людей, пишущих простые символы. | Трехмерная матрица траекторий скорости кончика пера для каждого образца | 2858 | Текст | Распознавание почерка, классификация | 2008 г. | Б. Уильямс | |
Набор данных Chars74K | Распознавание символов в естественных изображениях символов, используемых как в английском, так и в каннаде | 74 107 | Распознавание символов, распознавание почерка, OCR, классификация | 2009 г. | Т. де Кампос | |||
Набор данных символов пера UJI | Изолированные рукописные символы | Приведены координаты положения пера по мере написания. | 11 640 | Текст | Распознавание почерка, классификация | 2009 г. | F. Prat et al. | |
Набор данных Gisette | Образцы почерка из часто путающих 4 и 9 знаков. | Функции, извлеченные из изображений, разделенные на поезд / тест, изображения рукописного ввода нормализованы по размеру. | 13 500 | Изображения, текст | Распознавание почерка, классификация | 2003 г. | Ян ЛеКун и др. | |
Набор данных Omniglot | 1623 разных рукописных символа из 50 разных алфавитов. | Маркированы вручную. | 38 300 | Изображения, текст, штрихи | Классификация, однократное обучение | 2015 г. | Американская ассоциация развития науки | |
База данных MNIST | База данных рукописных цифр. | Маркированы вручную. | 60 000 | Изображения, текст | Классификация | 1998 г. | Национальный институт стандартов и технологий | |
Оптическое распознавание набора данных рукописных цифр | Нормализованные растровые изображения рукописных данных. | Размер нормализован и сопоставлен с растровыми изображениями. | 5620 | Изображения, текст | Распознавание почерка, классификация | 1998 г. | Э. Алпайдин и соавт. | |
Распознавание набора рукописных цифр с помощью пера | Рукописные цифры на электронном планшете. | Векторы признаков, извлеченные для равномерного распределения. | 10 992 | Изображения, текст | Распознавание почерка, классификация | 1998 г. | Э. Алпайдин и соавт. | |
Набор рукописных цифр Semeion | Рукописные цифры от 80 человек. | Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой. | 1593 | Изображения, текст | Распознавание почерка, классификация | 2008 г. | T. Srl | |
HASYv2 | Рукописные математические символы | Все символы расположены по центру и имеют размер 32 x 32 пикселя. | 168233 | Изображения, текст | Классификация | 2017 г. | Мартин Тома | |
Шумный рукописный набор данных Bangla | Включает набор данных рукописных цифр (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие при движении и пониженный контраст. | Все изображения расположены по центру и имеют размер 32x32. | Набор числовых данных:
23330, г. Набор данных символов: 76000 |
Изображений,
текст |
Распознавание почерка,
классификация |
2017 г. | M. Karki et al. |
Аэрофотоснимки
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных сегментации аэрофотоснимков | 80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0. | Изображения сегментированы вручную. | 80 | Изображений | Классификация по воздуху, обнаружение объектов | 2013 | J. Yuan et al. | |
Комплект данных KIT AIS | Множественные помеченные наборы данных для обучения и оценки аэрофотоснимков толпы. | Изображения помечены вручную, чтобы показать пути людей через толпу. | ~ 150 | Изображения с путями | Отслеживание людей, воздушное отслеживание | 2012 г. | M. Butenuth et al. | |
Набор данных Уилта | Данные дистанционного зондирования больных деревьев и другого растительного покрова. | Извлечены различные функции. | 4899 | Изображений | Классификация, обнаружение воздушных объектов | 2014 г. | Б. Джонсон | |
Набор данных MASATI | Морские сцены из оптических аэрофотоснимков видимого спектра. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения. | Ограничительные рамки и маркировка объектов. | 7389 | Изображений | Классификация, обнаружение воздушных объектов | 2018 г. | А.-Дж. Gallego et al. | |
Набор данных сопоставления типов леса | Спутниковые снимки лесов Японии. | Полосы длин волн изображения извлечены. | 326 | Текст | Классификация | 2015 г. | Б. Джонсон | |
Набор данных исследования накладных изображений | Аннотированные изображения над головой. Изображения с несколькими объектами. | Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения. | 1000 | Изображения, текст | Классификация | 2009 г. | F. Tanner et al. | |
SpaceNet | SpaceNet - это совокупность коммерческих спутниковых снимков и маркированных тренировочных данных. | Файлы GeoTiff и GeoJSON, содержащие контуры зданий. | > 17533 | Изображений | Классификация, идентификация объекта | 2017 г. | DigitalGlobe, Inc. | |
Набор данных о землепользовании UC Merced | Эти изображения были вручную извлечены из больших изображений из коллекции изображений городских районов USGS National Map для различных городских районов США. | Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений. | 2100 | Чипы изображения 256x256, GSD 30 см (1 фут) | Классификация земного покрова | 2010 г. | И Ян и Шон Ньюсэм | |
Набор бортовых данных SAT-4 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земного покрова, кроме трех вышеупомянутых. | 500 000 | Изображений | Классификация | 2015 г. | S. Basu et al. | |
Набор бортовых данных SAT-6 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы. | 405 000 | Изображений | Классификация | 2015 г. | S. Basu et al. |
Другие изображения
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных SUPATLANTIQUE | Изображения отсканированных официальных документов и документов из Википедии | Никто | 4908 | TIFF / pdf | Идентификация исходного устройства, обнаружение подделки, классификация, .. | 2020 г. | К. Бен Рабах и др. | |
Теория функционала плотности квантовое моделирование графена | Помеченные изображения сырых входных данных для моделирования графена | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотности | 60744 тестовых и 501473 обучающих файлов | Помеченные изображения | Регресс | 2019 г. | К. Миллс и И. Тэмблин | |
Квантовое моделирование электрона в двумерной потенциальной яме | Помеченные изображения исходных данных для моделирования 2-й квантовой механики | Необработанные данные (в формате HDF5) и выходные метки из квантового моделирования | 1,3 миллиона изображений | Помеченные изображения | Регресс | 2017 г. | К. Миллс, М.А. Спаннер, И. Тэмблин | |
Набор данных о кулинарии MPII | Видео и изображения различных кулинарных мероприятий. | Пути и направления действий, метки, мелкозернистая маркировка движения, класс активности, извлечение и маркировка неподвижных изображений. | 881755 кадров | Помеченное видео, изображения, текст | Классификация | 2012 г. | M. Rohrbach et al. | |
Набор данных FAMOS | 5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер. | Исходные файлы PNG, отсортированные по камерам, а затем по получению. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение. | 30 000 | Изображения и файлы .mat | Аутентификация | 2012 г. | С. Волошиновский и др. | |
Набор данных PharmaPack | 1000 уникальных классов с 54 изображениями в классе. | Маркировка классов, множество локальных дескрипторов, таких как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV). | 54 000 | Изображения и файлы .mat | Классификация мелкого зерна | 2017 г. | О. Таран, С. Резаифар и др. | |
Набор данных Stanford Dogs | Изображения 120 пород собак со всего мира. | Предоставляются разделение на обучение / тестирование и аннотации ImageNet. | 20 580 | Изображения, текст | Классификация мелкого зерна | 2011 г. | A. Khosla et al. | |
StanfordExtra Dataset | 2D ключевые точки и сегментации для набора данных Stanford Dogs. | Предусмотрены ключевые точки 2D и сегментация. | 12 035 | Помеченные изображения | 3D-реконструкция / оценка позы | 2020 г. | Б. Биггс и др. | |
Набор данных домашних животных Oxford-IIIT | 37 категорий домашних животных, примерно по 200 изображений каждой. | Породы помечены, жесткая ограничивающая рамка, сегментация переднего и заднего плана. | ~ 7 400 | Изображения, текст | Классификация, обнаружение объекта | 2012 г. | О. Пархи и др. | |
Набор данных Corel Image Features | База данных изображений с извлеченными функциями. | Множество функций, включая гистограмму цвета, текстуру совместного появления и цвета, | 68 040 | Текст | Классификация, обнаружение объекта | 1999 г. | M. Ortega-Bindenberger et al. | |
Характеристики онлайн-видео и набор временных данных для транскодирования. | Время перекодирования для различных видео и свойств видео. | Приведены особенности видео. | 168 286 | Текст | Регресс | 2015 г. | T. Deneke et al. | |
Набор данных повествования последовательного изображения Microsoft (SIND) | Набор данных для последовательного перевода видения на язык | Описательная подпись и повествование даны для каждой фотографии, а фотографии расположены в последовательности. | 81 743 | Изображения, текст | Визуальное повествование | 2016 г. | Microsoft Research | |
Набор данных Caltech-UCSD Birds-200-2011 | Большой набор изображений птиц. | Расположение частей для птиц, ограничивающие рамки, задано 312 двоичных атрибутов | 11 788 | Изображения, текст | Классификация | 2011 г. | C. Wah et al. | |
Ютуб-8М | Большой и разнообразный маркированный набор видеоданных | Идентификаторы видео YouTube и связанные с ними ярлыки из разнообразного словаря из 4800 визуальных объектов. | 8 миллионов | Видео, текст | Классификация видео | 2016 г. | S. Abu-El-Haija et al. | |
YFCC100M | Большой и разнообразный маркированный набор изображений и видео | Видео и изображения Flickr и соответствующее описание, заголовки, теги и другие метаданные (например, EXIF и геотеги) | 100 миллионов | Видео, изображение, текст | Классификация видео и изображений | 2016 г. | B. Thomee et al. | |
Дискретный ЛИРИС-АКСЕДЕ | Короткие видеоролики с комментариями о валентности и возбуждении. | Ярлыки валентности и возбуждения. | 9800 | видео | Обнаружение видеоэмоций | 2015 г. | Y. Baveye et al. | |
Непрерывный LIRIS-ACCEDE | Длинные видеоролики с аннотациями для валентности и возбуждения, а также для сбора данных о кожно-гальванической реакции. | Ярлыки валентности и возбуждения. | 30 | видео | Обнаружение видеоэмоций | 2015 г. | Y. Baveye et al. | |
Средневековый LIRIS-ACCEDE | Расширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах. | Ярлыки насилия, валентности и возбуждения. | 10900 | видео | Обнаружение видеоэмоций | 2015 г. | Y. Baveye et al. | |
Спортивная поза Лидса | Сочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr. | Необработанный урожай вокруг одного человека, представляющего интерес, с 14 совместными этикетками | 2000 г. | Изображения плюс метки файлов .mat | Оценка позы человека | 2010 г. | С. Джонсон и М. Эверингем | |
Расширенная тренировка позы Leeds Sports Pose | Сочлененные аннотации позы человека на 10 000 изображений естественного спорта с Flickr. | 14 совместных лейблов через краудсорсинг | 10000 | Изображения плюс метки файлов .mat | Оценка позы человека | 2011 г. | С. Джонсон и М. Эверингем | |
Набор данных MCQ | 6 различных реальных экзаменов с множественным выбором (735 листов ответов и 33 540 блоков для ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором. | Никто | 735 листов для ответов и 33 540 ящиков для ответов | Ярлыки изображений и файлов .mat | Разработка систем оценки тестов с множественным выбором | 2017 г. | Афифи М. и др. | |
Видео наблюдения | Реальные видео наблюдения охватывают длительное время наблюдения (7 дней по 24 часа каждый). | Никто | 19 видео наблюдения (7 дней по 24 часа). | Видео | Сжатие данных | 2016 г. | Тадж-Эддин, IATF et al. | |
ЛИЛА БК | Маркированная информационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде. | Никто | ~ 10 млн изображений | Изображений | Классификация | 2019 г. | LILA рабочая группа | |
Можем ли мы увидеть фотосинтез? | 32 видео для восьми живых и восьми мертвых листьев, записанных как при постоянном, так и при переменном освещении. | Никто | 32 видео | Видео | Обнаружение живучести растений | 2017 г. | Тадж-Эддин, IATF et al. |
Текстовые данные
Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка , анализ тональности , перевод и кластерный анализ .
Отзывы
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Обзоры Amazon | Обзоры продуктов в США с Amazon.com . | Никто. | 233,1 миллиона | Текст | Классификация, анализ настроений | 2015 (2018) | McAuley et al. | |
Набор данных обзора OpinRank | Обзоры автомобилей и отелей соответственно на сайтах Edmunds.com и TripAdvisor . | Никто. | 42,230 / ~ 259,000 соответственно | Текст | Анализ настроений, кластеризация | 2011 г. | K. Ganesan et al. | |
MovieLens | 22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей. | Никто. | ~ 22 млн | Текст | Регрессия, кластеризация, классификация | 2016 г. | GroupLens Research | |
Yahoo! Рейтинги музыкальных пользователей музыкальных исполнителей | Пользователи Yahoo оценили более 10 миллионов художников. | Ничего не описано. | ~ 10 млн | Текст | Кластеризация, регрессия | 2004 г. | Yahoo! | |
Набор данных оценки автомобиля | Свойства автомобилей и их приемлемость в целом. | Дано шесть категориальных признаков. | 1728 | Текст | Классификация | 1997 г. | М. Боханец | |
Набор данных о предпочтениях в YouTube Comedy Slam | Данные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео. | Указаны метаданные видео. | 1 138 562 | Текст | Классификация | 2012 г. | ||
Набор данных отзывов пользователей Skytrax | Отзывы пользователей об авиакомпаниях, аэропортах, местах и залах ожидания Skytrax. | Рейтинги точны и включают многие аспекты опыта работы в аэропорту. | 41396 | Текст | Классификация, регрессия | 2015 г. | К. Нгуен | |
Набор данных оценки помощника учителя | Отзывы о помощниках учителя. | Приведены характеристики каждого экземпляра, такие как класс, размер класса и преподаватель. | 151 | Текст | Классификация | 1997 г. | W. Loh et al. | |
Корпус отзывов вьетнамских студентов (UIT-VSFC) | Отзывы студентов. | Комментарии | 16 000 | Текст | Классификация | 1997 г. | Nguyen et al. | |
Корпус вьетнамских социальных сетей Emotion Corpus (UIT-VSMEC) | Комментарии пользователей в Facebook. | Комментарии | 6 927 | Текст | Классификация | 1997 г. | Nguyen et al. | |
Вьетнамский набор данных обнаружения жалоб открытого домена (ViOCD) | Отзывы клиентов о продуктах | Комментарии | 5 485 | Текст | Классификация | 2021 г. | Nguyen et al. |
Новостные статьи
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных NYSK | Статьи на английском языке о деле, касающемся обвинений в сексуальном посягательстве на бывшего директора МВФ Доминика Стросс-Кана . | Отфильтровано и представлено в формате XML. | 10 421 | XML, текст | Анализ тональности, извлечение темы | 2013 | Dermouche, M. et al. | |
Корпус Reuters, том 1 | Большой корпус новостей Reuters на английском языке. | Детальная категоризация и тематические коды. | 810 000 | Текст | Классификация, кластеризация, обобщение | 2002 г. | Рейтер | |
Корпус Reuters, том 2 | Большой корпус новостей Reuters на нескольких языках. | Детальная категоризация и тематические коды. | 487 000 | Текст | Классификация, кластеризация, обобщение | 2005 г. | Рейтер | |
Сборник текстовых исследований Thomson Reuters | Большой корпус новостей. | Подробности не описаны. | 1 800 370 | Текст | Классификация, кластеризация, обобщение | 2009 г. | T. Rose et al. | |
Корпус саудовских газет | 31 030 газетных статей на арабском языке. | Метаданные извлечены. | 31 030 | JSON | Обобщение, кластеризация | 2015 г. | М. Альхагри | |
RE3D (набор данных оценки извлечения взаимосвязей и сущностей) | Entity and Relation отметили данные из различных новостных и правительственных источников. При поддержке Dstl | Отфильтровано, категоризация с использованием усатых типов | Неизвестный | JSON | Классификация, признание сущности и отношения | 2017 г. | Dstl | |
Каталог кликбейтов Examiner Spam | Clickbait, спам, краудсорсинговые заголовки с 2010 по 2015 год | Дата публикации и заголовки | 3 089 781 | CSV | Кластеризация, События, Настроения | 2016 г. | Р. Кулкарни | |
Корпус новостей ABC Australia | Весь новостной корпус ABC Australia с 2003 по 2019 год | Дата публикации и заголовки | 1,186,018 | CSV | Кластеризация, События, Настроения | 2020 г. | Р. Кулкарни | |
Мировые новости - 20 тыс. Фидов | Снимок всех онлайн-заголовков на более чем 20 языках за одну неделю | Время публикации, URL и заголовки | 1,398,431 | CSV | Кластеризация, события, определение языка | 2018 г. | Р. Кулкарни | |
Заголовок сообщения Reuters News Wire | 11 лет событий с указанием времени, опубликованных в ленте новостей | Время публикации, текст заголовка | 16 121 310 | CSV | НЛП, Компьютерная лингвистика, События | 2018 г. | Р. Кулкарни | |
The Irish Times Ireland News Corpus | 24 года новостей Ирландии с 1996 по 2019 год | Время публикации, категория заголовка и текст | 1,484,340 | CSV | НЛП, Компьютерная лингвистика, События | 2020 г. | Р. Кулкарни | |
Набор данных заголовков новостей для обнаружения сарказма | Высококачественный набор данных с саркастическими и несаркастичными заголовками новостей. | Чистый, нормализованный текст | 26 709 | JSON | НЛП, Классификация, Лингвистика | 2018 г. | Ришаб Мишра |
Сообщения
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных электронной почты Enron | Электронные письма от сотрудников Enron, упорядоченные по папкам. | Вложения удалены, неверные адреса электронной почты преобразованы в user@enron.com или no_address@enron.com. | ~ 500 000 | Текст | Сетевой анализ , анализ настроений | 2004 (2015) | Климт, Б. и Ю. Ян | |
Набор данных Ling-Spam | Корпус, содержащий как законные, так и спам- сообщения. | Четыре версии корпуса с указанием того, был ли включен лемматайзер или стоп-лист. | 2,412 Ham 481 Спам | Текст | Классификация | 2000 г. | Androutsopoulos, J. et al. | |
Набор данных для сбора SMS-спама | Собранные SMS-спам-сообщения. | Никто. | 5 574 | Текст | Классификация | 2011 г. | T. Almeida et al. | |
Набор данных "Двадцать групп новостей" | Сообщения из 20 разных групп новостей. | Никто. | 20 000 | Текст | Обработка естественного языка | 1999 г. | T. Mitchell et al. | |
Набор данных Spambase | Спам-письма. | Извлечено много текстовых функций. | 4 601 | Текст | Обнаружение спама, классификация | 1999 г. | M. Hopkins et al. | |
Набор данных ColBERT | Короткие анекдоты. | Выбросы удалены. | 200 000 | Текст | Обнаружение юмора, классификация | 2020 г. | I. Annamoradnejad. |
Твиттер и твиты
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Фильм Твиты | Набор данных рейтинга фильмов на основе публичных и хорошо структурированных твитов | ~ 710 000 | Текст | Классификация, регрессия | 2018 г. | С. Дума | ||
Twitter100k | Пары изображений и твитов | 100 000 | Текст и изображения | Кросс-медиа поиск | 2017 г. | Y. Hu, et al. | ||
Настроение140 | Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и настроения. | Классифицируется с помощью дистанционного наблюдения за наличием смайлика в твите. | 1 578 627 | Твиты, запятая, значения с разделителями | Анализ настроений | 2009 г. | A. Go et al. | |
Набор данных Twitter ASU | Сетевые данные Twitter, а не настоящие твиты. Показывает связи между большим количеством пользователей. | Никто. | 11316811 пользователей, 85 331 846 подключений | Текст | Кластеризация, анализ графиков | 2009 г. | R. Zafarani et al. | |
Социальные круги SNAP: база данных Twitter | Большие сетевые данные Twitter. | Особенности узлов, круги и сети эго. | 1,768,149 | Текст | Кластеризация, анализ графиков | 2012 г. | J. McAuley et al. | |
Набор данных Twitter для анализа настроений арабов | Арабские твиты. | Образцы помечаются вручную как положительные или отрицательные. | 2000 г. | Текст | Классификация | 2014 г. | Н. Абдулла | |
Жужжание в наборе данных социальных сетей | Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. | Данные отображаются в виде окон, чтобы пользователь мог попытаться предсказать события, приведшие к ажиотажу в социальных сетях. | 140 000 | Текст | Регрессия, Классификация | 2013 | F. Kawala et al. | |
Парафраз и семантическое сходство в Twitter (PIT) | Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение / информацию или нет. Отмечено вручную. | токенизация, теги части речи и именованных сущностей | 18 762 | Текст | Регрессия, Классификация | 2015 г. | Xu et al. | |
Набор данных Geoparse для Twitter | Этот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположений, помеченные вручную. | аннотации местоположения добавлены в метаданные JSON | 6 386 | Твиты, JSON | Классификация, извлечение информации | 2014 г. | SE Middleton et al. | |
Коллекция голландских социальных сетей | Этот набор данных содержит твиты о COVID-19, сделанные носителями голландского языка или пользователями из Нидерландов. Данные снабжены машинными аннотациями. | классифицируется по настроениям, текст твита и описание пользователя переведены на английский язык. Отраслевые упоминания извлекаются | 271 342 | JSONL | Тональность, классификация по нескольким меткам, машинный перевод | 2020 г. | Ааакш Гупта, Корона |
Диалоги
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Корпус чата NPS | Сообщения из онлайн-чатов для разных возрастных категорий. | Конфиденциальность рук замаскирована, помечена для части речи и диалогового акта. | ~ 500 000 | XML | НЛП, программирование, лингвистика | 2007 г. | Форсайт, Э., Лин, Дж., И Мартелл, К. | |
Twitter Triple Corpus | ABA троек, извлеченных из Twitter. | 4232 | Текст | НЛП | 2016 г. | Сордини, А. и др. | ||
UseNet Corpus | Сообщения на форуме UseNet. | Анонимные электронные письма и URL-адреса. Пропущенные документы с длиной <500 слов или> 500 000 слов, или которые были <90% на английском языке. | 7 миллиардов | Текст | 2011 г. | Шауль К. и Уэстбери К. | ||
NUS SMS Corpus | SMS-сообщения, собранные между двумя пользователями, с временным анализом. | ~ 10 000 | XML | НЛП | 2011 г. | КАН, М | ||
Reddit Корпус всех комментариев | Все комментарии Reddit (по состоянию на 2015 год). | ~ 1,7 миллиарда | JSON | НЛП, исследования | 2015 г. | Застрявший в матрице | ||
Корпус диалогов Ubuntu | Диалоги, извлеченные из потока чата Ubuntu в IRC. | CSV | Исследование диалоговых систем | 2015 г. | Lowe, R. et al. | |||
Задача отслеживания состояния диалога | Задачи отслеживания состояния диалогов 2 и 3 (DSTC2 и 3) были исследовательскими задачами, направленными на улучшение современного состояния отслеживания состояния речевых диалоговых систем. | Транскрипция разговорных диалогов с маркировкой | DSTC2 содержит ~ 3,2 тыс. Вызовов - DSTC3 содержит ~ 2,3 тыс. Вызовов | Json | Отслеживание состояния диалога | 2014 г. | Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д. |
Другой текст
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Web of Science | Иерархические наборы данных для классификации текста | Никто. | 46985 | Текст | Классификация,
Категоризация |
2017 г. | K. Kowsari et al. | |
Отчеты по судебным делам | Федеральный суд Австралии по делам с 2006 по 2009 год. | Никто. | 4 000 | Текст | Обобщение,
анализ цитирования |
2012 г. | F. Galgani et al. | |
Корпус авторов Blogger | Записи в блогах 19 320 человек с blogger.com. | Блогер сам указал пол, возраст, отрасль и знак зодиака. | 681 288 | Текст | Анализ тональности, обобщение, классификация | 2006 г. | J. Schler et al. | |
Социальная структура сетей Facebook | Большой набор данных социальной структуры Facebook. | Никто. | 100 колледжей покрыты | Текст | Сетевой анализ, кластеризация | 2012 г. | A. Traud et al. | |
Набор данных для машинного понимания текста | Рассказы и связанные вопросы для проверки понимания текста. | Никто. | 660 | Текст | Обработка естественного языка, машинное понимание | 2013 | M. Richardson et al. | |
Проект Penn Treebank | Естественный текст с аннотациями для лингвистической структуры. | Текст разбирается на семантические деревья. | ~ 1 млн слов | Текст | Обработка естественного языка, реферирование | 1995 г. | M. Marcus et al. | |
Набор данных DEXTER | Данная задача состоит в том, чтобы определить по приведенным характеристикам, какие статьи посвящены корпоративным поглощениям. | Извлеченные элементы включают основы слов. Включены функции дистрактора. | 2600 | Текст | Классификация | 2008 г. | Рейтер | |
N-граммы Google Книги | N-граммы из очень большого корпуса книг | Никто. | 2,2 ТБ текста | Текст | Классификация, кластеризация, регрессия | 2011 г. | ||
Personae Corpus | Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. | Помимо обычных текстов даются синтаксически аннотированные тексты. | 145 | Текст | Классификация, регрессия | 2008 г. | K. Luyckx et al. | |
Набор данных CNAE-9 | Задача категоризации для произвольных текстовых описаний бразильских компаний. | Частота слова была извлечена. | 1080 | Текст | Классификация | 2012 г. | P. Ciarelli et al. | |
Набор данных предложений, помеченных настроением | 3000 сантиментов помечены предложениями. | Тональность каждого предложения была помечена вручную как положительная или отрицательная. | 3000 | Текст | Классификация, анализ настроений | 2015 г. | Д. Котзиас | |
BlogFeedback Dataset | Набор данных для прогнозирования количества комментариев к сообщению на основе характеристик этого сообщения. | Извлечены многие особенности каждого сообщения. | 60 021 | Текст | Регресс | 2014 г. | К. Буза | |
Корпус Stanford Natural Language Inference (SNLI) Corpus | Подписи к изображениям, сопоставленные с вновь построенными предложениями, образуют следствие, противоречие или нейтральные пары. | Метки класса Entailment, синтаксический анализ парсером Stanford PCFG | 570 000 | Текст | Логический вывод на естественном языке / распознавание текстового следования | 2015 г. | S. Bowman et al. | |
Коллекция DSL Corpus (DSLCC) | Многоязычный сборник коротких отрывков публицистических текстов на схожих языках и диалектах. | Никто | 294 000 фраз | Текст | Различение похожих языков | 2017 г. | Тан, Лилинг и др. | |
Набор данных городского словаря | Корпус слов, голосов и определений | Имена пользователей анонимны | 2 580 925 | CSV | НЛП, Машинное понимание | 2016 май | Анонимный | |
T-REx | Резюме Википедии, согласованные с объектами Викиданных | Согласование троек Викиданных с выдержками из Википедии | 11M троек совмещенных | JSON и NIF [2] | НЛП, Извлечение отношений | 2018 г. | H. Elsahar et al. | |
Оценка общего понимания языка (GLUE) | Бенчмарк из девяти задач | Различный | ~ 1 млн предложений и пар предложений | NLU | 2018 г. | Wang et al. | ||
Contract Understanding Atticus Dataset (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) | Набор юридических договоров с обширными экспертными аннотациями | ~ 13 000 этикеток | CSV и PDF | Обработка естественного языка, QnA | 2021 г. | Проект Аттикус | ||
Набор данных вьетнамских подписей к изображениям (UIT-ViIC) | Набор данных вьетнамских подписей к изображениям | 19250 подписей к 3850 изображениям | CSV и PDF | Обработка естественного языка, Компьютерное зрение | 2020 г. | Лам и др. | ||
Вьетнамские имена с указанием пола (UIT-ViNames) | Вьетнамские имена с указанием пола | 26850 вьетнамских полных имен с указанием пола | CSV | Обработка естественного языка | 2020 г. | To et al. | ||
Вьетнамский набор данных по обнаружению конструктивной и токсичной речи (UIT-ViCTSD) | Вьетнамский набор данных по обнаружению конструктивной и токсичной речи | 10 000 комментариев вьетнамских пользователей к онлайн-газетам на 10 доменах | CSV | Обработка естественного языка | 2021 г. | Nguyen et al. | ||
Набор данных ColBERT | Короткие анекдоты. | Выбросы удалены. | 200 000 | Текст | Обнаружение юмора, классификация | 2020 г. | Annamoradnejad et al. |
Звуковые данные
Наборы звуков и звуковых характеристик.
Речь
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вызов речи с нулевым ресурсом 2015 | Спонтанная речь (английский), Речь чтения (Xitsonga). | необработанный WAV | Английский язык: 5 часов, 12 говорящих; Сицонга: 2:30; 24 спикера | звук | Неконтролируемое обнаружение речевых характеристик / подсловных единиц / словарных единиц | 2015 г. | Versteegh et al. | |
Набор данных речи Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Голосовые функции извлечены, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона. | 1,040 | Текст | Классификация, регрессия | 2013 | BE Sakar et al. | |
Разговорные арабские цифры | Разговорные арабские цифры от 44 мужчин и 44 женщин. | Временной ряд коэффициентов мел-частотного кепстра . | 8 800 | Текст | Классификация | 2010 г. | M. Bedda et al. | |
Набор данных ISOLET | Разговорные имена букв. | Особенности извлечены из звуков. | 7797 | Текст | Классификация | 1994 г. | R. Cole et al. | |
Набор данных японских гласных | Девять говорящих-мужчин произнесли последовательно по две гласные на японском языке. | Применил к нему 12-градусный линейный прогнозный анализ, чтобы получить дискретный временной ряд с 12 коэффициентами кепстра. | 640 | Текст | Классификация | 1999 г. | M. Kudo et al. | |
Набор данных телемониторинга Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Звуковые особенности извлечены. | 5875 | Текст | Классификация | 2009 г. | A. Tsanas et al. | |
ТИМИТ | Записи 630 человек, говорящих на восьми основных диалектах американского английского, каждый из которых читает десять предложений с богатым фонетическим звучанием. | Речь транскрибируется лексически и фонематически. | 6300 | Текст | Распознавание речи, классификация. | 1986 г. | J. Garofolo et al. | |
Корпус арабской речи | Речевой корпус на современном стандартном арабском языке (MSA) с одним говорящим и фонетическими и орфографическими расшифровками, выровненными на уровне фонем. | Речь орфографически и фонетически расшифровывается с ударением. | ~ 1900 | Текст, WAV | Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. | 2016 г. | Н. Халаби | |
Общий голос | Общедоступная база данных краудсорсинговых данных по широкому спектру диалектов. | Проверка другими пользователями | Английский: 1118 часов | MP3 с соответствующими текстовыми файлами | Распознавание речи | Июнь 2017 (декабрь 2019) | Mozilla |
Музыка
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Географическое происхождение набора музыкальных данных | Аудио особенности музыкальных образцов из разных мест. | Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. | 1,059 | Текст | Географическая классификация, кластеризация | 2014 г. | F. Zhou et al. | |
Набор данных "Миллион песен" | Аудио особенности из миллиона различных песен. | Аудио функции извлечены. | 1 млн | Текст | Классификация, кластеризация | 2011 г. | T. Bertin-Mahieux et al. | |
MUSDB18 | Многодорожечные записи популярной музыки | Необработанный звук | 150 | MP4, WAV | Разделение источников | 2017 г. | Z. Rafii et al. | |
Бесплатный Музыкальный Архив | Аудио по лицензии Creative Commons из 100 тыс. Песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданных, пользовательских данных, текста произвольной формы. | Необработанный звук и аудио особенности. | 106 574 | Текст, MP3 | Классификация, рекомендации | 2017 г. | M. Defferrard et al. | |
Набор данных хоровой гармонии Баха | Бах хоральные аккорды. | Аудио функции извлечены. | 5665 | Текст | Классификация | 2014 г. | D. Radicioni et al. |
Другие звуки
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
UrbanSound | Маркированные звукозаписи звуков кондиционеров, автомобильных гудков и игры детей. | Сортировка по папкам по классу событий, а также по метаданным в файле JSON и аннотациям в файле CSV. | 1,059 | Звук
( WAV ) |
Классификация | 2014 г. | J. Salamon et al. | |
AudioSet | 10-секундные звуковые фрагменты из видеороликов YouTube и онтология более 500 лейблов. | 128-d PCA'd VGG-ish показывает каждую 1 секунду. | 2,084,320 | Текстовые (CSV) и TensorFlow файлы записей | Классификация | 2017 г. | Дж. Геммеке и др., Google | |
Задача по обнаружению звука птиц | Звук со станций мониторинга окружающей среды, а также записи из краудсорсинга | 17 000+ | Классификация | 2016 (2018) | Университет Королевы Марии и Общество обработки сигналов IEEE | |||
Смеси для хипстеров WSJ0 | Звук с WSJ0 смешанный с шумом, записанный в районе залива Сан-Франциско | Шумовые клипы соответствуют клипам WSJ0 | 28 000 | Звук ( WAV ) | Разделение источника звука | 2019 г. | Wichern, G., et al., Whisper and MERL | |
Clotho | 4981 аудиосэмпл продолжительностью от 15 до 30 секунд, каждый аудиосэмпл имеет пять различных заголовков длиной от 8 до 20 слов. | 24 905 | Звук ( WAV ) и текст ( CSV ) | Автоматические субтитры | 2020 г. | К. Дроссос, С. Липпинг, Т. Виртанен |
Данные сигнала
Наборы данных, содержащие информацию об электрическом сигнале, требующую некоторой обработки сигнала для дальнейшего анализа.
Электрические
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных остроумного червя | Набор данных с подробным описанием распространения червя Witty и зараженных компьютеров. | Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую как заголовки IP и UDP. | 55 909 IP-адресов | Текст | Классификация | 2004 г. | Центр прикладного анализа интернет-данных | |
Набор данных для оценки артериального давления без манжеты | Очищены жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. | Очищены показатели жизненно важных функций 125 Гц. | 12 000 | Текст | Классификация, регрессия | 2015 г. | M. Kachuee et al. | |
Набор данных дрейфа матрицы газовых сенсоров | Измерения от 16 химических датчиков, используемых при моделировании для компенсации дрейфа. | Предоставляется большое количество функций. | 13 910 | Текст | Классификация | 2012 г. | А. Вергара | |
Набор сервоприводов | Данные, охватывающие нелинейные отношения, наблюдаемые в цепи сервоусилителя. | Приведены уровни различных компонентов в зависимости от других компонентов. | 167 | Текст | Регресс | 1993 г. | К. Ульрих | |
Набор данных UJIIndoorLoc-Mag | База данных локализации в помещении для тестирования систем позиционирования в помещении. Данные основаны на магнитном поле. | Даны тренировочные и тестовые шпагаты. | 40 000 | Текст | Классификация, регрессия, кластеризация | 2015 г. | D. Rambla et al. | |
Набор данных диагностики бессенсорного привода | Электрические сигналы от двигателей с неисправными компонентами. | Статистические характеристики извлечены. | 58 508 | Текст | Классификация | 2015 г. | М. Батор |
Отслеживание движения
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Носимые компьютеры: классификация поз и движений тела (PUC-Rio) | Люди, выполняющие пять стандартных действий в трекерах движения. | Никто. | 165 632 | Текст | Классификация | 2013 | Папский католический университет Рио-де-Жанейро | |
Набор данных сегментации фазы жеста | Функции, извлеченные из видео, в котором люди делают различные жесты. | Извлеченные функции предназначены для изучения сегментации жестов по фазам. | 9900 | Текст | Классификация, кластеризация | 2014 г. | Р. Мадео и др. | |
Набор данных Vicon Physical Action | 10 обычных и 10 агрессивных физических действий, которые измеряют активность человека, отслеживаемую 3D-трекером. | Многие параметры записываются 3D-трекером. | 3000 | Текст | Классификация | 2011 г. | Т. Теодоридис | |
Набор данных о ежедневных и спортивных мероприятиях | Данные датчика мотора для 19 ежедневных и спортивных занятий. | Дано много датчиков, без предварительной обработки сигналов. | 9120 | Текст | Классификация | 2013 | Б. Баршан и др. | |
Распознавание человеческой деятельности с использованием набора данных смартфонов | Данные гироскопа и акселерометра от людей, носящих смартфоны и выполняющих обычные действия. | Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет помех. | 10 299 | Текст | Классификация | 2012 г. | J. Reyes-Ortiz et al. | |
Знаки на австралийском языке жестов | Знаки австралийского языка жестов, снятые перчатками для отслеживания движения. | Никто. | 2565 | Текст | Классификация | 2002 г. | М. Кадус | |
Упражнения по поднятию тяжестей, контролируемые инерциальными измерительными приборами | Пять вариантов упражнения на сгибание бицепса под контролем ИДУ. | Некоторая статистика рассчитана на основе необработанных данных. | 39 242 | Текст | Классификация | 2013 | В. Угулино и др. | |
sEMG для базового набора данных движений руки | Две базы данных поверхностных электромиографических сигналов 6 движений рук. | Никто. | 3000 | Текст | Классификация | 2014 г. | C. Sapsanis et al. | |
Набор данных распознавания активности REALDISP | Оценить методы, связанные с эффектами смещения сенсора при распознавании активности носимых устройств. | Никто. | 1419 | Текст | Классификация | 2014 г. | O. Banos et al. | |
Набор данных распознавания неоднородности | Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. | Никто. | 43 930 257 | Текст | Классификация, кластеризация | 2015 г. | A. Stisen et al. | |
Прогнозирование движения пользователей внутри помещений на основе данных RSS | Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. | Никто. | 13 197 | Текст | Классификация | 2016 г. | Д. Баччу | |
Набор данных мониторинга физической активности PAMAP2 | 18 различных видов физических нагрузок, выполненных 9 субъектами с 3-мя IMU. | Никто. | 3 850 505 | Текст | Классификация | 2012 г. | А. Рейсс | |
ВОЗМОЖНОСТЬ Набор данных распознавания действий | Распознавание человеческой активности с помощью носимых, объектных и окружающих датчиков - это набор данных, разработанный для тестирования алгоритмов распознавания человеческой активности. | Никто. | 2551 | Текст | Классификация | 2012 г. | D. Roggen et al. | |
Набор данных распознавания активности в реальном мире | Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и включает шесть различных типов датчиков. | Никто. | 3 150 000 (на датчик) | Текст | Классификация | 2016 г. | T. Sztyler et al. | |
Набор данных позы инсульта в реабилитации Торонто | 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с помощью робота для реабилитации после инсульта. | Никто. | 10 здоровых людей и 9 выживших после инсульта (3500–6000 кадров на человека) | CSV | Классификация | 2017 г. | Э. Долатабади и др. | |
Корпус социальных контактов (CoST) | 7805 жестов захватывают 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежный, нормальный и грубый, на сетке датчика давления, обернутой вокруг руки манекена. | Выполненные сенсорные жесты сегментированы и помечены. | 7805 захватов жестов | CSV | Классификация | 2016 г. | M. Jung et al. |
Другие сигналы
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных вина | Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. | Дано 13 свойств каждого вина | 178 | Текст | Классификация, регрессия | 1991 г. | М. Форина и соавт. | |
Набор данных электростанции комбинированного цикла | Данные с различных датчиков на электростанции за 6 лет. | Никто | 9568 | Текст | Регресс | 2014 г. | P. Tufekci et al. |
Физические данные
Наборы данных из физических систем.
Физика высоких энергий
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных HIGGS | Моделирование столкновений ускорителей частиц методом Монте-Карло. | Дано 28 характеристик каждого столкновения. | 11 млн | Текст | Классификация | 2014 г. | Д. Уайтсон | |
Набор данных HEPMASS | Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель - отделить сигнал от шума. | Дано 28 характеристик каждого столкновения. | 10 500 000 | Текст | Классификация | 2016 г. | Д. Уайтсон |
Системы
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных гидродинамики яхты | Характеристики яхты в зависимости от размеров. | Для каждой яхты дано шесть характеристик. | 308 | Текст | Регресс | 2013 | Р. Лопес | |
Набор данных об ошибках выполнения роботов | 5 наборов данных, которые связаны с отказом роботов выполнять общие задачи. | Целочисленные функции, такие как измерения крутящего момента и других датчиков. | 463 | Текст | Классификация | 1999 г. | L. Seabra et al. | |
Набор данных Pittsburgh Bridges | Описание конструкции дано с точки зрения нескольких свойств различных мостов. | Приведены различные характеристики моста. | 108 | Текст | Классификация | 1990 г. | Y. Reich et al. | |
Автомобильный набор данных | Данные об автомобилях, их страховом риске и нормированных убытках. | Характеристики автомобиля извлечены. | 205 | Текст | Регресс | 1987 г. | J. Schimmer et al. | |
Автоматический набор данных MPG | Данные MPG для автомобилей. | Дано восемь характеристик каждой машины. | 398 | Текст | Регресс | 1993 г. | Университет Карнеги Меллон | |
Набор данных по энергоэффективности | Требования к отоплению и охлаждению даны в зависимости от параметров здания. | Приведены параметры застройки. | 768 | Текст | Классификация, регрессия | 2012 г. | A. Xifara et al. | |
Набор данных самошума аэродинамического профиля | Серия аэродинамических и акустических испытаний двух- и трехмерных профилей лопастей. | Приведены данные о частоте, угле атаки и т. Д. | 1503 | Текст | Регресс | 2014 г. | Р. Лопес | |
Набор данных уплотнительных колец для космического челнока Challenger USA | Попытка предсказать проблемы с уплотнительным кольцом на основе прошлых данных Challenger. | Приведены некоторые характеристики каждого полета, такие как температура запуска. | 23 | Текст | Регресс | 1993 г. | D. Draper et al. | |
Набор данных Statlog (Shuttle) | Наборы данных космических челноков НАСА. | Дано девять функций. | 58 000 | Текст | Классификация | 2002 г. | НАСА |
Астрономия
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы на Венере - набор данных эксперимента JARtool | Изображения Венеры, полученные космическим кораблем Magellan. | Изображения маркируются людьми. | не дано | Изображений | Классификация | 1991 г. | М. Берл | |
Набор данных MAGIC Gamma Telescope | Монте-Карло генерировал события с высокоэнергетическими гамма-частицами. | Многочисленные особенности, извлеченные из моделирования. | 19 020 | Текст | Классификация | 2007 г. | Р. Бок | |
Набор данных о солнечных вспышках | Измерения количества определенных типов солнечных вспышек за 24-часовой период. | Приведены многие особенности солнечных вспышек. | 1389 | Текст | Регрессия, классификация | 1989 г. | Г. Брэдшоу |
Наука о планете Земля
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы мира | Данные об извержениях вулканов для всех известных вулканических событий на Земле. | Приведены такие детали, как регион, подобласть, тектоническая обстановка, доминирующий тип породы. | 1535 | Текст | Регрессия, классификация | 2013 | E. Venzke et al. | |
Набор данных сейсмических ударов | Сейсмические работы на угольной шахте. | Сейсмическая активность была классифицирована как опасная или нет. | 2584 | Текст | Классификация | 2013 | M. Sikora et al. | |
CAMELS -US | Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 671 | CSV, текст, шейп-файл | Регресс | 2017 г. | N. Addor et al. / А. Ньюман и др. | |
CAMELS-Чили | Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 516 | CSV, текст, шейп-файл | Регресс | 2018 г. | C. Alvarez-Garreton et al. | |
CAMELS-Бразилия | Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 897 | CSV, текст, шейп-файл | Регресс | 2020 г. | В. Шагас и др. | |
CAMELS-GB | Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 671 | CSV, текст, шейп-файл | Регресс | 2020 г. | G. Coxon et al. | |
CAMELS-Австралия | Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 222 | CSV, текст, шейп-файл | Регресс | 2021 г. | K. Fowler et al. | |
LamaH -CE | Набор данных гидрологии водосбора с гидрометеорологическими временными рядами и различными атрибутами | см. ссылку | 859 | CSV, текст, шейп-файл | Регресс | 2021 г. | C. Klingler et al. |
Другое физическое
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных прочности бетона на сжатие | Набор данных свойств бетона и прочности на сжатие. | Для каждого образца даны девять характеристик. | 1030 | Текст | Регресс | 2007 г. | I. Yeh | |
Набор данных испытаний на просадку бетона | Осадочная текучесть бетона дана с точки зрения свойств. | Характеристики данного бетона, такие как летучая зола, вода и т. Д. | 103 | Текст | Регресс | 2009 г. | I. Yeh | |
Набор данных Musk | С учетом характеристик предскажите, будет ли молекула мускусной или немускусной. | Для каждой молекулы дано 168 характеристик. | 6598 | Текст | Классификация | 1994 г. | Arris Pharmaceutical Corp. | |
Набор данных о неисправностях стальных пластин | Стальные пластины 7 разных типов. | Для каждого образца дано 27 характеристик. | 1941 г. | Текст | Классификация | 2010 г. | Исследовательский центр Семейона |
Биологические данные
Наборы данных из биологических систем.
Человек
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
База данных ЭЭГ | Исследование для изучения коррелятов ЭЭГ генетической предрасположенности к алкоголизму. | Измерения от 64 электродов, размещенных на коже головы, с частотой 256 Гц (период 3,9 мс) в течение 1 секунды. | 122 | Текст | Классификация | 1999 г. | Х. Беглейтер | |
Набор данных интерфейса P300 | Данные девяти субъектов собраны с использованием интерфейса мозг-компьютер на базе P300 для субъектов с ограниченными возможностями. | Разделитесь на четыре занятия по каждому предмету. Приведен код MATLAB . | 1,224 | Текст | Классификация | 2008 г. | У. Хоффман и др. | |
Набор данных о сердечных заболеваниях | Относится к пациентам с сердечными заболеваниями и без них. | Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями. | 303 | Текст | Классификация | 1988 г. | A. Janosi et al. | |
Набор данных по раку груди, штат Висконсин (диагностический) | Набор данных об особенностях образования груди. Диагноз ставится врачом. | Дано 10 характеристик для каждого образца. | 569 | Текст | Классификация | 1995 г. | W. Wolberg et al. | |
Национальное исследование употребления наркотиков и здоровья | Крупномасштабное исследование здоровья и употребления наркотиков в США. | Никто. | 55 268 | Текст | Классификация, регрессия | 2012 г. | Министерство здравоохранения и социальных служб США | |
Набор данных рака легких | Набор данных рака легких без определений атрибутов | 56 функций даны для каждого случая | 32 | Текст | Классификация | 1992 г. | Z. Hong et al. | |
Набор данных аритмии | Данные для группы пациентов, у некоторых из которых есть сердечная аритмия. | 276 функций для каждого экземпляра. | 452 | Текст | Классификация | 1998 г. | H. Altay et al. | |
Диабет 130 больниц в США за 1999–2008 гг. | Данные о повторной госпитализации за 9 лет в 130 больницах США для пациентов с диабетом. | Приведены многие особенности каждой реадмиссии. | 100 000 | Текст | Классификация, кластеризация | 2014 г. | J. Clore et al. | |
Набор данных о диабетической ретинопатии в Дебрецене | Характеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее. | Извлечены признаки и диагностированы состояния. | 1151 | Текст | Классификация | 2014 г. | B. Antal et al. | |
Набор данных Мессидора о диабетической ретинопатии | Методы оценки сегментации и техники индексации в области офтальмологии сетчатки (MESSIDOR) | Особенности степени ретинопатии и риска отека желтого пятна | 1200 | Изображения, текст | Классификация, сегментация | 2008 г. | Мессидор проект | |
Набор данных заболеваний печени | Данные для людей с заболеваниями печени. | Каждому пациенту дано семь биологических характеристик. | 345 | Текст | Классификация | 1990 г. | Bupa Medical Research Ltd. | |
Набор данных о заболеваниях щитовидной железы | 10 баз данных о пациентах с заболеваниями щитовидной железы. | Никто. | 7200 | Текст | Классификация | 1987 г. | Р. Куинлан | |
Набор данных мезотелиомы | Данные пациентов с мезотелиомой. | Приведено большое количество характеристик, включая воздействие асбеста. | 324 | Текст | Классификация | 2016 г. | A. Tanrikulu et al. | |
Набор данных оценки позы Паркинсона на основе зрения | Двухмерные оценки позы человека у пациентов с болезнью Паркинсона, выполняющих различные задачи. | Из траекторий убрано дрожание камеры. | 134 | Текст | Классификация, регрессия | 2017 г. | M. Li et al. | |
Набор данных сети метаболических реакций KEGG (неориентированный) | Сеть метаболических путей. Даны сеть реакций и сеть отношений . | Даны подробные характеристики для каждого сетевого узла и пути. | 65 554 | Текст | Классификация, кластеризация, регрессия | 2011 г. | M. Naeem et al. | |
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) | Изображения человеческой спермы от 235 пациентов с мужским бесплодием, помеченные как нормальные или аномальные акросомы сперматозоидов, голова, вакуоль и хвост. | Обрезано вокруг головки одного сперматозоида. Увеличение нормализованное. Созданы разделы для обучения, проверки и тестирования. | 1,540 | файлы .npy | Классификация | 2019 г. | С. Джавади и С.А. Миррошандель |
Животное
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Abalone | Физические измерения Abalone. Также указаны погодные условия и местоположение. | Никто. | 4177 | Текст | Регресс | 1995 г. | Лаборатории морских исследований - Тарона | |
Набор данных зоопарка | Искусственный набор данных, охватывающий 7 классов животных. | Животные делятся на 7 категорий, и для каждой даны характеристики. | 101 | Текст | Классификация | 1990 г. | Р. Форсайт | |
Набор данных Demospongiae | Данные о морских губках. | Губки 503 класса Demosponge описываются различными характеристиками. | 503 | Текст | Классификация | 2010 г. | Э. Арменгол и соавт. | |
Набор данных последовательностей генов сплайс-стыков | Последовательности генов сплайс-соединений (ДНК) приматов с теорией связанных несовершенных доменов. | Никто. | 3190 | Текст | Классификация | 1992 г. | G. Towell et al. | |
Набор данных по экспрессии белка у мышей | Уровни экспрессии 77 белков измерены в коре головного мозга мышей. | Никто. | 1080 | Текст | Классификация, кластеризация | 2015 г. | C. Higuera et al. |
Грибы
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных грибов UCI | Признаки и классификация грибов. | Приведены многие свойства каждого гриба. | 8124 | Текст | Классификация | 1987 г. | Дж. Шлиммер | |
Вторичный набор данных грибов | Признаки и классификация грибов | Смоделированные данные из более крупных и реалистичных первичных грибов. Полностью воспроизводимый. | 61069 | Текст | Классификация | 2020 г. | D. Wagner et al. |
Растение
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о лесных пожарах | Лесные пожары и их свойства. | Выделено 13 характеристик каждого пожара. | 517 | Текст | Регресс | 2008 г. | P. Cortez et al. | |
Набор данных Iris | Три типа ирисов описываются 4 различными признаками. | Никто. | 150 | Текст | Классификация | 1936 г. | Р. Фишер | |
Набор данных листьев растений | Шестнадцать образцов листа каждого из ста видов растений. | Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстуры. | 1600 | Текст | Классификация | 2012 г. | J. Cope et al. | |
Набор данных сои | База данных больных растений сои. | Дано 35 характеристик для каждого растения. Растения делятся на 19 категорий. | 307 | Текст | Классификация | 1988 г. | R. Michalski et al. | |
Набор данных семян | Измерения геометрических свойств зерен трех различных сортов пшеницы. | Никто. | 210 | Текст | Классификация, кластеризация | 2012 г. | Charytanowicz et al. | |
Набор данных Covertype | Данные для прогнозирования типа лесного покрова строго по картографическим переменным. | Приведены многие географические особенности. | 581 012 | Текст | Классификация | 1998 г. | J. Blackard et al. | |
Набор данных сети передачи сигналов абсцизовой кислоты | Данные для сети сигнализации завода. Цель состоит в том, чтобы определить набор правил, управляющих сетью. | Никто. | 300 | Текст | Причинное открытие | 2008 г. | J. Jenkens et al. | |
Набор данных Folio | По 20 фото листьев для каждого из 32 видов. | Никто. | 637 | Изображения, текст | Классификация, кластеризация | 2015 г. | T. Munisami et al. | |
Набор данных цветов Оксфорда | 17 категорий данных цветов. | Разделение поездов / тестов, изображения с метками, | 1360 | Изображения, текст | Классификация | 2006 г. | ME Nilsback et al. | |
Набор данных саженцев растений | 12 категорийный набор саженцев растений. | Помеченные изображения, сегментированные изображения, | 5544 | Изображений | Классификация, обнаружение | 2017 г. | Giselsson et al. | |
Набор данных Fruits 360 | База данных с изображениями 120 фруктов и овощей. | 100x100 пикселей, белый фон. | 82213 | Изображения (jpg) | Классификация | 2017–2019 гг. | Михай Олтеан, Хорея Мурешан |
Микроб
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Ecoli | Сайты локализации белков. | Приведены различные особенности участков локализации белков. | 336 | Текст | Классификация | 1996 г. | K. Nakai et al. | |
Набор данных MicroMass | Идентификация микроорганизмов по данным масс-спектрометрии. | Различные функции масс-спектрометра. | 931 | Текст | Классификация | 2013 | P. Mahe et al. | |
Набор данных дрожжей | Предсказания клеточных сайтов локализации белков. | Каждому экземпляру дано восемь функций. | 1484 | Текст | Классификация | 1996 г. | K. Nakai et al. |
Открытие наркотиков
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Tox21 | Прогнозирование результатов биологических анализов. | Приведены химические дескрипторы молекул. | 12707 | Текст | Классификация | 2016 г. | A. Mayr et al. |
Данные об аномалиях
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Тест Numenta Anomaly Benchmark (NAB) | Данные упорядочены, имеют однозначные метрики с отметками времени. Все файлы данных содержат аномалии, если не указано иное. | Никто | 50+ файлов | Значения, разделенные запятыми | Обнаружение аномалий | 2016 (постоянно обновляется) | Numenta | |
Сколтех Anomaly Benchmark (SKAB) | Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. | Есть две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменения (коллективные аномалии). | 30+ файлов (v0.9) | Значения, разделенные запятыми | Обнаружение аномалий | 2020 (постоянно обновляется) |
|
Юрий Д. Кацер, Вячеслав О. Козицын |
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование | Большинство файлов данных адаптировано из данных репозитория машинного обучения UCI, некоторые из них собраны из литературы. | обрабатываются отсутствующие значения, только числовые атрибуты, различный процент аномалий, метки | 1000+ файлов | ARFF | Обнаружение аномалий | 2016 г. (возможно, обновлен новыми наборами данных и / или результатами) |
|
Campos et al. |
Вопрос Ответные данные
Этот раздел включает наборы данных, которые имеют дело со структурированными данными.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных ответов на нейронные вопросы DBpedia (DBNQA) | Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронных сетей открытого домена через базу знаний DBpedia. | Этот набор данных содержит большую коллекцию шаблонов и экземпляров Open Neural SPARQL для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL. | 894 499 | Пары вопрос-запрос | Ответ на вопрос | 2018 г. | Хартманн, Сору, Маркс и др. | |
Вьетнамский набор данных с ответами на вопросы (UIT-ViQuAD) | Большой сборник вьетнамских вопросов для оценки моделей MRC. | Этот набор данных включает более 23 000 пар вопросов и ответов, созданных людьми на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. | 23 074 | Пары вопрос-ответ | Ответ на вопрос | 2020 г. | Nguyen et al. | |
Корпус вьетнамского языка с множественным выбором машинного чтения (ViMMRC) | Сборник вьетнамских вопросов с несколькими вариантами ответов для оценки моделей MRC. | Этот корпус включает 2783 вьетнамских вопроса с несколькими вариантами ответов. | 2783 | Пары вопрос-ответ | Ответы на вопросы / Машинное чтение | 2020 г. | Nguyen et al. |
Многовариантные данные
Наборы данных, состоящие из строк наблюдений и столбцов атрибутов, характеризующих эти наблюдения. Обычно используется для регрессионного анализа или классификации, но могут использоваться и другие типы алгоритмов. В этот раздел входят наборы данных, не подходящие для вышеперечисленных категорий.
Финансовый
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Индекс Доу-Джонса | Еженедельные данные по запасам за первый и второй кварталы 2011 года. | Включены расчетные значения, такие как процентное изменение и задержка. | 750 | Значения, разделенные запятыми | Классификация, регрессия, Временные ряды | 2014 г. | M. Brown et al. | |
Statlog (одобрение кредита в Австралии) | Заявки на получение кредитной карты приняты или отклонены, а также атрибуты заявки. | Имена атрибутов удаляются, как и идентифицирующая информация. Факторы были переименованы. | 690 | Значения, разделенные запятыми | Классификация | 1987 г. | Р. Куинлан | |
данные аукциона eBay | Данные об аукционах с различных объектов eBay.com на аукционах разной длины | Содержит все ставки, bidderID, время ставок и цены открытия. | ~ 550 | Текст | Регрессия, классификация | 2012 г. | G. Shmueli et al. | |
Statlog (кредитные данные Германии) | Классификация бинарных кредитов на «хорошие» и «плохие» с множеством функций. | Приведены различные финансовые характеристики каждого человека. | 690 | Текст | Классификация | 1994 г. | Х. Хофманн | |
Набор данных банковского маркетинга | Данные крупной маркетинговой кампании, проведенной крупным банком. | Приведены многие атрибуты клиентов, с которыми вы связались. Если клиент подписался на банк, тоже дается. | 45 211 | Текст | Классификация | 2012 г. | S. Moro et al. | |
Набор данных Стамбульской фондовой биржи | Несколько фондовых индексов отслеживались почти два года. | Никто. | 536 | Текст | Классификация, регрессия | 2013 | О. Акбилджич | |
Неисполнение клиентов кредитной карты | Данные о кредитных дефолтах тайваньских кредиторов. | Приведены различные особенности каждой учетной записи. | 30 000 | Текст | Классификация | 2016 г. | I. Yeh |
Погода
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Cloud DataSet | Данные о 1024 различных облаках. | Особенности изображения извлечены. | 1024 | Текст | Классификация, кластеризация | 1989 г. | П. Коллард | |
Набор данных Эль-Ниньо | Океанографические и приземные метеорологические данные сняты с серии буев, расположенных по всей экваториальной части Тихого океана. | У каждого буя измеряется 12 метеорологических атрибутов. | 178080 | Текст | Регресс | 1999 г. | Тихоокеанская лаборатория морской среды | |
Набор данных сети наблюдения за парниковыми газами | Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. | Никто. | 2921 | Текст | Регресс | 2015 г. | Д. Лукас | |
Атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-Лоа | Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. | Никто. | 44 года | Текст | Регресс | 2001 г. | Обсерватория Мауна-Лоа | |
Набор данных ионосферы | Радиолокационные данные из ионосферы. Задача состоит в том, чтобы разделить радарные сигналы на хорошие и плохие. | Приведено множество функций радара. | 351 | Текст | Классификация | 1989 г. | Университет Джона Хопкинса | |
Набор данных определения уровня озона | Два набора данных об уровне приземного озона. | Приведены многие характеристики, включая погодные условия на момент измерения. | 2536 | Текст | Классификация | 2008 г. | K. Zhang et al. |
Перепись
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для взрослых | Данные переписи 1994 года, содержащие демографические характеристики взрослых и их доходы. | Очищено и анонимно. | 48 842 | Значения, разделенные запятыми | Классификация | 1996 г. | Бюро переписи населения США | |
Доход от переписи (KDD) | Взвешенные данные переписи из текущих обследований населения 1994 и 1995 годов . | Разделить на тренировочную и тестовую наборы. | 299 285 | Значения, разделенные запятыми | Классификация | 2000 г. | Бюро переписи населения США | |
База данных переписи IPUMS | Данные переписи в районах Лос-Анджелеса и Лонг-Бич. | Никто | 256 932 | Текст | Классификация, регрессия | 1999 г. | IPUMS | |
Данные переписи населения США 1990 г. | Частичные данные переписи населения США 1990 года. | Результаты рандомизированы, а полезные атрибуты выбраны. | 2 458 285 | Текст | Классификация, регрессия | 1990 г. | Бюро переписи населения США |
Транзит
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для обмена велосипедами | Почасовой и посуточный счет проката велосипедов в большом городе. | Приведены многие характеристики, включая погоду, продолжительность поездки и т. Д. | 17 389 | Текст | Регресс | 2013 | Х. Фанаи-Т | |
Данные о поездках на такси Нью-Йорка | Данные о поездках желтых и зеленых такси в Нью-Йорке. | Предоставляет места получения и высадки, тарифы и другие детали поездок. | 6 лет | Текст | Классификация, кластеризация | 2015 г. | Комиссия по такси и лимузину Нью-Йорка | |
Траектория службы такси ECML PKDD | Траектории всех такси в большом городе. | Приведено множество функций, включая точки начала и остановки. | 1 710 671 | Текст | Кластеризация, причинно-следственные связи | 2015 г. | M. Ferreira et al. | |
МЕТР-ЛА | Скорость от петлевых детекторов на шоссе округа Лос-Анджелес. | Средняя скорость с временными шагами 5 минут. | 7094304 из 207 датчиков и 34272 временных шага | Значения, разделенные запятыми | Регрессия, прогнозирование | 2014 г. | Джагадиш и др. | |
PeMS | Скорость, поток, посещаемость и другие показатели от петлевых детекторов и других датчиков на автостраде штата Калифорния, США. | Метрика обычно агрегируется по среднему значению с временными шагами по 5 минут. | 39000 индивидуальных детекторов, каждый из которых содержит временные ряды за годы | Значения, разделенные запятыми | Регрессия, прогнозирование, прогнозирование текущей погоды, интерполяция | (обновлено в реальном времени) | Департамент транспорта Калифорнии |
Интернет
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Веб-страницы из Common Crawl 2012 | Большая коллекция веб-страниц и то, как они связаны гиперссылками | Никто. | 3,5 млрд | Текст | кластеризация, классификация | 2013 | В. Гранвиль | |
Набор данных интернет-рекламы | Набор данных для прогнозирования, является ли данное изображение рекламой. | Функции кодируют геометрию объявлений и фраз, встречающихся в URL. | 3279 | Текст | Классификация | 1998 г. | Н. Кушмерик | |
Набор данных об использовании Интернета | Общая демография интернет-пользователей. | Никто. | 10 104 | Текст | Классификация, кластеризация | 1999 г. | Д. Кук | |
Набор данных URL | Данные URL за 120 дней с большой конференции. | Приведены многие характеристики каждого URL-адреса. | 2 396 130 | Текст | Классификация | 2009 г. | Дж. Ма | |
Набор данных фишинговых сайтов | Набор данных фишинговых сайтов. | Приведены многие особенности каждого сайта. | 2456 | Текст | Классификация | 2015 г. | Р. Мустафа и др. | |
Набор данных для розничной торговли в Интернете | Онлайн-транзакции для британского интернет-магазина. | Приведена подробная информация о каждой транзакции. | 541 909 | Текст | Классификация, кластеризация | 2015 г. | Д. Чен | |
Дамп простой темы Freebase | Freebase - это онлайн-попытка структурировать все человеческие знания. | Темы из Freebase были извлечены. | большой | Текст | Классификация, кластеризация | 2011 г. | Freebase | |
Набор данных Farm Ads | Текст фермерских объявлений с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента. | Рассчитаны разреженные векторы SVMlight текстовых слов в объявлениях. | 4143 | Текст | Классификация | 2011 г. | C. Masterharm et al. |
Игры
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных покерных рук | 5 карточных рук из стандартной колоды из 52 карт. | Приведены атрибуты каждой руки, в том числе руки в покере, образованные содержащимися в ней картами. | 1 025 010 | Текст | Регрессия, классификация | 2007 г. | Р. Каттраль | |
Набор данных Connect-4 | Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один из игроков еще не выиграл и в которых следующий ход не является принудительным. | Никто. | 67 557 | Текст | Классификация | 1995 г. | Дж. Тромп | |
Набор данных шахмат (король-ладья против короля) | База данных эндшпиля для белого короля и ладьи против черного короля. | Никто. | 28 056 | Текст | Классификация | 1994 г. | M. Bain et al. | |
Набор данных шахмат (король-ладья против королевской пешки) | Король + ладья против короля + пешка на a7. | Никто. | 3196 | Текст | Классификация | 1989 г. | Р. Хольте | |
Набор данных эндшпиля крестики-нолики | Бинарная классификация условий выигрыша в крестики-нолики. | Никто. | 958 | Текст | Классификация | 1991 г. | Д. Ага |
Другое многомерное
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о жилье | Средняя стоимость дома в Бостоне с соответствующими атрибутами дома и района. | Никто. | 506 | Текст | Регресс | 1993 г. | D. Harrison et al. | |
Словари Гетти | структурированная терминология для искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. | Никто. | большой | Текст | Классификация | 2015 г. | Центр Гетти | |
Yahoo! Первая страница модуля "Сегодня" Пользователь нажимает журнал | Журнал кликов пользователя для новостных статей, отображаемых на вкладке "Интересные" модуля "Сегодня" на Yahoo! Титульная страница. | Сопряженный анализ с билинейной моделью. | 45 811 883 посещений пользователей | Текст | Регрессия, кластеризация | 2009 г. | Чу и др. | |
Британский центр океанографических данных | Биологические, химические, физические и геофизические данные океанов. Отслежено 22K переменных. | Различный. | 22K переменных, много экземпляров | Текст | Регрессия, кластеризация | 2015 г. | Британский центр океанографических данных | |
Набор данных для голосования в Конгрессе | Данные о голосовании всех представителей США по 16 вопросам. | Помимо необработанных данных голосования, предоставляются различные другие функции. | 435 | Текст | Классификация | 1987 г. | Дж. Шлиммер | |
Набор данных рекомендаций Entree Chicago | Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. | Подробная информация об использовании приложения каждым пользователем записывается подробно. | 50 672 | Текст | Регресс, рекомендация | 2000 г. | Р. Берк | |
Индекс страховых компаний (COIL 2000) | Информация о клиентах страховой компании. | Многие особенности каждого клиента и услуг, которые они используют. | 9 000 | Текст | Регрессия, классификация | 2000 г. | П. ван дер Путтен | |
Детский набор данных | Данные поступающих в детские сады. | Включены данные о семье заявителя и различных других факторах. | 12 960 | Текст | Классификация | 1997 г. | V. Rajkovic et al. | |
Набор данных университета | Данные, описывающие большое количество университетов. | Никто. | 285 | Текст | Кластеризация, классификация | 1988 г. | S. Sounders et al. | |
Набор данных центра службы переливания крови | Данные сервисного центра переливания крови. Предоставляет данные о доходности доноров, частоте и т. Д. | Никто. | 748 | Текст | Классификация | 2008 г. | I. Yeh | |
Запись набора данных шаблонов сравнения связей | Большой набор данных записей. Задача - связать соответствующие записи вместе. | Процедура блокировки применяется для выбора только определенных пар записей. | 5,749,132 | Текст | Классификация | 2011 г. | Университет Майнца | |
Набор данных Nomao | Nomao собирает данные о местах из множества различных источников. Задача - обнаружить предметы, описывающие одно и то же место. | Дубликаты помечены. | 34 465 | Текст | Классификация | 2012 г. | Nomao Labs | |
Набор данных фильмов | Данные для 10 000 фильмов. | Дано несколько характеристик для каждого фильма. | 10 000 | Текст | Кластеризация, классификация | 1999 г. | Г. Видерхольд | |
Набор данных аналитики обучения открытого университета | Информация об учениках и их взаимодействии с виртуальной учебной средой. | Никто. | ~ 30 000 | Текст | Классификация, кластеризация, регрессия | 2015 г. | J. Kuzilek et al. | |
Записи с мобильных телефонов | Телекоммуникационная деятельность и взаимодействие | Агрегация по ячейкам географической сетки и каждые 15 минут. | большой | Текст | Классификация, кластеризация, регрессия | 2015 г. | G. Barlacchi et al. |
Курируемые репозитории наборов данных
Поскольку наборы данных имеют множество форматов и иногда могут быть трудными в использовании, была проделана значительная работа по разработке и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.
- OpenML: веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
- PMLB: большой репозиторий контрольных наборов данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, которые доступны через Python API.
- Metatext NLP: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий почти 1000 эталонных наборов данных и подсчет. Предоставляет множество задач, от классификации до контроля качества, и различные языки от английского, португальского до арабского.
- Appen : готовые наборы данных и наборы данных с открытым исходным кодом, размещенные и поддерживаемые компанией. Эти биологические, графические, физические, вопросы-ответы, сигнальные, звуковые, текстовые и видео ресурсы насчитывают более 250 и могут применяться в более чем 25 различных сценариях использования.
Смотрите также
- Сравнение программного обеспечения для глубокого обучения
- Список инструментов ручного аннотирования изображений
- Список биологических баз данных