Множественное обучение - Multiple instance learning

В машинном обучении , множественный экземпляр обучение (MIL) представляет собой тип контролируемого обучения . Вместо получения набора экземпляров, которые помечены индивидуально, учащийся получает набор помеченных пакетов , каждый из которых содержит множество экземпляров. В простом случае двоичной классификации с несколькими экземплярами мешок может быть помечен как отрицательный, если все экземпляры в нем отрицательны. С другой стороны, мешок считается положительным, если в нем есть хотя бы один положительный экземпляр. Из набора помеченных пакетов ученик пытается либо (i) создать концепцию, которая будет правильно маркировать отдельные экземпляры, либо (ii) научиться маркировать пакеты, не вводя концепцию.

Бабенко (2008) приводит простой пример МИГ. Представьте себе несколько человек, и у каждого из них есть связка ключей, содержащая несколько ключей. Некоторые из этих людей могут войти в определенную комнату, а некоторые - нет. Затем задача состоит в том, чтобы предсказать, сможет ли определенный ключ или определенная цепочка для ключей попасть в эту комнату. Чтобы решить эту проблему, нам нужно найти точный ключ, общий для всех «положительных» цепочек ключей. Если мы сможем правильно идентифицировать этот ключ, мы также сможем правильно классифицировать всю цепочку ключей - положительную, если она содержит требуемый ключ, или отрицательную, если нет.

Машинное обучение

В зависимости от типа и вариации данных обучения машинное обучение можно условно разделить на три структуры: обучение с учителем, обучение без учителя и обучение с подкреплением. Многократное обучение (MIL) подпадает под структуру контролируемого обучения, где каждый обучающий экземпляр имеет метку, дискретную или действительную. MIL решает проблемы с неполным знанием этикеток в обучающих наборах. Точнее, при обучении с несколькими экземплярами обучающий набор состоит из помеченных «пакетов», каждый из которых представляет собой набор немаркированных экземпляров. Сумка помечается положительно, если хотя бы один экземпляр в ней положительный, и отрицательно маркируется, если все экземпляры в ней отрицательны. Цель MIL - предсказывать этикетки новых невидимых пакетов.

История

Киллер и др. В своей работе в начале 1990-х были первыми, кто исследовал область МИГ. Сам термин «многоэкземплярное обучение» был введен в середине 1990-х годов Диттерихом и др. пока они исследовали проблему предсказания активности наркотиков. Они попытались создать обучающую систему, которая могла бы предсказать, пригодна ли новая молекула для производства какого-либо лекарства или нет, путем анализа набора известных молекул. Молекулы могут иметь множество альтернативных низкоэнергетических состояний, но только одно или несколько из них пригодны для производства лекарства. Проблема возникла из-за того, что ученые могли только определить, является ли молекула подходящей или нет, но они не могли точно сказать, какая из ее низкоэнергетических форм ответственна за это.

Один из предложенных способов решения этой проблемы состоял в том, чтобы использовать контролируемое обучение и рассматривать все низкоэнергетические формы квалифицированной молекулы как положительные обучающие примеры, в то время как все низкоэнергетические формы неквалифицированных молекул как отрицательные. Dietterich et al. показали, что такой метод будет иметь высокий уровень ложноположительного шума от всех низкоэнергетических форм, которые ошибочно помечены как положительные, и поэтому бесполезен. Их подход заключался в том, чтобы рассматривать каждую молекулу как помеченный мешок, а все альтернативные низкоэнергетические формы этой молекулы - как экземпляры в мешке без индивидуальных меток. Таким образом, формулируется обучение с использованием нескольких экземпляров.

Решение проблемы многократного обучения, которую Dietterich et al. Предлагается алгоритм прямоугольника, параллельного оси (APR). Он пытается найти подходящие параллельные оси прямоугольники, построенные путем соединения элементов. Они протестировали алгоритм на наборе данных Маска, который представляет собой конкретные тестовые данные для прогнозирования активности наркотиков и наиболее часто используемый эталон в многоэкземплярном обучении. Алгоритм APR показал лучший результат, но APR был разработан с учетом данных Маска.

Проблема многокомпонентного обучения не уникальна для поиска лекарств. В 1998 году Марон и Ратан нашли другое применение многократного обучения для классификации сцен в машинном зрении и разработали структуру Diverse Density. Для данного изображения в качестве экземпляра берется одно или несколько субизображений фиксированного размера, а набор экземпляров - все изображение. Изображение считается позитивным, если оно содержит целевую сцену - например, водопад, - в противном случае - негативным. Многократное обучение может использоваться для изучения свойств фрагментов изображений, которые характеризуют целевую сцену. С этого момента эти структуры стали применяться к широкому спектру приложений, от изучения концепции изображений и категоризации текста до прогнозирования фондового рынка.

Примеры

Возьмем, к примеру, классификацию изображений. Amores (2013) Учитывая изображение, мы хотим узнать его целевой класс на основе его визуального содержания. Например, целевым классом может быть «пляж», где изображение содержит и «песок», и «воду». В терминах MIL изображение описывается как мешок , где каждый является вектором признаков (называемым экземпляром ), извлеченным из соответствующей -й области изображения, и является полными областями (экземплярами), разделяющими изображение. Мешок помечается как положительный («пляж»), если он содержит как экземпляры «песчаной» области, так и экземпляры «водной» области.

Примеры применения MIL:

Многие исследователи работали над адаптацией классических методов классификации, таких как вспомогательные векторные машины или ускорение , для работы в контексте обучения с несколькими экземплярами.

Определения

Если пространство экземпляров равно , то набор сумок - это набор функций , который изоморфен набору мульти-подмножеств . Для каждого пакета и каждый экземпляр , рассматриваются как число раз происходит . Позвольте быть пространством меток, тогда «концепция нескольких экземпляров» будет картой . Цель MIL - изучить такую ​​концепцию. Остальная часть статьи будет посвящена двоичной классификации , где .

Предположения

Большая часть работ по многократному обучению, включая Dietterich et al. (1997) и ранние статьи Maron & Lozano-Pérez (1997) делают предположение относительно взаимосвязи между экземплярами в сумке и меткой класса сумки. Из-за своей важности это предположение часто называют стандартным предположением MI.

Стандартное предположение

Стандартное предположение предполагает, что каждый экземпляр имеет ассоциированную метку, скрытую от учащегося. Эта пара называется «концепцией уровня экземпляра». Пакет теперь рассматривается как мультимножество концепций уровня экземпляра и помечается как положительный, если хотя бы один из его экземпляров имеет положительную метку, и отрицательный, если все его экземпляры имеют отрицательные метки. Формально пусть будет сумка. Ярлык есть тогда . Стандартное предположение MI является асимметричным, что означает, что если поменять местами положительные и отрицательные метки, предположение будет иметь другое значение. Из-за этого, когда мы используем это предположение, нам нужно четко понимать, какой ярлык должен быть положительным.

Стандартное предположение можно рассматривать как слишком строгое, и поэтому в последние годы исследователи попытались ослабить эту позицию, что привело к другим, более свободным предположениям. Причиной этого является вера в то, что стандартное предположение MI подходит для набора данных Маска, но, поскольку MIL может быть применен к множеству других проблем, некоторые другие предположения, вероятно, могут быть более подходящими. Руководствуясь этой идеей, Вайдман сформулировал иерархию обобщенных предположений на основе экземпляров для MIL. Он состоит из стандартного допущения MI и трех типов обобщенных допущений MI, каждое из которых более общее, чем предыдущее, стандартное допущение на основе присутствия на основе пороговых значений, основанное на подсчете, при этом предположение на основе подсчета является наиболее общим, а стандартное предположение - наименее Генеральная. Можно было бы ожидать, что алгоритм, который хорошо работает при одном из этих предположений, будет работать по крайней мере так же хорошо при менее общих предположениях.

Допущения на основе присутствия, пороговых значений и подсчета

Предположение, основанное на присутствии, является обобщением стандартного предположения, в котором пакет должен содержать один или несколько экземпляров, которые принадлежат набору требуемых концепций уровня экземпляра, чтобы его можно было пометить как положительное. Формально, пусть будет набором требуемых концепций уровня экземпляра, а пусть обозначает, сколько раз концепция уровня экземпляра встречается в сумке . Тогда для всех . Обратите внимание, что, принимая только одну концепцию уровня экземпляра, предположение, основанное на присутствии, сводится к стандартному предположению.

Дальнейшее обобщение связано с предположением, основанным на пороге, где каждая требуемая концепция уровня экземпляра должна встречаться не только один раз в сумке, но некоторое минимальное (пороговое) количество раз, чтобы сумка была помечена как положительная. В приведенных выше обозначениях с каждой требуемой концепцией уровня экземпляра связан порог . Для сумки , для всех .

Предположение, основанное на подсчете, является окончательным обобщением, которое устанавливает как нижнюю, так и верхнюю границы количества раз, когда требуемая концепция может встречаться в положительно помеченном пакете. Каждая требуемая концепция уровня экземпляра имеет нижний порог и верхний порог с . На сумке написано « для всех» .

Предположение GMIL

Скотт, Чжан и Браун (2005) описывают еще одно обобщение стандартной модели, которое они называют «обобщенным многократным обучением» (GMIL). Предположение GMIL определяет набор необходимых экземпляров . Пакет считается положительным, если он содержит экземпляры, которые достаточно близки по крайней мере к требуемым экземплярам . Только при этом условии предположение GMIL эквивалентно предположению, основанному на присутствии. Однако Скотт и др. опишите дальнейшее обобщение, в котором есть набор точек притяжения и набор точек отталкивания . Мешок считается положительным, если и только если он содержит экземпляры, которые достаточно близки по крайней мере к точкам притяжения и достаточно близки не более чем к точкам отталкивания. Это условие является строго более общим, чем условие, основанное на присутствии, хотя и не попадает в указанную выше иерархию.

Коллективное предположение

В отличие от предыдущих предположений, в которых пакеты считались фиксированными, коллективное предположение рассматривает пакет как распределение по экземплярам , а метки - как распределение по экземплярам. Таким образом, цель алгоритма, работающего в рамках коллективного предположения, состоит в том, чтобы смоделировать распределение .

Поскольку обычно считается фиксированным, но неизвестным, алгоритмы вместо этого сосредотачиваются на вычислении эмпирической версии:, где - количество экземпляров в сумке . Поскольку также обычно считается фиксированным, но неизвестным, большинство методов, основанных на коллективных предположениях, сосредоточены на изучении этого распределения, как и в версии для одного экземпляра.

В то время как коллективное предположение оценивает каждый экземпляр с одинаковой важностью, Фулдс расширил коллективное предположение, включив в него веса экземпляров. Взвешенное коллективное предположение состоит в том , что , где - весовая функция по экземплярам и .

Алгоритмы

MIL Framework

Существует два основных вида алгоритмов для обучения множеству экземпляров: алгоритмы на основе экземпляров и на основе метаданных или алгоритмы на основе встраивания. Термин «на основе экземпляров» означает, что алгоритм пытается найти набор репрезентативных экземпляров на основе предположения MI и классифицировать будущие пакеты по этим представителям. Напротив, алгоритмы на основе метаданных не делают никаких предположений о взаимосвязи между экземплярами и этикетками пакетов, а вместо этого пытаются извлечь независимую от экземпляров информацию (или метаданные) о мешках, чтобы изучить концепцию. Обзор некоторых современных алгоритмов MI см. В Foulds and Frank.

Алгоритмы на основе экземпляров

Самые ранние предложенные алгоритмы MI представляли собой набор алгоритмов «повторяющейся дискриминации», разработанные Диттерихом и др., И Diverse Density, разработанные Мароном и Лозано-Пересом. Оба эти алгоритма работали при стандартном допущении.

Итеративная дискриминация

В целом все алгоритмы повторной дискриминации состоят из двух фаз. Первый этап - вырастить прямоугольник, параллельный оси (APR), который содержит по крайней мере один экземпляр из каждого положительного мешка и ни одного экземпляра из каких-либо отрицательных мешков. Это делается итеративно: начиная со случайного экземпляра в положительном пакете, APR расширяется до наименьшего APR, охватывающего любой экземпляр в новом положительном пакете . Этот процесс повторяется до тех пор, пока APR не покроет хотя бы один экземпляр из каждого положительного пакета. Затем каждому экземпляру, содержащемуся в APR, присваивается «релевантность», соответствующая тому, сколько отрицательных точек он исключает из APR при удалении. Затем алгоритм выбирает репрезентативные экземпляры кандидатов в порядке убывания релевантности, пока ни один экземпляр, содержащийся в отрицательном пакете, также не будет содержаться в APR. Алгоритм повторяет эти этапы роста и выбора представителя до сходимости, где размер APR на каждой итерации считается равным только представителям-кандидатам.

Считается, что после первой фазы годовая процентная ставка содержит только репрезентативные атрибуты. Вторая фаза расширяет этот жесткий APR следующим образом: гауссово распределение центрируется по каждому атрибуту, и рисуется более свободный APR, так что положительные экземпляры будут выходить за пределы жесткого APR с фиксированной вероятностью. Хотя итерационные методы распознавания хорошо работают со стандартным предположением, они плохо переносятся на другие предположения MI.

Различная плотность

В своей простейшей форме Diverse Density (DD) предполагает единый репрезентативный пример в качестве концепции. Этот репрезентативный экземпляр должен быть «плотным» в том смысле, что он намного ближе к экземплярам из положительных сумок, чем из отрицательных сумок, а также «разнообразным» в том смысле, что он близок по крайней мере к одному экземпляру из каждого положительного пакета.

Пусть будет набором пакетов с положительной маркировкой и пусть будет набором пакетов с отрицательной маркировкой, тогда наилучшим кандидатом для репрезентативного экземпляра будет , где различная плотность при предположении, что пакеты распределяются независимо с данной концепцией . Позволить обозначает экземпляр -м мешка я, шумные или модель дает:

берутся масштабированное расстояние , где вектор масштабирования. Таким образом, если у каждого положительного мешка есть экземпляр, близкий к , тогда будет высокий для каждого , но если у любого отрицательного мешка есть экземпляр, близкий , будет низким. Следовательно, является высоким только в том случае, если каждый положительный мешок имеет экземпляр, близкий к, и ни один отрицательный мешок не имеет экземпляра, близкого к . Концепция кандидата может быть получена с помощью градиентных методов. Затем можно провести классификацию новых сумок, оценив их близость к . Хотя Diversity Density была первоначально предложена Maron et al. в 1998 году более поздние алгоритмы MIL используют структуру DD, например EM-DD в 2001 году и DD-SVM в 2004 году, а также MILES в 2006 году.

Ряд алгоритмов с одним экземпляром также был адаптирован к контексту с несколькими экземплярами в соответствии со стандартным предположением, включая

После 2000 года произошел отход от стандартного допущения и разработка алгоритмов, предназначенных для решения более общих допущений, перечисленных выше.

  • Вайдманн предлагает алгоритм двухуровневой классификации (TLC) для изучения концепций в предположении, основанном на подсчете. На первом этапе делается попытка изучить концепции уровня экземпляра путем построения дерева решений для каждого экземпляра в каждом пакете обучающего набора. Затем каждый пакет сопоставляется с вектором признаков на основе подсчетов в дереве решений. На втором этапе алгоритм одного экземпляра запускается на векторах признаков, чтобы изучить концепцию.
  • Скотт и др. предложил алгоритм GMIL-1 для изучения концепций в предположении GMIL в 2005 году. GMIL-1 перечисляет все параллельные оси прямоугольники в исходном пространстве экземпляров и определяет новое пространство признаков булевых векторов. Сумка сопоставляется с вектором в этом новом пространстве функций, где, если годовая процентная ставка покрывает , и в противном случае. Затем можно применить алгоритм с одним экземпляром, чтобы изучить концепцию в этом новом пространстве функций.

Из-за высокой размерности нового пространства функций и стоимости явного перечисления всех APR исходного пространства экземпляров GMIL-1 неэффективен как с точки зрения вычислений, так и с точки зрения памяти. GMIL-2 был разработан как доработка GMIL-1 с целью повышения эффективности. GMIL-2 предварительно обрабатывает экземпляры, чтобы найти набор кандидатов-репрезентативных экземпляров. GMIL-2 затем отображает каждый пакет в логический вектор, как в GMIL-1, но учитывает только APR, соответствующие уникальным подмножествам репрезентативных экземпляров кандидатов. Это значительно снижает требования к памяти и вычислительным ресурсам.

  • Сюй (2003) предложил несколько алгоритмов, основанных на логистической регрессии и методах повышения, для изучения концепций в рамках коллективного допущения.

Алгоритмы на основе метаданных (или на основе встраивания)

Сопоставляя каждую сумку с вектором признаков метаданных, алгоритмы на основе метаданных позволяют гибко использовать произвольный алгоритм с одним экземпляром для выполнения фактической задачи классификации. Будущие пакеты просто отображаются (встраиваются) в пространство функций метаданных и маркируются выбранным классификатором. Следовательно, большая часть внимания для алгоритмов на основе метаданных делается на том, какие функции или какой тип встраивания приводят к эффективной классификации. Обратите внимание, что некоторые из ранее упомянутых алгоритмов, такие как TLC и GMIL, можно считать основанными на метаданных.

  • Один из подходов состоит в том, чтобы позволить метаданным для каждого пакета быть некоторым набором статистики по экземплярам в сумке. Алгоритм SimpleMI использует этот подход, при котором метаданные пакета принимаются как простая сводная статистика, такая как среднее или минимальное и максимальное значение каждой переменной экземпляра, взятой для всех экземпляров в сумке. Существуют и другие алгоритмы, использующие более сложную статистику, но SimpleMI оказался на удивление конкурентоспособным для ряда наборов данных, несмотря на очевидную несложность.
  • Другой распространенный подход - рассматривать геометрию самих пакетов как метаданные. Это подход, используемый алгоритмами MIGraph и miGraph, которые представляют каждую сумку в виде графа, узлы которого являются экземплярами в сумке. Между двумя узлами существует граница, если расстояние (до некоторой метрики в пространстве экземпляров) между соответствующими экземплярами меньше некоторого порога. Классификация выполняется с помощью SVM с ядром графа (MIGraph и miGraph различаются только выбором ядра). Аналогичные подходы используются MILES и MInD. MILES представляет сумку по ее сходству с экземплярами в обучающем наборе, а MInD представляет сумку по расстоянию до других сумок.
  • Модификация k-ближайших соседей (kNN) также может считаться основанным на метаданных алгоритмом с геометрическими метаданными, хотя отображение между сумками и функциями метаданных не является явным. Однако необходимо указать метрику, используемую для расчета расстояния между мешками. Ван и Цукер (2000) предлагают (соответственно максимальную и минимальную) метрики Хаусдорфа для сумок и :

Они определяют два варианта kNN, байесовский-kNN и citation-kNN, как адаптации традиционной проблемы ближайшего соседа к множеству экземпляров.

Обобщения

До сих пор в этой статье множественное обучение рассматривалось исключительно в контексте бинарных классификаторов. Однако обобщения двоичных классификаторов с одним экземпляром могут быть перенесены на случай с несколькими экземплярами.

  • Одним из таких обобщений является проблема нескольких экземпляров нескольких меток (MIML), где каждый мешок теперь может быть связан с любым подмножеством пространства меток. Формально, если это пространство функций и пространство меток, концепция MIML - это карта . Чжоу и Чжан (2006) предлагают решение проблемы MIML путем сведения либо к проблеме нескольких экземпляров, либо к проблеме нескольких понятий.
  • Еще одно очевидное обобщение - это множественная регрессия. Здесь каждый мешок связан с одним действительным числом, как в стандартной регрессии. Подобно стандартному предположению, регрессия MI предполагает, что в каждом мешке есть один экземпляр, называемый «первичным экземпляром», который определяет этикетку для мешка (с точностью до шума). Идеальной целью регрессии MI было бы найти гиперплоскость, которая минимизирует потерю квадратов простых экземпляров в каждом мешке, но простые экземпляры скрыты. Фактически, Рэй и Пейдж (2001) показывают, что найти наиболее подходящую гиперплоскость, которая подходит для одного экземпляра из каждого мешка, невозможно, если в каждом мешке меньше трех экземпляров, и вместо этого разрабатывают алгоритм аппроксимации. Многие из алгоритмов, разработанных для классификации MI, также могут обеспечить хорошее приближение к проблеме регрессии MI.

Смотрите также

Рекомендации

дальнейшее чтение

Недавние обзоры литературы по МИГ включают: