Многозадачное обучение - Multi-task learning

Многозадачное обучение (MTL) - это подраздел машинного обучения, в котором несколько учебных задач решаются одновременно, при этом используются общие черты и различия между задачами. Это может привести к повышению эффективности обучения и точности прогнозов для моделей для конкретных задач по сравнению с обучением моделей по отдельности. Ранние версии MTL назывались «подсказками».

В широко цитируемой статье 1997 года Рич Каруана дал следующую характеристику:

Многозадачное обучение - это подход к индуктивной передаче, который улучшает обобщение за счет использования информации о предметной области, содержащейся в обучающих сигналах связанных задач, в качестве индуктивного смещения . Он делает это путем обучения задачам параллельно с использованием общего представления ; то, что изучено для каждой задачи, может помочь лучше усвоить другие задачи.

В контексте классификации MTL направлен на повышение производительности нескольких задач классификации путем их совместного изучения. Одним из примеров является спам-фильтр, который можно рассматривать как отдельные, но связанные задачи классификации для разных пользователей. Чтобы сделать это более конкретным, учтите, что разные люди имеют разное распределение функций, которые отличают спам-сообщения от законных, например, говорящий по-английски может обнаружить, что все электронные письма на русском языке являются спамом, а не для русскоязычных. Тем не менее, существует определенная общность в этой задаче классификации для пользователей, например, одной общей чертой может быть текст, связанный с денежным переводом. Совместное решение проблемы классификации спама каждого пользователя с помощью MTL может позволить решениям информировать друг друга и повысить производительность. Другие примеры настроек для MTL включают MultiClass классификации и классификацию несколько этикеток .

Многозадачное обучение работает, потому что регуляризация, вызванная требованием того, чтобы алгоритм хорошо работал над связанной задачей, может превзойти регуляризацию, которая предотвращает переоснащение , равномерно наказывая всю сложность. Одна из ситуаций, в которой MTL может быть особенно полезной, - это если задачи имеют существенные общие черты и, как правило, немного занижены. Однако, как обсуждается ниже, MTL также оказался полезным для изучения несвязанных задач.

Методы

Группировка задач и перекрытие

В рамках парадигмы MTL информация может совместно использоваться для некоторых или всех задач. В зависимости от структуры взаимосвязи задач может потребоваться выборочный обмен информацией по задачам. Например, задачи могут быть сгруппированы, существовать в иерархии или быть связаны в соответствии с некоторой общей метрикой. Предположим, что более формально описано ниже, что вектор параметров, моделирующий каждую задачу, представляет собой линейную комбинацию некоторой базовой основы. Сходство по этой основе может указывать на взаимосвязь задач. Например, при разреженности перекрытие ненулевых коэффициентов между задачами указывает на общность. Тогда группировка задач соответствует тем задачам, которые лежат в подпространстве, порожденном некоторым подмножеством базовых элементов, где задачи в разных группах могут не пересекаться или перекрываться произвольно с точки зрения их баз. Связанность задач может быть наложена априори или извлечена из данных. Иерархическая взаимосвязь задач также может использоваться неявно, не предполагая явно априорное знание или обучающие отношения. Например, явное изучение релевантности выборки для разных задач может быть выполнено, чтобы гарантировать эффективность совместного обучения в нескольких областях.

Использование несвязанных задач

Можно попытаться изучить группу основных задач, используя группу вспомогательных задач, не связанных с основными. Во многих приложениях может быть полезным совместное изучение несвязанных задач, использующих одни и те же входные данные. Причина в том, что предварительные знания о взаимосвязи задач могут привести к более разреженным и более информативным представлениям для каждой группы задач, по сути, путем отсеивания идиосинкразии распределения данных. Были предложены новые методы, которые основаны на предыдущей методологии многозадачности, отдавая предпочтение общему низкоразмерному представлению в каждой группе задач. Программист может наложить штраф на задачи из разных групп, что побуждает два представления быть ортогональными . Эксперименты с синтетическими и реальными данными показали, что включение несвязанных задач может привести к значительным улучшениям по сравнению со стандартными методами многозадачного обучения.

Передача знаний

С многозадачным обучением связана концепция передачи знаний. В то время как традиционное многозадачное обучение подразумевает, что совместно используемое представление разрабатывается одновременно для разных задач, передача знаний подразумевает последовательно разделяемое представление. Крупномасштабные проекты машинного обучения, такие как глубокая сверточная нейронная сеть GoogLeNet , классификатор объектов на основе изображений, могут разрабатывать надежные представления, которые могут быть полезны для дальнейших задач, связанных с обучением алгоритмов. Например, предварительно обученная модель может использоваться как средство извлечения признаков для выполнения предварительной обработки для другого алгоритма обучения. Или предварительно обученную модель можно использовать для инициализации модели с аналогичной архитектурой, которая затем настраивается для изучения другой задачи классификации.

Групповое адаптивное онлайн-обучение

Традиционно многозадачное обучение и передача знаний применяются в условиях стационарного обучения. Их распространение на нестационарные среды называется групповым онлайн-адаптивным обучением (ЦЕЛЬ). Обмен информацией может быть особенно полезным, если учащиеся работают в постоянно меняющейся среде, потому что учащийся может извлечь выгоду из предыдущего опыта другого учащегося, чтобы быстро адаптироваться к своей новой среде. Такое групповое адаптивное обучение имеет множество приложений, от прогнозирования финансовых временных рядов с помощью систем рекомендаций по содержанию до визуального понимания для адаптивных автономных агентов.

Математика

Воспроизводящее гильбертово пространство векторных функций (RKHSvv)

Задача MTL может быть выражена в контексте RKHSvv ( полное внутреннее пространство произведения векторных функций, снабженное воспроизводящим ядром ). В частности, в последнее время основное внимание уделяется случаям, когда структура задачи может быть идентифицирована через разделяемое ядро, описанное ниже. Представленная здесь презентация основана на Ciliberto et al., 2015.

Концепции RKHSvv

Предположим , что обучающий набор данных , с , где т индексы задачи, и . Пусть . В этой настройке есть согласованное пространство ввода и вывода и одна и та же функция потерь для каждой задачи:. Это приводит к упорядоченной проблеме машинного обучения:

 

 

 

 

( 1 )

где - векторнозначное воспроизводящее ядро ​​гильбертова пространства с функциями, имеющими компоненты .

Воспроизводящее ядро ​​для пространства функций - это симметричная матричнозначная функция , такая, что имеет место следующее свойство воспроизведения:

 

 

 

 

( 2 )

Воспроизводящее ядро ​​приводит к теореме о представителе, показывающей, что любое решение уравнения 1 имеет вид:

 

 

 

 

( 3 )

Отделяемые ядра

Форма ядра Γ индуцирует как представление пространства признаков, так и структурирует вывод по задачам. Естественным упрощением является выбор разделяемого ядра, которое разделяется на отдельные ядра во входном пространстве X и в задачах . В этом случае ядро, связывающее скалярные компоненты и имеет вид . Для векторных функций мы можем написать , где k - скалярное воспроизводящее ядро, а A - симметричная положительно полуопределенная матрица. В дальнейшем обозначаем .

Это свойство факторизации, разделимость, подразумевает, что входное представление пространства признаков не зависит от задачи. То есть нет взаимодействия между входным ядром и ядром задачи. Структура на задачах представлена исключительно A . Методы неразделимых ядер Γ - актуальная область исследований.

Для сепарабельного случая теорема о представлении сводится к . Результатом модели для обучающих данных является KCA , где K - матрица эмпирического ядра с элементами , а C - матрица строк .

С разделимым ядром уравнение 1 можно переписать как

 

 

 

 

( P )

где V - (взвешенное) среднее значение L, примененное по отношению к Y и KCA . (Вес равен нулю, если отсутствует наблюдение).

Обратите внимание, что второй член в P может быть получен следующим образом:

Известная структура задачи

Представления структуры задач

Есть три в значительной степени эквивалентных способа представления структуры задачи: через регуляризатор; через метрику вывода и через отображение вывода.

Регуляризатор  -  с помощью разделяемого ядра можно показать (ниже), что , где - элемент псевдообратного значения , а - RKHS, основанный на скалярном ядре , и . Эта формулировка показывает, что контролирует вес штрафа, связанный с . (Обратите внимание, что это происходит из .)

Доказательство  -

Показатель вывода  -  альтернативный показатель вывода может быть вызван внутренним продуктом . С квадратом потерь существует эквивалентность между отделимыми ядрами при альтернативной метрике и при канонической метрике.

Отображение выходных данных  -  выходные данные могут отображаться в пространстве более высоких измерений для кодирования сложных структур, таких как деревья, графики и строки. Для линейных отображений L при соответствующем выборе сепарабельного ядра можно показать, что .

Примеры структуры задач

С помощью формулировки регуляризатора можно легко представить множество структур задач.

  • Положить (где - единичная матрица T x T , а - матрица единиц T x T ) эквивалентно разрешению Γ управлять отклонением задач от их среднего значения . Например, уровни некоторых биомаркеров в крови могут быть взяты у T- пациентов в определенные моменты времени в течение дня, и интерес может заключаться в упорядочении дисперсии прогнозов для разных пациентов.
  • Полагая , где эквивалентно давая контроль дисперсии измеряется по отношению к группе среднего: . (Здесь мощность группы r, и - индикаторная функция). Например, люди из разных политических партий (групп) могут быть объединены в регуляризацию для прогнозирования рейтинга благосклонности политика. Обратите внимание, что этот штраф уменьшается до первого, когда все задачи находятся в одной группе.
  • Положим , где - лапласиан графа с матрицей смежности M, задающий попарное сходство задач. Это эквивалентно увеличению штрафа для задач t и s, разделяющих расстояние, когда они более похожи (по весу ), то есть упорядочиваются .
  • Все вышеперечисленные варианты выбора A также вызывают дополнительный член регуляризации, который штрафует сложность в f в более широком смысле.

Учебные задания вместе с их структурой

Задача обучения P может быть обобщена, чтобы допустить матрицу задачи обучения A следующим образом:

 

 

 

 

( Q )

Выбор должен быть предназначен для изучения матриц A данного типа. См. «Особые случаи» ниже.

Оптимизация Q

Ограничиваясь случаем выпуклых потерь и принудительных штрафов Ciliberto et al. показали, что хотя Q не является выпуклым совместно в C и A, родственная задача является совместно выпуклой.

В частности, на выпуклом множестве эквивалентная задача

 

 

 

 

( R )

выпукла с тем же минимальным значением. И если это Минимизатор для R , то есть минимизирующий для Q .

R можно решить барьерным методом на замкнутом множестве, введя следующее возмущение:

 

 

 

 

( S )

Возмущение через барьер вынуждает целевые функции равняться на границе .

S может быть решена с помощью блока координат метод спуска, чередуя в C и A. Это приводит к последовательности минимайзеровв S , которая сходится к решению в R , как, иследовательнодает решение Q .

Особые случаи

Спектральные штрафы - Диннузо и др. Предложили установить F как норму Фробениуса. Оптимизировали Q напрямую с помощью блочного спуска координат, не учитывая трудностей на границе.

Обучение кластеризованным задачам - Джейкоб и др. Предложили изучать A в условиях, когда T задачи организованы в R непересекающихся кластеров. В этом случае пусть будет матрица с . Задание , и , матрица задач может быть параметризована как функция :, с условиями, которые штрафуют среднее, между дисперсией кластеров и дисперсией внутри кластеров, соответственно, прогнозов задачи. М не выпуклый, но выпуклая релаксация есть . В этой формулировке .

Обобщения

Невыпуклые штрафы - штрафы могут быть построены таким образом, что A должен быть лапласианом графа или A имеет факторизацию низкого ранга. Однако эти штрафы не являются выпуклыми, и анализ барьерного метода, предложенный Ciliberto et al. не проходит в этих случаях.

Неразделимые ядра - отдельные ядра ограничены, в частности, они не учитывают структуры в пространстве взаимодействия между входной и выходной доменами совместно. Дальнейшая работа необходима для разработки моделей для этих ядер.

Приложения

Фильтрация спама

На основе принципов MTL были предложены методы совместной фильтрации спама , облегчающие персонализацию. В крупномасштабных системах электронной почты с открытым членством большинство пользователей не маркируют достаточно сообщений, чтобы отдельный локальный классификатор был эффективным, а данные слишком зашумлены, чтобы их можно было использовать для глобального фильтра для всех пользователей. Гибридный глобальный / индивидуальный классификатор может эффективно поглощать влияние пользователей, которые очень старательно маркируют электронные письма от широкой публики. Этого можно достичь, обеспечивая при этом достаточное качество для пользователей с несколькими помеченными экземплярами.

поиск в интернете

Используя усиленные деревья решений , можно включить неявный обмен данными и регуляризацию. Этот метод обучения можно использовать в наборах данных ранжирования веб-поиска. Одним из примеров является использование наборов данных ранжирования из нескольких стран. Здесь многозадачное обучение особенно полезно, поскольку наборы данных из разных стран в значительной степени различаются по размеру из-за стоимости редакционных суждений. Было продемонстрировано, что совместное обучение различным задачам может привести к значительному повышению производительности с удивительной надежностью.

Пакет программного обеспечения

Пакет Matlab для многозадачного обучения с помощью структурной регуляризации (MALSAR) реализует следующие алгоритмы многозадачного обучения:

  • Средне-регулярное многозадачное обучение
  • Многозадачное обучение с совместным выбором функций
  • Надежное обучение многозадачным функциям
  • Регуляризованное многозадачное обучение по нормам
  • Альтернативная структурная оптимизация
  • Некогерентное низкоранговое и разреженное обучение
  • Надежное многозадачное обучение низкого ранга
  • Кластерное многозадачное обучение
  • Многозадачное обучение с графическими структурами

Смотрите также

Рекомендации

Внешние ссылки

Программное обеспечение