Поиск мультимедийной информации - Multimedia information retrieval

Поиск мультимедийной информации ( MMIR или MIR ) - это исследовательская дисциплина информатики , цель которой - извлечение семантической информации из источников мультимедийных данных. Источники данных включают непосредственно воспринимаемые медиа, такие как аудио , изображения и видео , косвенно воспринимаемые источники, такие как текст , семантические описания, биосигналы, а также невоспринимаемые источники, такие как биоинформация, цены на акции и т. Д. Методология MMIR может быть разделена на три группы :

  1. Методы реферирования медиа-контента ( выделение признаков ). Результатом извлечения признаков является описание.
  2. Методы фильтрации медиа-описаний (например, устранение избыточности )
  3. Методы категоризации медиаописаний по классам.

Методы извлечения признаков

Извлечение функций мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, шумностью. Как правило, с помощью извлечения признаков можно достичь двух возможных целей:

  • Обобщение медиа-контента. Методы суммирования включают в себя в области звука, например, мелкочастотные кепстральные коэффициенты , скорость перехода через ноль, кратковременную энергию. В визуальной области для суммирования можно использовать гистограммы цвета, такие как масштабируемый дескриптор цвета MPEG-7 .
  • Обнаружение закономерностей путем автокорреляции и / или взаимной корреляции . Шаблоны - это повторяющиеся фрагменты мультимедиа, которые можно обнаружить либо путем сравнения фрагментов по размерам мультимедиа (время, пространство и т. Д.), Либо путем сравнения фрагментов мультимедиа с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают в себя линейное прогнозирующее кодирование в области аудио / биосигналов, описание текстуры в визуальной области и n-граммы при поиске текстовой информации.

Методы слияния и фильтрации

Получение мультимедийной информации подразумевает, что для понимания мультимедийного контента используются несколько каналов. Каждый из этих каналов описывается преобразованиями функций, специфичных для медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено простым объединением, если описания имеют фиксированный размер. Описания переменного размера - как они часто встречаются в описании движения - сначала необходимо нормализовать до фиксированной длины.

Часто используемые методы для фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение по сингулярным значениям (например, как скрытое семантическое индексирование при поиске текста), а также извлечение и тестирование статистических моментов. Для объединения описаний используются расширенные концепции, такие как фильтр Калмана .

Методы категоризации

Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения, хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые марковские модели являются новейшими в распознавании речи , в то время как динамическое искажение времени - семантически связанный метод - является новейшим в выравнивании последовательностей генов. Список применимых классификаторов включает следующее:

Выбор лучшего классификатора для данной проблемы (набор тестов с описаниями и метками классов, так называемая наземная истина ) может выполняться автоматически, например, с помощью Weka Data Miner.

Открытые проблемы

Качество систем MMIR сильно зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из медиаисточников в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хорош данные обучающие данные. С другой стороны, создание меток классов для больших баз данных требует значительных усилий. Будущий успех MMIR будет зависеть от предоставления таких данных. Ежегодный конкурс TRECVID в настоящее время является одним из наиболее актуальных источников высококачественной достоверной информации.

Связанные области

MMIR предоставляет обзор методов, используемых в области поиска информации. Методы одной области адаптированы и применяются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:

Международный журнал Multimedia информационного поиска документы развития MMIR как исследовательская дисциплина , которая не зависит от этих областей. См. Также Справочник по поиску мультимедийной информации для полного обзора этой исследовательской дисциплины.

Рекомендации