Поиск мультимедийной информации - Multimedia information retrieval
Поиск мультимедийной информации ( MMIR или MIR ) - это исследовательская дисциплина информатики , цель которой - извлечение семантической информации из источников мультимедийных данных. Источники данных включают непосредственно воспринимаемые медиа, такие как аудио , изображения и видео , косвенно воспринимаемые источники, такие как текст , семантические описания, биосигналы, а также невоспринимаемые источники, такие как биоинформация, цены на акции и т. Д. Методология MMIR может быть разделена на три группы :
- Методы реферирования медиа-контента ( выделение признаков ). Результатом извлечения признаков является описание.
- Методы фильтрации медиа-описаний (например, устранение избыточности )
- Методы категоризации медиаописаний по классам.
Методы извлечения признаков
Извлечение функций мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, шумностью. Как правило, с помощью извлечения признаков можно достичь двух возможных целей:
- Обобщение медиа-контента. Методы суммирования включают в себя в области звука, например, мелкочастотные кепстральные коэффициенты , скорость перехода через ноль, кратковременную энергию. В визуальной области для суммирования можно использовать гистограммы цвета, такие как масштабируемый дескриптор цвета MPEG-7 .
- Обнаружение закономерностей путем автокорреляции и / или взаимной корреляции . Шаблоны - это повторяющиеся фрагменты мультимедиа, которые можно обнаружить либо путем сравнения фрагментов по размерам мультимедиа (время, пространство и т. Д.), Либо путем сравнения фрагментов мультимедиа с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают в себя линейное прогнозирующее кодирование в области аудио / биосигналов, описание текстуры в визуальной области и n-граммы при поиске текстовой информации.
Методы слияния и фильтрации
Получение мультимедийной информации подразумевает, что для понимания мультимедийного контента используются несколько каналов. Каждый из этих каналов описывается преобразованиями функций, специфичных для медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено простым объединением, если описания имеют фиксированный размер. Описания переменного размера - как они часто встречаются в описании движения - сначала необходимо нормализовать до фиксированной длины.
Часто используемые методы для фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение по сингулярным значениям (например, как скрытое семантическое индексирование при поиске текста), а также извлечение и тестирование статистических моментов. Для объединения описаний используются расширенные концепции, такие как фильтр Калмана .
Методы категоризации
Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения, хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые марковские модели являются новейшими в распознавании речи , в то время как динамическое искажение времени - семантически связанный метод - является новейшим в выравнивании последовательностей генов. Список применимых классификаторов включает следующее:
- Метрические подходы ( кластерный анализ , модель векторного пространства , расстояния Минковского , динамическое выравнивание)
- Методы ближайшего соседа (алгоритм K-ближайших соседей , K-средних, самоорганизующаяся карта )
- Минимизация рисков ( опорная векторная регрессия, опорная векторная машина , линейный дискриминантный анализ )
- Методы, основанные на плотности (байесовские сети, марковские процессы , модели смеси)
- Нейронные сети ( персептрон , ассоциативные воспоминания, шиповые сети)
- Эвристика ( деревья решений , случайные леса и т. Д.)
Выбор лучшего классификатора для данной проблемы (набор тестов с описаниями и метками классов, так называемая наземная истина ) может выполняться автоматически, например, с помощью Weka Data Miner.
Открытые проблемы
Качество систем MMIR сильно зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из медиаисточников в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хорош данные обучающие данные. С другой стороны, создание меток классов для больших баз данных требует значительных усилий. Будущий успех MMIR будет зависеть от предоставления таких данных. Ежегодный конкурс TRECVID в настоящее время является одним из наиболее актуальных источников высококачественной достоверной информации.
Связанные области
MMIR предоставляет обзор методов, используемых в области поиска информации. Методы одной области адаптированы и применяются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:
- Биоинформационный анализ
- Обработка биосигналов
- Поиск изображений и видео на основе контента
- Распознавание лица
- Классификация аудио и музыки (поиск музыкальной информации)
- Автоматическое распознавание контента
- Распознавание речи
- Анализ технических графиков
- Просмотр видео
- Поиск текстовой информации
- Поиск изображений
- Учимся ранжировать
Международный журнал Multimedia информационного поиска документы развития MMIR как исследовательская дисциплина , которая не зависит от этих областей. См. Также Справочник по поиску мультимедийной информации для полного обзора этой исследовательской дисциплины.