Мультимодальное взаимодействие - Multimodal interaction

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс обеспечивает несколько различных инструментов для ввода и вывода данных.

Вступление

Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных способов коммуникации». Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, обеспечивая взаимодействие пользователей с автоматизированными системами как на входе, так и на выходе. В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать с помощью методов ввода, таких как речь , почерк , жесты руки и взгляд , а также получать информацию системой с помощью таких методов вывода, как синтез речи, интеллектуальная графика. и другие подходящие способы сочетания. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстными ограничениями, чтобы позволить их интерпретацию. Этот процесс известен как мультимодальный синтез, и он является объектом нескольких исследований с девяностых годов до настоящего времени. Входы с предохранителями интерпретируются системой. Естественность и гибкость могут давать более одной интерпретации для каждой разной модальности (канала) и для их одновременного использования, и, следовательно, они могут вызывать многомодальную неоднозначность, как правило, из-за неточности, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, конфигурируемые вычислительные ресурсы, которые могут динамически и автоматически выделяться и высвобождаться».

Мультимодальный ввод

Две основные группы мультимодальных интерфейсов объединились: одна связана с альтернативными методами ввода, а другая - с комбинированным вводом / выводом. Первая группа интерфейсов объединила в себе различные режимы пользовательского ввода помимо традиционного ввода / вывода с клавиатуры и мыши , такие как речь, перо, прикосновение, ручные жесты, взгляд, движения головы и тела. Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с речевой модальностью ( распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако могут использоваться другие методы, такие как ввод с помощью пера или осязательный ввод / вывод. Мультимодальные пользовательские интерфейсы - это область исследований взаимодействия человека с компьютером (HCI).

Преимущество множественных модальностей ввода заключается в повышении удобства использования : слабые стороны одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Poughkeepsie ). Подумайте, как вы будете получать доступ и выполнять поиск в каталогах цифровых мультимедиа с этих же устройств или телевизионных приставок. И в одном из реальных примеров информация о пациенте в операционной комнате доступна устно для членов хирургической бригады, чтобы поддерживать антисептическую среду, и представлена почти в реальном времени на слух и визуально для максимального понимания.

Пользовательские интерфейсы мультимодального ввода влияют на доступность . Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с ослабленным зрением полагаются на голосовую модальность при вводе с клавиатуры. Пользователи с нарушением слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «неадекватно ситуативно» (например, носить перчатки в очень шумной обстановке, управлять автомобилем или вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие способы по своему усмотрению. С другой стороны, мультимодальное приложение, которое требует, чтобы пользователи могли работать со всеми модальностями, очень плохо спроектировано.

Наиболее распространенная на рынке форма мультимодальности ввода использует язык разметки веб-страниц XHTML + Voice (также известный как X + V), открытую спецификацию, разработанную IBM , Motorola и Opera Software . X + V в настоящее время рассматривается W3C и объединяет несколько Рекомендаций W3C, включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events , стандарт интеграции языков XML . Мультимодальные браузеры, поддерживающие X + V, включают мультимодальную среду IBM WebSphere Everyplace, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений, разработчики программного обеспечения могут использовать набор инструментальных средств разработки программного обеспечения , такие как IBM WebSphere мультимодальных Toolkit, на основе открытого кода Eclipse , рамки , которая включает в себя X + V отладчик , редактор и симулятор .

Мультимодальный анализ тональности

Мультимодальный анализ тональности - это новое измерение традиционного анализа тональности на основе текста , которое выходит за рамки анализа текстов и включает другие методы, такие как аудио и визуальные данные. Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. С обширным количеством социальных медиа данных , доступных онлайн в различных формах , такие как видео и изображения, обычный текст на основе анализ настроений эволюционировали в более сложные модели мультимодального анализа настроений, которые могут быть применены в разработке виртуальных помощников , анализ из Обзоры фильмов на YouTube, анализ новостных видеороликов и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии .

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. Сложность анализа текста, аудио и визуальных функций для выполнения такой задачи требует применения различных методов слияния, таких как уровень функций, уровень принятия решений и гибридное слияние. На эффективность этих методов слияния и применяемых алгоритмов классификации влияет тип текстовых, звуковых и визуальных характеристик, используемых в анализе.

Мультимодальный вывод

Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, в первую очередь в форме визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной выходной системы включают синергию и избыточность. Информация, которая представлена несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации. В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средой связи и контентом и для поддержки управления вниманием в среде с большим количеством данных, где операторы сталкиваются со значительными требованиями к визуальному вниманию.

Важным шагом в дизайне мультимодального интерфейса является создание естественных сопоставлений между модальностями и информацией и задачами. Слуховой канал отличается от зрения по нескольким аспектам. Он всенаправлен, преходящ и всегда зарезервирован. Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, о которых мы не будем говорить позже. Также было рекомендовано, чтобы речь была своевременной и требовала немедленного ответа.

Чувство осязания было впервые использовано в качестве средства общения в конце 1950-х годов. Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является ближайшим: оно ощущает объекты, которые контактируют с телом, и является двунаправленным, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примеры слуховой обратной связи включают звуковые значки в компьютерных операционных системах, указывающие действия пользователей (например, удаление файла, открытие папки, ошибку), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают вибрацию рычага указателя поворота, чтобы предупредить водителей о том, что автомобиль находится в их слепой зоне, вибрацию автокресла в качестве предупреждения для водителей и вибрацию ручки на современных самолетах, предупреждающую пилотов о надвигающемся сваливании.

Невидимые интерфейсные пространства стали доступны с помощью сенсорной технологии. В настоящее время широко используются инфракрасный, ультразвуковой и камеры. Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую ссылку через осмысленное отображение, таким образом, у пользователя есть прямая и немедленная обратная связь на ввод, а ответ контента становится доступностью интерфейса (Гибсон, 1979).

Мультимодальный фьюжн

Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным объединением. В литературе были предложены три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может выполняться слияние входных сигналов: на основе распознавания, на основе решений и гибридных многоуровневых слияние.

Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. Д. Примеры Основанных на распознавании стратегий слияния - это рамка действия, входные векторы и слоты.

Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, извлеченную с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков, плавильные котлы, семантические фреймы и решетки с отметками времени.

Потенциальные приложения для мультимодального слияния включают учебную среду, отношения с потребителями, безопасность / наблюдение, компьютерную анимацию и т. Д. По отдельности режимы легко определить, но возникают трудности с тем, чтобы технология считала их комбинированным слиянием. Алгоритмам сложно учесть размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию.

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: преобразователи с конечным числом состояний, мультимодальные грамматики и диалоги.

Двусмысленность

Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение), которые должны интерпретироваться системой. Мультимодальное сообщение - это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Он получается путем объединения информации, которая передается с помощью нескольких модальностей, с учетом различных типов сотрудничества между несколькими модальностями, временных отношений между задействованными модальностями и отношений между порциями информации, связанными с этими модальностями.

Естественное отображение между мультимодальным входом, которое обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и осязание), и информацией и задачами, подразумевает управление типичными проблемами человеческого общения, такими как двусмысленность. Неоднозначность возникает, когда возможна более чем одна интерпретация ввода. Мультимодальная неоднозначность возникает как в том случае, если элемент, который обеспечивается одной модальностью, имеет более одной интерпретации (т. Е. Неоднозначность распространяется на мультимодальном уровне), так и / или если элементы, связанные с каждой модальностью, интерпретируются однозначно, но информация упомянутые разные модальности несогласованы на синтаксическом или семантическом уровне (т. е. мультимодальное предложение, имеющее разные значения или другую синтаксическую структуру).

В «Управлении неоднозначностями» методы разрешения неоднозначностей и обеспечения правильной интерпретации ввода пользователя разделены на три основных класса: предотвращение, апостериорное разрешение и методы разрешения аппроксимации.

Методы предотвращения вынуждают пользователей следовать заранее определенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примеры методов профилактики: процедурный метод, снижение выразительной силы языковой грамматики, улучшение выразительной силы языковой грамматики.

Апостериорное разрешение неоднозначности использует подход медиации. Примерами методов посредничества являются: повторение, например, повторение по модальности, степень детализации исправления и отмены, а также выбор.

Методы разрешения аппроксимации не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели .

Смотрите также

Независимость от устройства
Мультимодальная биометрическая система
Мультимодальный поиск
Распознавание речи
W3C's Multimodal Interaction Activity - инициатива W3C, направленная на предоставление средств (в основном XML ) для поддержки сценариев мультимодального взаимодействия в сети.
Веб-доступность
Проводная перчатка
XHTML + голос

Внешние ссылки

W3C Мультимодальное взаимодействие
XHTML + Voice Profile 1.0 , W3C Note 21 декабря 2001 г.
Хост, Лоде, Дюма, Бруно и Сигнер, Beat: Mudra: A Unified Multimodal Interaction Framework , В материалах 13-й Международной конференции по мультимодальному взаимодействию (ICMI 2011), Аликанте, Испания, ноябрь 2011 г.
Тоселли, Алехандро Эктор, Видаль, Энрике, Касакуберта, Франциско: мультимодальное интерактивное распознавание образов и приложения , Springer, 2011.

Languages

In other projects