VoiceXML - VoiceXML

VoiceXML ( VXML ) - это стандарт цифровых документов для определения интерактивных мультимедийных и голосовых диалогов между людьми и компьютерами. Он используется для разработки приложений аудио и голосового ответа, таких как банковские системы и автоматизированные порталы обслуживания клиентов. Приложения VoiceXML разрабатываются и развертываются аналогично тому, как веб-браузер интерпретирует и визуально отображает язык гипертекстовой разметки (HTML), который он получает от веб-сервера . Документы VoiceXML интерпретируются голосовым браузером, и в общих архитектурах развертывания пользователи взаимодействуют с голосовыми браузерами через коммутируемую телефонную сеть общего пользования (PSTN).

Формат документа VoiceXML основан на расширяемом языке разметки (XML). Это стандарт, разработанный Консорциумом World Wide Web (W3C).

Применение

Приложения VoiceXML обычно используются во многих отраслях и сегментах торговли. Эти приложения включают в себя запрос заказа, отслеживание посылок, маршруты проезда, уведомление о чрезвычайных ситуациях, пробуждение, отслеживание рейсов, голосовой доступ к электронной почте, управление взаимоотношениями с клиентами, пополнение рецептов, журналы аудио новостей, голосовой набор, информацию о недвижимости и приложения для поддержки национальных справочников. .

VoiceXML имеет теги, которые инструктируют голосовой браузер обеспечивать синтез речи , автоматическое распознавание речи , управление диалогами и воспроизведение звука. Ниже приведен пример документа VoiceXML:

<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">
  <form>
    <block>
      <prompt>
        Hello world!
      </prompt>
    </block>
  </form>
</vxml>

При интерпретации интерпретатором VoiceXML это приведет к выводу «Hello world» с синтезированной речью.

Обычно HTTP используется в качестве транспортного протокола для выборки страниц VoiceXML. Некоторые приложения могут использовать статические страницы VoiceXML, в то время как другие полагаются на создание динамических страниц VoiceXML с помощью сервера приложений, такого как Tomcat , Weblogic , IIS или WebSphere .

Исторически сложилось так, что поставщики платформы VoiceXML реализовывали стандарт по-разному и добавляли проприетарные функции. Но стандарт VoiceXML 2.0, принятый в качестве Рекомендации W3C 16 марта 2004 г., прояснил большинство различий. VoiceXML Forum, отраслевая группа, продвигающая использование стандарта, обеспечивает процесс тестирования на соответствие, который удостоверяет, что реализации поставщиков соответствуют требованиям.

История

Корпорация AT&T , IBM , Lucent и Motorola сформировали Форум VoiceXML в марте 1999 года с целью разработки стандартного языка разметки для определения голосовых диалогов. К сентябрю 1999 года Форум выпустил VoiceXML 0.9 для комментариев участников, а в марте 2000 года они опубликовали VoiceXML 1.0. Вскоре после этого Форум передал контроль над стандартом W3C. W3C выпустил несколько промежуточных версий VoiceXML 2.0, которые достигли финальной стадии «Рекомендации» в марте 2004 года.

VoiceXML 2.1 добавил относительно небольшой набор дополнительных функций к VoiceXML 2.0, основанный на отзывах реализаций стандарта 2.0. Он обратно совместим с VoiceXML 2.0 и получил статус рекомендации W3C в июне 2007 года.

Будущие версии стандарта

VoiceXML 3.0 станет следующим основным выпуском VoiceXML с новыми основными функциями. Он включает новый язык описания диаграмм состояний XML, называемый SCXML .

Связанные стандарты

Структура речевого интерфейса W3C также определяет эти другие стандарты, тесно связанные с VoiceXML.

SRGS и SISR

Признание Грамматика Спецификация речи (SRGS) используется , чтобы сказать , что распознаватель речи Речевые модели следует ожидать услышать: эти модели называются грамматик. Как только распознаватель речи определит наиболее вероятное предложение, которое он услышал, ему необходимо извлечь семантическое значение из этого предложения и вернуть его интерпретатору VoiceXML. Эта семантическая интерпретация определяется стандартом « Семантическая интерпретация для распознавания речи» (SISR). SISR используется внутри SRGS для определения семантических результатов, связанных с грамматиками, т. Е. Набора назначений ECMAScript, которые создают семантическую структуру, возвращаемую распознавателем речи.

SSML

Язык разметки синтеза речи (SSML) используется для украшения текстовых подсказок информацией о том, как лучше всего их преобразовать в синтетическую речь, например, какой голос синтезатора речи использовать или когда говорить громче или тише.

PLS

Lexicon Спецификация Произношение (PLS) используется для определения , как слова произносятся. Сгенерированная информация о произношении предназначена для использования как распознавателями речи, так и синтезаторами речи в приложениях для просмотра голоса.

CCXML

Управления вызовами расширяемого языка разметки (CCXML) является дополнительным стандартом W3C. Интерпретатор CCXML используется на некоторых платформах VoiceXML для обработки начальной установки вызова между вызывающим абонентом и голосовым браузером, а также для предоставления услуг телефонии, таких как перевод вызова и отключение от голосового браузера. CCXML также можно использовать в контекстах, отличных от VoiceXML.

MSML, MSCML, MediaCTRL

В приложениях медиа-сервера часто необходимо, чтобы несколько ветвей вызова взаимодействовали друг с другом, например, в многосторонней конференции. В VoiceXML для этого приложения были выявлены некоторые недостатки, поэтому компании разработали специальные языки сценариев для работы с этой средой. Язык разметки медиа-сервера (MSML) был решением Convedia, а язык разметки управления медиа-сервером (MSCML) был решением Snowshore. Snowshore теперь принадлежит Dialogic, а Convedia теперь принадлежит Radisys. Эти языки также содержат «перехватчики», так что внешние сценарии (например, VoiceXML) могут выполняться на этапах вызова, где требуется функциональность IVR .

Была рабочая группа IETF под названием mediactrl («управление мультимедиа»), которая работала над преемником этих систем сценариев, который, как ожидается, будет развиваться до открытого и широко принятого стандарта. Рабочая группа mediactrl завершилась в 2013 году.

Смотрите также

  • ECMAScript  - язык сценариев, используемый в VoiceXML
  • OpenVXI  - библиотека интерпретатора VoiceXML с открытым исходным кодом
  • SCXML  - XML ​​диаграммы состояний

Рекомендации

Внешние ссылки

Послушайте эту статью ( 9 минут )
Разговорный значок Википедии
Этот аудиофайл был создан на основе редакции этой статьи от 29 октября 2011 г. и не отражает последующих правок. ( 2011-10-29 )