КМУ Сфинкс - CMU Sphinx

Сфинх4
Стабильный выпуск
5-prealpha / 3 августа 2015 г . ; 6 лет назад ( 2015-08-03 )
Написано в Джава
Операционная система Кроссплатформенность
Тип Библиотека изображений
Лицензия BSD-стиль
Веб-сайт cmusphinx .github .io / вики /
Карманный сфинкс
Стабильный выпуск
5-prealpha / 5 августа 2015 ; 6 лет назад ( 2015-08-05 )
Написано в C
Операционная система Кроссплатформенность
Тип Библиотека изображений
Лицензия BSD-стиль
Веб-сайт cmusphinx .github .io / вики /

CMU Sphinx , также сокращенно называемый Sphinx, - это общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллона . К ним относятся серия распознавателей речи (Sphinx 2–4) и тренажер акустической модели (SphinxTrain).

В 2000 году группа Sphinx в Карнеги-Меллон решила открыть исходный код нескольких компонентов распознавателя речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя дополнительно программное обеспечение для обучения акустической модели, компиляции языковой модели и общедоступный словарь произношения cmudict .

Sphinx включает в себя ряд программных систем, описанных ниже.

Сфинкс

Sphinx - это система распознавания непрерывной речи, не зависящая от говорящего, использующая скрытые марковские акустические модели ( HMM ) и n-граммовую статистическую языковую модель. Его разработал Кай-Фу Ли . Сфинкс отличался возможностью непрерывного речевого, независимого от говорящего распознавания большого словарного запаса, возможность которого оспаривалась в то время (1986). Сфинкс представляет только исторический интерес; он был заменен в следующих версиях. Подробно система описана в архивной статье.

Сфинкс 2

Быстро ориентированных на производительность распознаватель, первоначально разработанный Xuedong Huang в Карнеги - Меллона и выпущен как с открытым исходным кодом с BSD лицензией -style на SourceForge по Кевин Lenzo на LinuxWorld в 2000 году Sphinx 2 фокусируется на распознавании в режиме реального времени , подходящих для применения разговорного языка . Таким образом, он включает в себя такие функции, как указание конца, генерация частичной гипотезы, переключение динамической языковой модели и т. Д. Он используется в диалоговых системах и системах изучения языков. Его можно использовать в компьютерных АТС, таких как Asterisk . Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (кроме планового обслуживания). Текущая разработка декодеров реального времени ведется в рамках проекта Pocket Sphinx . Архивная статья описывает систему.

Сфинкс 3

Sphinx 2 использовал полунепрерывное представление для акустического моделирования (т. Е. Для всех моделей используется единый набор гауссиан, а отдельные модели представлены как весовой вектор над этими гауссианами). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Последние разработки (в области алгоритмов и аппаратного обеспечения) сделали Sphinx 3 «почти» в реальном времени, хотя еще не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в стадии активной разработки и вместе с SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA / MLLT, MLLR и VTLN, которые повышают точность распознавания (см. Описание этих методов в статье « Распознавание речи» ).

Сфинкс 4

Sphinx 4 - это полностью переписанный движок Sphinx с целью предоставить более гибкую основу для исследований в области распознавания речи, полностью написанную на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла свой вклад в проект в области разработки программного обеспечения. Среди участников были представители MERL, MIT и CMU . (В настоящее время поддерживаются следующие языки: C, C ++, C #, Python, Ruby, Java, Javascript).

Текущие цели развития включают:

  • разработка нового тренажера (акустической модели)
  • реализация адаптации динамика (например, MLLR)
  • улучшение управления конфигурацией
  • создание графического пользовательского интерфейса для графического дизайна системы

Карманный сфинкс

Версия Sphinx, которая может использоваться во встроенных системах (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает такие функции, как арифметика с фиксированной точкой и эффективные алгоритмы для вычислений GMM .

Смотрите также

использованная литература

внешние ссылки