КМУ Сфинкс - CMU Sphinx

Карманный сфинкс
Стабильный выпуск	5-prealpha / 5 августа 2015 ; 6 лет назад
Написано в	C
Операционная система	Кроссплатформенность
Тип	Библиотека изображений
Лицензия	BSD-стиль
Веб-сайт	cmusphinx .github .io / вики /

Сфинх4
Стабильный выпуск	5-prealpha / 3 августа 2015 г . ; 6 лет назад
Написано в	Джава
Операционная система	Кроссплатформенность
Тип	Библиотека изображений
Лицензия	BSD-стиль
Веб-сайт	cmusphinx .github .io / вики /

CMU Sphinx , также сокращенно называемый Sphinx, - это общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллона . К ним относятся серия распознавателей речи (Sphinx 2–4) и тренажер акустической модели (SphinxTrain).

В 2000 году группа Sphinx в Карнеги-Меллон решила открыть исходный код нескольких компонентов распознавателя речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя дополнительно программное обеспечение для обучения акустической модели, компиляции языковой модели и общедоступный словарь произношения cmudict .

Sphinx включает в себя ряд программных систем, описанных ниже.

Сфинкс

Sphinx - это система распознавания непрерывной речи, не зависящая от говорящего, использующая скрытые марковские акустические модели ( HMM ) и n-граммовую статистическую языковую модель. Его разработал Кай-Фу Ли . Сфинкс отличался возможностью непрерывного речевого, независимого от говорящего распознавания большого словарного запаса, возможность которого оспаривалась в то время (1986). Сфинкс представляет только исторический интерес; он был заменен в следующих версиях. Подробно система описана в архивной статье.

Сфинкс 2

Быстро ориентированных на производительность распознаватель, первоначально разработанный Xuedong Huang в Карнеги - Меллона и выпущен как с открытым исходным кодом с BSD лицензией -style на SourceForge по Кевин Lenzo на LinuxWorld в 2000 году Sphinx 2 фокусируется на распознавании в режиме реального времени , подходящих для применения разговорного языка . Таким образом, он включает в себя такие функции, как указание конца, генерация частичной гипотезы, переключение динамической языковой модели и т. Д. Он используется в диалоговых системах и системах изучения языков. Его можно использовать в компьютерных АТС, таких как Asterisk . Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (кроме планового обслуживания). Текущая разработка декодеров реального времени ведется в рамках проекта Pocket Sphinx . Архивная статья описывает систему.

Сфинкс 3

Sphinx 2 использовал полунепрерывное представление для акустического моделирования (т. Е. Для всех моделей используется единый набор гауссиан, а отдельные модели представлены как весовой вектор над этими гауссианами). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Последние разработки (в области алгоритмов и аппаратного обеспечения) сделали Sphinx 3 «почти» в реальном времени, хотя еще не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в стадии активной разработки и вместе с SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA / MLLT, MLLR и VTLN, которые повышают точность распознавания (см. Описание этих методов в статье « Распознавание речи» ).

Сфинкс 4

Sphinx 4 - это полностью переписанный движок Sphinx с целью предоставить более гибкую основу для исследований в области распознавания речи, полностью написанную на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла свой вклад в проект в области разработки программного обеспечения. Среди участников были представители MERL, MIT и CMU . (В настоящее время поддерживаются следующие языки: C, C ++, C #, Python, Ruby, Java, Javascript).

Текущие цели развития включают:

разработка нового тренажера (акустической модели)
реализация адаптации динамика (например, MLLR)
улучшение управления конфигурацией
создание графического пользовательского интерфейса для графического дизайна системы

Карманный сфинкс

Версия Sphinx, которая может использоваться во встроенных системах (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает такие функции, как арифметика с фиксированной точкой и эффективные алгоритмы для вычислений GMM .

Смотрите также

использованная литература

внешние ссылки

Домашняя страница CMU Sphinx
Репозиторий Sphinx на GitHub следует рассматривать как окончательный источник кода.
SourceForge размещает старые выпуски и файлы
NeXT в кампусе, осень 1990 г. (Этот документ представляет собой постскриптум, сжатый с помощью gzip.) Университет Карнеги-Меллона - Прорыв в распознавании речи и управлении документами , стр. 12-13

Languages

In other projects