Программное обеспечение для распознавания речи для Linux - Speech recognition software for Linux

По состоянию на начало 2000-х годов для Linux существовало несколько программных пакетов распознавания речи (SR) . Некоторые из них являются бесплатными программами с открытым исходным кодом, а другие - проприетарными программами . Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.

Распознавание речи в Linux

История

В конце 1990-х годов Linux-версия ViaVoice , созданная IBM , стала доступна пользователям бесплатно. В 2002 году разработчик удалил комплект для разработки бесплатного программного обеспечения (SDK).

Статус разработки

В начале 2000-х годов была предпринята попытка разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , которая похожа на Microsoft Cortana , но с открытым исходным кодом.

Краудсорсинг речевого образца

Очень важно составить речевой корпус для создания акустических моделей для проектов распознавания речи . VoxForge - это корпус свободы слова и репозиторий акустических моделей, который был создан с целью сбора расшифрованной речи для использования в проектах распознавания речи. VoxForge принимает Crowdsourced образцов речи и коррекцию признанных речевых последовательностей. Он находится под лицензией GNU General Public License (GPL).

Концепция распознавания речи

Первый шаг - начать запись аудиопотока на компьютер. У пользователя есть два основных варианта обработки:

  • Распознавание дискретной речи (DSR) - полностью обрабатывает информацию на локальной машине. Это относится к автономным системам, в которых все аспекты SR полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (IP) и предотвращения нежелательного наблюдения (2018 г.).
  • Удаленный или серверный SR - передает звуковой речевой файл на удаленный сервер для преобразования файла в текстовый строковый файл. Благодаря новейшим схемам облачного хранения и интеллектуального анализа данных, этот метод упрощает наблюдение, кражу информации и внедрение вредоносных программ.

Удаленное распознавание ранее использовалось смартфонами, поскольку им не хватало производительности, оперативной памяти или хранилища для обработки распознавания речи в телефоне. Эти ограничения в значительной степени преодолены, хотя серверная SR на мобильных устройствах остается универсальной.

Распознавание речи в браузере

Распознавание дискретной речи может выполняться в веб-браузере и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с внутренними проблемами безопасности, указанными выше.

  • Удаленный : служба диктовки записывает звуковую дорожку пользователя через веб-браузер.
  • DSR : есть решения, которые работают только на клиенте, без отправки данных на серверы.

Механизмы распознавания свободной речи

Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основных нативных решений. Это не приложения для конечных пользователей. Это библиотеки программирования, которые можно использовать для разработки приложений для конечных пользователей.

  • CMU Sphinx - это общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллона.
  • HTK - самое известное и широко используемое программное обеспечение для распознавания речи до Kaldi.
  • Julius - это высокопроизводительное двухпроходное программное обеспечение для декодирования непрерывной речи с большим словарным запасом (LVCSR) для исследователей и разработчиков, связанных с речью.
  • Kaldi - это набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
  • Mozilla DeepSpeech разрабатывает механизм преобразования речи в текст с открытым исходным кодом на основе исследования Baidu по глубокой речи.

Возможные активные проекты:

  • Parlatype, аудиоплеер для ручной транскрипции речи для рабочего стола GNOME, начиная с версии 1.6, обеспечивает непрерывное распознавание речи с помощью CMU Sphinx.
  • Lera (Распознавание речи с большим словарным запасом) на основе Simon и CMU Sphinx для KDE.
  • Speech использует механизм распознавания речи Google для поддержки диктовки на многих языках.
  • Управление речью: это приложение на основе Qt, которое использует инструменты CMU Sphinx , такие как SphinxTrain и PocketSphinx, для предоставления утилит распознавания речи, таких как управление рабочим столом, диктовка и расшифровка на рабочий стол Linux.
  • Platypus - это прокладка с открытым исходным кодом, которая позволит проприетарному Dragon NaturallySpeaking, работающему под Wine, работать с любым приложением Linux X11.
  • FreeSpeech от разработчика Platypus - это бесплатное кроссплатформенное настольное приложение с открытым исходным кодом для GTK, которое использует инструменты CMU Sphinx для голосовой диктовки, изучения языка и редактирования в стиле Dragon NaturallySpeaking.
  • Vedics (Voice Enabled Desktop Interaction and Control System) - речевой помощник для среды GNOME.
  • NatI - это многоязычная система голосового управления, написанная на Python.
  • SphinxKeys позволяет пользователю вводить клавиши клавиатуры и щелчки мыши, говоря в микрофон.
  • VoxForge - это корпус свободы слова и репозиторий акустических моделей для движков распознавания речи с открытым исходным кодом.
  • Саймон стремится быть чрезвычайно гибким, чтобы компенсировать диалекты или даже нарушения речи. Он использует HTK-Julius или CMU SPHINX, работает в Windows и Linux и поддерживает обучение.
  • Проект Jasper Jasper - это платформа с открытым исходным кодом для разработки постоянно работающих приложений с голосовым управлением. Это встроенный интерфейс Raspberry Pi для CMU Sphinx или Julius.

Разработчики могут создавать программное обеспечение для распознавания речи Linux, используя существующие пакеты, полученные из проектов с открытым исходным кодом.

Неактивные проекты:

  • CVoiceControl - это независимая от KDE и X Window версия своего предшественника KVoiceControl. Владелец прекратил разработку на альфа-стадии разработки.
  • Open Mind Speech, часть инициативы Open Mind Initiative, направлена ​​на разработку бесплатных (GPL) инструментов и приложений распознавания речи, а также на сбор речевых данных. Производство закончилось в 2000 году.
  • PerlBox - это управление и речевой вывод на основе Perl . Разработка закончилась на начальных этапах в 2004 году.
  • Xvoice Пользовательское приложение, обеспечивающее диктовку и командное управление любому X-приложению. Разработка завершилась в 2009 году во время ранних испытаний проекта. (для работы требуется проприетарный ViaVoice)

Собственные движки распознавания речи

Голосовое управление и сочетания клавиш

Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд компьютеру или устройству. Голосовое управление обычно требует гораздо меньшего словарного запаса, поэтому его гораздо проще реализовать.

Простое программное обеспечение в сочетании с сочетаниями клавиш имеет самый ранний потенциал для практически точного голосового управления в Linux.

Запуск программного обеспечения для распознавания речи Windows с Linux

Через уровень совместимости

С помощью Wine можно использовать такие программы, как Dragon NaturallySpeaking, в Linux , хотя могут возникнуть некоторые проблемы в зависимости от того, какая версия используется.

Через виртуализированную Windows

Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Используя бесплатное программное обеспечение для виртуализации , можно запускать Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку на / с виртуальной машины, что позволяет легко переносить продиктованный текст на / с виртуальной машины.

Смотрите также

Рекомендации

внешняя ссылка