Программное обеспечение для распознавания речи для Linux - Speech recognition software for Linux
По состоянию на начало 2000-х годов для Linux существовало несколько программных пакетов распознавания речи (SR) . Некоторые из них являются бесплатными программами с открытым исходным кодом, а другие - проприетарными программами . Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.
Распознавание речи в Linux
История
В конце 1990-х годов Linux-версия ViaVoice , созданная IBM , стала доступна пользователям бесплатно. В 2002 году разработчик удалил комплект для разработки бесплатного программного обеспечения (SDK).
Статус разработки
В начале 2000-х годов была предпринята попытка разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , которая похожа на Microsoft Cortana , но с открытым исходным кодом.
Краудсорсинг речевого образца
Очень важно составить речевой корпус для создания акустических моделей для проектов распознавания речи . VoxForge - это корпус свободы слова и репозиторий акустических моделей, который был создан с целью сбора расшифрованной речи для использования в проектах распознавания речи. VoxForge принимает Crowdsourced образцов речи и коррекцию признанных речевых последовательностей. Он находится под лицензией GNU General Public License (GPL).
Концепция распознавания речи
Первый шаг - начать запись аудиопотока на компьютер. У пользователя есть два основных варианта обработки:
- Распознавание дискретной речи (DSR) - полностью обрабатывает информацию на локальной машине. Это относится к автономным системам, в которых все аспекты SR полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (IP) и предотвращения нежелательного наблюдения (2018 г.).
- Удаленный или серверный SR - передает звуковой речевой файл на удаленный сервер для преобразования файла в текстовый строковый файл. Благодаря новейшим схемам облачного хранения и интеллектуального анализа данных, этот метод упрощает наблюдение, кражу информации и внедрение вредоносных программ.
Удаленное распознавание ранее использовалось смартфонами, поскольку им не хватало производительности, оперативной памяти или хранилища для обработки распознавания речи в телефоне. Эти ограничения в значительной степени преодолены, хотя серверная SR на мобильных устройствах остается универсальной.
Распознавание речи в браузере
Распознавание дискретной речи может выполняться в веб-браузере и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с внутренними проблемами безопасности, указанными выше.
- Удаленный : служба диктовки записывает звуковую дорожку пользователя через веб-браузер.
- DSR : есть решения, которые работают только на клиенте, без отправки данных на серверы.
Механизмы распознавания свободной речи
Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основных нативных решений. Это не приложения для конечных пользователей. Это библиотеки программирования, которые можно использовать для разработки приложений для конечных пользователей.
- CMU Sphinx - это общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллона.
- HTK - самое известное и широко используемое программное обеспечение для распознавания речи до Kaldi.
- Julius - это высокопроизводительное двухпроходное программное обеспечение для декодирования непрерывной речи с большим словарным запасом (LVCSR) для исследователей и разработчиков, связанных с речью.
- Kaldi - это набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
- Mozilla DeepSpeech разрабатывает механизм преобразования речи в текст с открытым исходным кодом на основе исследования Baidu по глубокой речи.
Возможные активные проекты:
- Parlatype, аудиоплеер для ручной транскрипции речи для рабочего стола GNOME, начиная с версии 1.6, обеспечивает непрерывное распознавание речи с помощью CMU Sphinx.
- Lera (Распознавание речи с большим словарным запасом) на основе Simon и CMU Sphinx для KDE.
- Speech использует механизм распознавания речи Google для поддержки диктовки на многих языках.
- Управление речью: это приложение на основе Qt, которое использует инструменты CMU Sphinx , такие как SphinxTrain и PocketSphinx, для предоставления утилит распознавания речи, таких как управление рабочим столом, диктовка и расшифровка на рабочий стол Linux.
- Platypus - это прокладка с открытым исходным кодом, которая позволит проприетарному Dragon NaturallySpeaking, работающему под Wine, работать с любым приложением Linux X11.
- FreeSpeech от разработчика Platypus - это бесплатное кроссплатформенное настольное приложение с открытым исходным кодом для GTK, которое использует инструменты CMU Sphinx для голосовой диктовки, изучения языка и редактирования в стиле Dragon NaturallySpeaking.
- Vedics (Voice Enabled Desktop Interaction and Control System) - речевой помощник для среды GNOME.
- NatI - это многоязычная система голосового управления, написанная на Python.
- SphinxKeys позволяет пользователю вводить клавиши клавиатуры и щелчки мыши, говоря в микрофон.
- VoxForge - это корпус свободы слова и репозиторий акустических моделей для движков распознавания речи с открытым исходным кодом.
- Саймон стремится быть чрезвычайно гибким, чтобы компенсировать диалекты или даже нарушения речи. Он использует HTK-Julius или CMU SPHINX, работает в Windows и Linux и поддерживает обучение.
- Проект Jasper Jasper - это платформа с открытым исходным кодом для разработки постоянно работающих приложений с голосовым управлением. Это встроенный интерфейс Raspberry Pi для CMU Sphinx или Julius.
Разработчики могут создавать программное обеспечение для распознавания речи Linux, используя существующие пакеты, полученные из проектов с открытым исходным кодом.
Неактивные проекты:
- CVoiceControl - это независимая от KDE и X Window версия своего предшественника KVoiceControl. Владелец прекратил разработку на альфа-стадии разработки.
- Open Mind Speech, часть инициативы Open Mind Initiative, направлена на разработку бесплатных (GPL) инструментов и приложений распознавания речи, а также на сбор речевых данных. Производство закончилось в 2000 году.
- PerlBox - это управление и речевой вывод на основе Perl . Разработка закончилась на начальных этапах в 2004 году.
- Xvoice Пользовательское приложение, обеспечивающее диктовку и командное управление любому X-приложению. Разработка завершилась в 2009 году во время ранних испытаний проекта. (для работы требуется проприетарный ViaVoice)
Собственные движки распознавания речи
- Janus Recognition Toolkit (JRTk) - это набор инструментов для распознавания речи с закрытым исходным кодом, в основном ориентированный на Linux, разработанный Interactive Systems Laboratories, разработанным в Университете Карнеги-Меллона и Технологическом институте Карлсруэ, для которого доступны коммерческие и исследовательские лицензии.
Голосовое управление и сочетания клавиш
Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд компьютеру или устройству. Голосовое управление обычно требует гораздо меньшего словарного запаса, поэтому его гораздо проще реализовать.
Простое программное обеспечение в сочетании с сочетаниями клавиш имеет самый ранний потенциал для практически точного голосового управления в Linux.
Запуск программного обеспечения для распознавания речи Windows с Linux
Через уровень совместимости
С помощью Wine можно использовать такие программы, как Dragon NaturallySpeaking, в Linux , хотя могут возникнуть некоторые проблемы в зависимости от того, какая версия используется.
Через виртуализированную Windows
Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Используя бесплатное программное обеспечение для виртуализации , можно запускать Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку на / с виртуальной машины, что позволяет легко переносить продиктованный текст на / с виртуальной машины.