Распознавание речи Windows - Windows Speech Recognition

Распознавание речи Windows
WSRIcon.png
Учебник по распознаванию речи в Windows Vista.PNG
Учебник по распознаванию речи Windows в Windows Vista, изображающий выделение текста в WordPad для удаления.
Разработчики) Microsoft
Первый выпуск 30 ноября 2006 г . ; 14 лет назад ( 30.11.2006 )
Операционная система Windows Vista и более поздние версии
Тип Распознавание речи

Распознавание речи Windows ( WSR ) - это система распознавания речи, разработанная Microsoft для Windows Vista, которая позволяет голосовыми командами управлять пользовательским интерфейсом рабочего стола ; диктовать текст в электронных документах и электронной почте ; перемещаться по веб-сайтам ; выполнять сочетания клавиш ; и управлять курсором мыши . Он поддерживает настраиваемые макросы для выполнения дополнительных или дополнительных задач.

WSR - это платформа распознавания речи с локальной обработкой; он не полагается на облачные вычисления для обеспечения точности, диктовки или распознавания, а адаптируется на основе контекстов, грамматики, образцов речи, учебных занятий и словарей. Он предоставляет персональный словарь, который позволяет пользователям включать или исключать слова или выражения под диктовку и записывать произношения для повышения точности распознавания. Также поддерживаются пользовательские языковые модели.

В Windows Vista WSR был разработан как часть Windows, поскольку распознавание речи ранее было эксклюзивным для таких приложений, как Windows Media Player . Он присутствует в Windows 7 , Windows 8 , Windows 8.1 , Windows RT , Windows 10 и Windows 11 .

История

Microsoft участвовала в исследованиях распознавания и синтеза речи за много лет до WSR. В 1993 году Microsoft наняла Сюэдонга Хуанга из Университета Карнеги-Меллона, чтобы он возглавил работу по развитию речи; Исследования компании привели к разработке Speech API (SAPI), представленного в 1994 году. Распознавание речи также использовалось в предыдущих продуктах Microsoft. Office XP и Office 2003 предоставляли возможности распознавания речи среди приложений Internet Explorer и Microsoft Office ; он также включал ограниченную функциональность речи в Windows 98 , Windows ME , Windows NT 4.0 и Windows 2000 . Windows XP Tablet PC Edition 2002 включает функции распознавания речи с помощью панели ввода планшетного ПК и Microsoft Plus! для Windows XP включены голосовые команды для проигрывателя Windows Media. Однако все это потребовало установки распознавания речи как отдельного компонента; до Windows Vista в Windows не было встроенного или расширенного распознавания речи. Office 2007 и более поздние версии полагаются на WSR для служб распознавания речи.

Виндоус виста

Прототип Aero Wizard распознавания речи в Windows Vista (тогда известный как «Longhorn»), сборка 4093 .

На WinHEC 2002 Microsoft объявила, что Windows Vista (под кодовым названием Longhorn) будет включать усовершенствования в распознавании речи и в таких функциях, как поддержка массива микрофонов, как часть усилий по «обеспечению стабильного качества аудио инфраструктуры для естественного (непрерывного) распознавания речи и ( дискретное) командование и контроль ". Билл Гейтс заявил во время PDC 2003, что Microsoft «встроит в систему речевые возможности - большой шаг вперед для этого в Longhorn, как в распознавании, так и в синтезе в реальном времени»; а предварительные сборки во время разработки Windows Vista включали модуль речи с функциями обучения. В презентации разработчика PDC 2003 говорилось, что Windows Vista будет также включать пользовательский интерфейс для обратной связи и управления микрофоном, а также функции настройки и обучения пользователей. Microsoft пояснила, в какой степени будет интегрировано распознавание речи, заявив в предварительном комплекте разработки программного обеспечения, что «общие сценарии речи, такие как меню и кнопки, обеспечивающие возможность речи, будут включены в масштабах всей системы».

Во время WinHEC 2004 Microsoft включила WSR как часть стратегии повышения производительности мобильных ПК. Позднее Microsoft подчеркнула доступность , новые сценарии мобильности, поддержку дополнительных языков и улучшения восприятия речи пользователем на WinHEC 2005. В отличие от поддержки речи, включенной в Windows XP, которая была интегрирована с панелью ввода планшетного ПК и требовала переключения между отдельными командами и Режимы диктовки, Windows Vista представит специальный интерфейс для ввода речи на рабочем столе и объединит отдельные речевые режимы; раньше пользователи не могли произносить команду после диктовки или наоборот без предварительного переключения между этими двумя режимами. Windows Vista Beta 1 включает встроенное распознавание речи. Чтобы побудить сотрудников компании анализировать WSR на предмет сбоев в программном обеспечении и предоставлять обратную связь, Microsoft предложила своим тестерам возможность выиграть премиальную модель Xbox 360 .

Во время демонстрации Microsoft 27 июля 2006 г. - перед выпуском Windows Vista в производство (RTM) - произошел заметный инцидент, связанный с WSR, который привел к непреднамеренному выводу: «Дорогая тетя, давайте установим так двойное убийственное удаление, выберите все», когда несколько попытки диктовать приводили к последовательным ошибкам вывода; Этот инцидент вызвал серьезные насмешки среди аналитиков и журналистов в аудитории, несмотря на то, что еще одна демонстрация успешности управления приложениями и навигации. Microsoft показала, что эти проблемы были вызваны сбой в усилении звука , из-за которого распознаватель искажал команды и диктовки; глюк был исправлен до выпуска Windows Vista.

Отчеты начала 2007 года показали, что WSR уязвим для злоумышленников, использующих распознавание речи для злонамеренных операций путем воспроизведения определенных звуковых команд через динамики цели; это была первая уязвимость, обнаруженная после того, как Windows Vista стала общедоступной . Microsoft заявила, что, хотя такая атака теоретически возможна, ряд смягчающих факторов и предварительных условий может ограничить ее эффективность или полностью предотвратить ее: для цели потребуется, чтобы распознаватель был активен и настроен для правильной интерпретации таких команд; микрофоны и динамики должны быть включены и на достаточном уровне громкости; а атака потребует, чтобы компьютер выполнял видимые операции и производил звуковую обратную связь, чтобы пользователи не заметили этого. Контроль учетных записей пользователей также запретит выполнение привилегированных операций.

Windows 7

Блокнот диктовки в Windows 7 заменяет опцию «включить диктовку везде» в Windows Vista.

WSR был обновлен для использования Microsoft UI Automation, и его движок теперь использует звуковой стек WASAPI , существенно улучшая его производительность и обеспечивая поддержку эхоподавления , соответственно. Сборщик документов, который может анализировать и собирать текст в электронной почте и документах для контекстуализации пользовательских терминов, повысил производительность и теперь работает периодически в фоновом режиме, а не только после запуска распознавателя. В спящем режиме также улучшена производительность, и для решения проблем с безопасностью распознаватель по умолчанию отключается после того, как пользователи говорят «прекратить прослушивание», вместо того, чтобы быть приостановленным. Windows 7 также предоставляет возможность отправлять данные обучения речи в Microsoft для улучшения будущих версий распознавателя.

Новый интерфейс блокнота диктовки функционирует как временный документ, в который пользователи могут диктовать или вводить текст для вставки в приложения, несовместимые с Text Services Framework . Windows Vista ранее предоставляла для таких приложений возможность «включить диктовку везде».

Windows 8.x и Windows RT

WSR можно использовать для управления пользовательским интерфейсом Metro в Windows 8, Windows 8.1 и Windows RT с помощью команд для открытия панели Charms («Нажмите Windows C»); диктовать или отображать команды в приложениях в стиле Metro («Нажмите Windows Z»); для выполнения задач в приложениях (например, «Перейти к Цельсию» в MSN Weather ); и для отображения всех установленных приложений, перечисленных на начальном экране («Приложения»).

Windows 10

WSR присутствует в приложении « Параметры», начиная с обновления Windows 10 за апрель 2018 г. ( версия 1803 ); изменение впервые появилось в сборке Insider Preview Build 17083. Апрельское обновление 2018 также представляет новую комбинацию клавиш ⊞ Win+ Ctrl+ Sдля активации WSR.

Обзор и особенности

WSR позволяет пользователю управлять приложениями и пользовательским интерфейсом рабочего стола Windows с помощью голосовых команд. Пользователи могут диктовать текст в документах, электронной почте и формах; управлять пользовательским интерфейсом операционной системы; выполнять сочетания клавиш ; и переместите курсор мыши . Можно управлять большинством интегрированных приложений в Windows Vista; сторонние приложения должны поддерживать Text Services Framework для диктовки. Поддерживаются английский (США) , английский (Великобритания) , французский , немецкий , японский , китайский и испанский языки.

При первом запуске WSR представляет мастер настройки микрофона и дополнительное интерактивное пошаговое руководство, с помощью которого пользователи могут начать изучать основные команды, адаптируя распознаватель к своим конкретным характеристикам голоса; По оценкам, обучение займет около 10 минут. Точность распознавателя повышается за счет регулярного использования, которое адаптирует его к контекстам, грамматике, шаблонам и словарям. Также поддерживаются пользовательские языковые модели для конкретных контекстов, фонетики и терминологии пользователей в определенных профессиональных областях, таких как юридические или медицинские. С помощью Windows Search распознаватель также может дополнительно собирать текст в документах, электронной почте, а также при вводе рукописного ввода на планшетном ПК для контекстуализации и устранения неоднозначности терминов для повышения точности; никакая информация не отправляется в Microsoft.

WSR - это платформа распознавания речи с локальной обработкой; он не полагается на облачные вычисления для обеспечения точности, диктовки или распознавания. Речевые профили, в которых хранится информация о пользователях, сохраняются локально. Резервное копирование и перенос профилей можно выполнять с помощью Windows Easy Transfer .

Интерфейс

Распознаватель речи, отображающий информацию в различных режимах; цвет кнопки распознавания меняется в зависимости от взаимодействия с пользователем.

Интерфейс WSR состоит из области состояния, в которой отображаются инструкции, информация о командах (например, если команда не слышна распознавателем) и состояние распознавателя; счетчик голоса отображает визуальную обратную связь об уровнях громкости. Область состояния представляет текущее состояние WSR в трех режимах, перечисленных ниже с соответствующими значениями:

  • Прослушивание : распознаватель активен и ожидает ввода данных пользователем.
  • Спящий : распознаватель не будет слушать и не отвечать на команды, кроме "Начать прослушивание".
  • Выкл . : распознаватель не будет слушать и не реагировать на какие-либо команды; этот режим можно включить, произнеся "Хватит слушать"

Цвета кнопки режима прослушивания распознавателя обозначают различные режимы его работы: синий при прослушивании; сине-серый во сне; серый в выключенном состоянии; и желтый, когда пользователь переключает контекст (например, с рабочего стола на панель задач) или когда голосовая команда неправильно интерпретируется. В области состояния также может отображаться пользовательская информация как часть макросов распознавания речи Windows .

Панель альтернативных вариантов, на которой отображаются предложения по фразе.

Панель альтернатив

Интерфейс устранения неоднозначности панели альтернатив перечисляет элементы, интерпретируемые как относящиеся к произнесенному пользователем слову (ам); если слово или фраза, которую пользователь хотел вставить в приложение, указаны среди результатов, пользователь может произнести соответствующий номер слова или фразы в результатах и ​​подтвердить этот выбор, произнеся «ОК», чтобы вставить его в приложение. Панель альтернатив также появляется при запуске приложений или голосовых команд, которые относятся к более чем одному элементу (например, при произнесении «Запустить Internet Explorer» может отображаться как веб-браузер, так и отдельная версия с отключенными надстройками). Запись ExactMatchOverPartialMatch в реестре Windows может ограничивать команды элементами с точными именами, если в результаты включены более одного экземпляра.

Общие команды

Ниже перечислены общие команды WSR. Слова, выделенные курсивом, обозначают слово, которым можно заменить желаемый элемент (например, «направление» в « направлении прокрутки » можно заменить словом « вниз »). Команда «начать набор» позволяет WSR интерпретировать все команды диктовки как сочетания клавиш.

Команды диктовки: «Новая строка»; «Новый абзац»; «Вкладка»; «Дословное слово »; «Цифровой номер »; «Перейти к слову »; "За словом идти "; "Нет места"; «Перейти к началу предложения»; «Перейти к концу предложения»; «Перейти к началу абзаца»; «Перейти в конец абзаца»; «Перейти в начало документа» «Перейти в конец документа»; «Перейти к имени поля » (например, перейти к адресу , копии или теме ). Специальные символы, такие как запятая, продиктованы произнесением имени специального символа.
Команды навигации:
Сочетания клавиш: «Нажать клавишу клавиатуры »; «Пресс ⇧ Shiftплюс a»; «Пресс-столица b».
Клавиши , которые могут быть прижаты без первой подачи команды пресс включают: ← Backspace, Delete, End, ↵ Enter, Home, Page Down, Page Up, и Tab ↹.
Команды мыши: «Щелкнуть»; «Щелкните это »; "Двойной клик"; «Двойной щелчок , что »; "Отметка"; «Отметьте это »; «Щелкните правой кнопкой мыши»; «Правая кнопка мыши , что »; " MouseGrid ".
Команды управления окном: «Закрыть (или развернуть, свернуть или восстановить) окно»; "Закройте это "; «Закрыть имя открытого приложения »; «Переключить приложения»; «Перейти к названию открытого приложения »; « Направление прокрутки »; « Направление прокрутки в количестве страниц »; "Показать рабочий стол"; « Показать числа ».
Команды распознавания речи: «Начать прослушивание»; «Перестань слушать»; «Показать параметры речи»; «Словарь открытой речи»; «Распознавание речи ходов»; «Минимизировать распознавание речи»; «Восстановить распознавание речи». На английском языке соответствующие команды можно показать, произнеся «Что я могу сказать?». Пользователи также могут запросить распознаватель о задачах в Windows, произнеся «Как указать имя задачи » (например, «Как мне установить принтер?»), Что откроет соответствующую справочную документацию.
Команда MouseGrid отображает сетку чисел на рабочем столе Windows Vista.

MouseGrid

MouseGrid позволяет пользователям управлять курсором мыши, накладывая числа в девяти областях экрана; эти области постепенно сужаются по мере того, как пользователь называет номер (а) области, на которой следует сосредоточиться, до тех пор, пока не будет достигнут желаемый элемент интерфейса. Затем пользователи могут вводить команды, включая «Щелкните номер области », которая перемещает курсор мыши в желаемую область и затем щелкает по ней; и «Отметить номер региона », который позволяет выбрать элемент (например, значок компьютера ) в регионе, который затем можно щелкнуть с помощью предыдущей команды щелчка . Пользователи также могут взаимодействовать с несколькими регионами одновременно.

Показать числа

Приложения и элементы интерфейса, которые не представляют идентифицируемых команд, по-прежнему можно контролировать, попросив систему наложить на них числа с помощью команды Показать числа . После активации произнесение наложенного числа выбирает этот элемент, чтобы пользователь мог открыть его или выполнить другие операции. Show Numbers был разработан таким образом, чтобы пользователи могли взаимодействовать с элементами, которые трудно идентифицировать.

Команда «Показать числа» накладывает числа в обозревателе игр .

Диктант

WSR позволяет диктовать текст в приложениях и Windows. Если при диктовке произошла ошибка, ее можно исправить, произнеся «Правильное слово » или «Исправьте это», и появится панель альтернативных вариантов с предложениями по исправлению; эти предложения можно выбрать, произнеся номер, соответствующий номеру предложения, и произнеся «ОК». Если желаемый элемент не указан среди предложений, пользователь может произнести его, чтобы он мог появиться. В качестве альтернативы пользователи могут произносить «произнеси это по буквам» или «я сам пишу по буквам», чтобы произносить желаемое слово по буквам; пользователи могут использовать свой личный алфавит или фонетический алфавит НАТО (например, «N as in November») при написании.

Несколько слов в предложении могут быть исправлены одновременно (например, если пользователь говорит «диктует», но распознаватель интерпретирует это слово как «вещь», пользователь может указать «исправить вещь», чтобы исправить оба слова одновременно). По умолчанию в английском языке распознается более 100 000 слов.

Речевой словарь

Персональный словарь позволяет пользователям включать или исключать определенные слова или выражения под диктовку. Когда пользователь добавляет в словарь слово, начинающееся с заглавной буквы, пользователь может указать, всегда ли оно должно быть заглавным или заглавные буквы зависят от контекста, в котором произносится слово. Пользователи также могут записывать произношение для слов, добавленных в словарь, чтобы повысить точность распознавания; слова, написанные с помощью стилуса на планшетном ПК для функции распознавания рукописного ввода Windows , также сохраняются. Информация, хранящаяся в словаре, включается в речевой профиль пользователя. Пользователи могут открыть речевой словарь, произнеся команду «показать словарь речи».

Макросы

Интерфейс Aero Wizard, отображающий параметры для создания макросов распознавания речи.

WSR поддерживает настраиваемые макросы через дополнительное приложение от Microsoft, которое позволяет использовать дополнительные команды на естественном языке . В качестве примера этой функциональности макрос электронной почты, выпущенный Microsoft, включает команду на естественном языке, где пользователь может произнести «отправить электронное письмо контакту по теме », что открывает Microsoft Outlook для создания нового сообщения с автоматически вставленными назначенным контактом и темой. Microsoft также выпустила образцы макросов для речевого словаря, для проигрывателя Windows Media, для Microsoft PowerPoint , для синтеза речи , для переключения между несколькими микрофонами, для настройки различных аспектов конфигурации аудиоустройства, таких как уровни громкости, и для общих запросов на естественном языке, таких как как "Какой прогноз погоды?" "Который сейчас час?" и "Какая дата?" Ответы на эти запросы пользователя передаются пользователю в активном режиме преобразования текста в речь Microsoft, установленном на машине.

Приложение или предмет Примеры макросов ( курсивом обозначены слова, которые можно заменить)
Microsoft Outlook Отправить электронное письмо Отправить электронное письмо на Отправить письмо в Makoto Отправить письмо Макото Ямагиши Отправить письмо Макото Ямагиши о Отправить письмо Макото Ямагиши о встрече на этой неделе Обновить контакты электронной почты Outlook
Microsoft PowerPoint Следующий слайд Предыдущий слайд Следующий Предыдущий Перейти на 5 слайдов Вернуться на 3 слайда Слайд 8
Проигрыватель Windows Media Следующий трек Предыдущая песня Играть Бетховена Сыграйте что-нибудь Моцарта Воспроизведите компакт-диск, на котором есть " В Чертоге Горного Короля" Сыграйте что-нибудь, написанное в 1930 году Приостановить музыку
Микрофоны в Windows Микрофон Переключить микрофон Микрофонная решетка микрофон Перейти на линию Переключиться на микрофонную решетку Переключиться на линейный микрофон Переключиться на микрофонный массив микрофонов
Уровни громкости в Windows Отключить динамики Включить звук в динамиках Выключить звук Увеличить громкость Увеличить громкость в 2 раза Уменьшить громкость на 50 Установите громкость на 66
Речевой словарь WSR Экспорт речевого словаря Добавить произношение Добавьте этот [ выделенный текст ] в речевой словарь Заблокировать этот [ выделенный текст ] из речевого словаря Удалите этот [ выделенный текст ] [ Выбранный текст ] звучит как ... Как это [ выделенный текст ] звучит?
Синтез речи Прочтите это [ выделенный текст ] Прочтите следующие 3 абзаца Прочтите предыдущее предложение Пожалуйста, перестань читать Который сейчас час? Какая сегодня дата? Скажите мне прогноз погоды в Редмонде

Пользователи и разработчики могут создавать свои собственные макросы на основе транскрипции и замены текста; выполнение приложения (с поддержкой аргументов командной строки ); горячие клавиши; эмуляция существующих голосовых команд; или комбинация этих предметов. Поддерживаются XML , JScript и VBScript . Макросы могут быть ограничены конкретными приложениями, а правила для макросов могут быть определены программно. Чтобы макрос загружался, он должен храниться в папке « Речевые макросы » в каталоге « Документы» активного пользователя . Все макросы имеют цифровую подпись по умолчанию, если доступен сертификат пользователя, чтобы гарантировать, что сохраненные команды не будут изменены или загружены третьими сторонами; если сертификат недоступен, его может создать администратор. Настраиваемые уровни безопасности могут запретить загрузку неподписанных макросов; предлагать пользователям подписывать макросы после создания; и загружать неподписанные макросы.

Представление

С 2017 года WSR использует Microsoft Speech Recognizer 8.0, версию, представленную в Windows Vista. Что касается диктовки, то без обучения Марк Хахман, старший редактор журнала PC World, обнаружил, что ее точность составляет 93,6% - показатель, который не так точен, как у конкурирующих программ. По данным Microsoft, точность при обучении составляет 99%. Хахман выразил мнение, что Microsoft не обсуждает эту функцию публично из-за инцидента 2006 года во время разработки Windows Vista, в результате чего немногие пользователи знали, что документы могут быть продиктованы в Windows до появления Cortana .

Смотрите также

использованная литература

внешние ссылки