Распознавание речи - Speech recognition


Из Википедии, свободной энциклопедии

Распознавание речи является междисциплинарным подполом в компьютерной лингвистике , разрабатывающую методику и технологию , которая позволяет признание и перевод разговорного языка в текст с помощью компьютерной техники. Он также известен как автоматическая распознавание речи ( ASR ), распознавание речи компьютера или речь в текст ( STT ). Она включает в себя знания и исследования в области лингвистики , информатики и электротехнические поля.

Некоторые системы распознавания речи требуют «обучения» (называемый также «регистрации») , где человек говорящий читает текст или выделенный словарь в систему. Система анализирует конкретный голос человека и использует его для точной настройки распознавания речи этого человека, что приводит к повышению точности. Системы , которые не используют обучение называют «динамик независимой» система. Системы, использующие обучение называют «динамиком зависимым».

Приложения распознавания речи включают в себя пользовательские интерфейсы голоса , такие как голосовой набор (например , «звонок домой»), маршрутизация вызовов (например , «Я хотел бы сделать звонок»), Domotic управление прибором, поиск (например , найти подкасты , где отдельные слова были произнесены ), простой ввод данных (например, для ввода номера кредитной карты), подготовку структурированных документов (например, отчет радиологии), определяющих характеристик акустических систем , речи в текст обработки (например, текстовые процессоры или электронные письма ), а также самолеты (обычно называют прямой ввод голоса ).

Термин распознавание речи или идентификация диктора относится к идентификации говорящего, а не то , что они говорят. Осознавая динамик может упростить задачу перевода речи в системах , которые прошли обучение по голосу конкретного человека или он может быть использован для проверки подлинности или проверки личности говорящего как часть процесса обеспечения безопасности.

С точки зрения технологии распознавания речи имеет длинную историю с несколькими волнами основных нововведений. Совсем недавно, поле извлек выгоду из достижений в области глубокого изучения и больших объемов данных . Успехи подтверждаются не только всплеском научных работ , опубликованных в этой области, но , что более важно в мировой индустрии принятии ряда глубоких методов обучения в проектировании и развертывании систем распознавания речи.

содержание

история

Основные направления роста были: словарный запас размер, динамик независимость и скорость обработки.

Pre-1970

  • 1952 - Три Bell Labs исследователей, Стивен Balashek, Р. Biddulph и KH Davis построили систему под названием «Одри» для распознавания цифр одного громкоговорителя. Их система находится в формантах в спектре мощности каждого произнесения.
  • 1960 - Гуннар Фант разработал и опубликовал модель исходного фильтра производства речи .
  • 1962 - IBM продемонстрировала это 16-слово возможности распознавания речи «Shoebox» машины на Всемирной выставке 1962 года.
  • 1969 - Финансирование в Bell Labs высохла в течение нескольких лет , когда в 1969 году влиятельный Джон Пирс написал открытое письмо , которое было критически и defunded исследований распознавания речи. Это defunding продолжалось до тех пор , пока Пирс вышел в отставку и Джеймс Л. Фланаган взял на себя.

Радж Редди был первым человеком , чтобы взять на себя распознавания слитной речи в качестве аспиранта в Стэнфордском университете в конце 1960 - х годов. Прежние системы требуются пользователи , чтобы сделать паузу после каждого слова. Система Reddy выдала голосовые команды для игры в игру в шахматы .

Примерно в это же время советские исследователи изобрели динамическое время коробление алгоритм (DTW) и использовал его , чтобы создать распознаватель , способный работать на 200 слов словаря. DTW обработке речи, разделив его на коротких кадров, например сегментов 10 мс, и обработка каждого кадра как единое целое. Хотя DTW будет заменено более поздними алгоритмами, методика осуществляется на. Достижение независимость спикера остается нерешенной в этот период времени.

1970-1990

  • 1971 - DARPA финансируемой пять лет для понимания речи исследований , речь исследования распознавания ищет минимальный размер словаря 1000 слов. Они думали , что речь понимание будет иметь ключевое значение для достижения прогресса в речевом признании , это позже оказалось неправда. BBN , IBM , Карнеги - Меллон и научно - исследовательский институт Stanford все участвовали в программе. Это возродили распознавания речи исследование после письма Джона Пирса.
  • 1972 - The IEEE Acoustics, речь и группа обработки сигналов провели конференцию в Ньютоне, штат Массачусетс.
  • 1976 Первый ICASSP был проведен в Филадельфии , который с тех пор был основным местом для публикации исследований распознавания речи.

В конце 1960 - х годов Леонард Baum разработал математику цепей Маркова в Институте анализа обороны . Десять лет спустя, в КМУ, студенты Раджа Редди Джеймс Бейкер и Джанет М. Бейкер начал использовать скрытой марковской модели (СММ) для распознавания речи. Джеймс Бейкер узнал о ПММАХ от летней работы в Институте анализа обороны во время его высшего образования. Использование ПММ- позволило исследователям объединить различные источники знаний, такие как акустика, языка и синтаксиса в единой вероятностной модели.

  • К середине 1980-х годов компании IBM Фред Елинек в команде создал голос активированного пишущую машинку под названием Tangora, которая могла бы справиться с 20000 слов словаря статистический подход Елинек кладется меньше внимания эмулировать на пути процессов мозга человека и понимает речь в пользу использования статистических методов моделирования , таких как СММ. (Группа Елинький в независимо обнаружила применение ПММ к речи.) Это было спорно с лингвистами , поскольку СММЫ слишком упрощенные для объяснения многих общих черт человеческих языков. Тем не менее, HMM оказался весьма полезным средством для моделирования речи и заменить динамическое время перекос стать доминирующим алгоритм распознавания речи в 1980 году .
  • 1982 - Dragon Systems, основанная Джеймсом и Джанет М. Бейкер , был один несколько конкурентов компании IBM.

Практическое распознавание речи

В 1980 - х годах также видели введение п-граммовая модель языка.

  • 1987 - The назад-офф модели позволило модели языка использовать несколько длины п-граммы, и CSELT использовали СММ распознавать языки.

Большая часть прогресса в области причитаются быстро растущие возможности компьютеров. В конце программы DARPA в 1976 году, лучший компьютер для исследователей был PDP-10 с 4 Мб оперативной памяти. Это может занять до 100 минут , чтобы декодировать только 30 секунд речи.

Два практических продуктов были:

  • 1987 - распознаватель от Kurzweil прикладной разведки
  • 1990 - Дракон диктат, потребитель продукт , выпущенный в 1990 году AT & T развернула службу обработки вызовов Voice Recognition в 1992 году для маршрутизации телефонных звонков без использования человеческого оператора. Эта технология была разработана Лоуренс Рабинер и другими в Bell Labs.

К этому моменту, словарный запас типичной системы коммерческого распознавания речи было больше среднего человеческого лексикона. Бывший студент Раджа Редди, Xuedong Huang , разработала Sphinx-II системы при КМУ. Система Sphinx-II был первым , чтобы сделать динамик независимым, большой словарный запас, непрерывное распознавание речи , и это было лучшее выступление в 1992 году оценки DARPA в. Обработка непрерывной речи с большим словарем был важной вехой в истории распознавания речи. Хуан пошел к найденному в группе распознавания речи в Microsoft в студента 1993. Раджа Редди Кай-Фу Ли присоединился к компании Apple , где в 1992 году он участвовал в разработке речевого интерфейса прототип компьютера Apple , известный как Каспер.


Lernout & Hauspie , Бельгия на основе распознавания речи компанию, приобрела несколько других компаний, в том числе Kurzweil прикладной разведки в 1997 году и Dragon Systems в 2000 году речевых технологий L & H была использована в Windows XP операционной системы. L & H был лидером отрасли , пока бухгалтерский скандал не принес конец компании в 2001 году речевую технологию от L & H был куплен ScanSoft , который стал Nuance в 2005 году Apple , первоначально лицензированного программного обеспечения от Nuance для обеспечения возможности распознавания речи в ее цифровой помощник Siri .

2000-е годы

В 2000 - е годы DARPA спонсором двух программ распознавания речи: Эффективное Доступное многоразовые речи в текст (колоса) в 2002 году и Глобальный автономный язык эксплуатации (ГЕЙЛ). : Четыре команды в программе EARS участвовали IBM , команда во главе с BBN с LIMSI и Univ. Питтсбурга , Кембриджский университет , и команда состоит из ИКСИ , SRI и Университета штата Вашингтон . Уши финансировали коллекцию Электрощитового телефона речевого корпуса , содержащий 260 часов записанных разговоров с более чем 500 колонок. Программа ГЕЙЛ сосредоточена на арабском и мандарин трансляцию новостей речи. Google «s первые усилия по распознаванию речи пришли в 2007 году после найма некоторых исследователей из Nuance. Первый продукт был GOOG-411 , служба каталогов телефона на базе. Запись от GOOG-411 дали ценные данные , которые помогли Google улучшить свои системы распознавания. Google Voice Search теперь поддерживается в более чем 30 языках.

В Соединенных Штатах, Агентство национальной безопасности сделало использование типа распознавания речи для ключевого слова пятнистости , по крайней мере , 2006 Этой технология позволяет аналитикам поиск в больших объемах записанных разговоров и изолировать упоминания ключевых слов. Записи могут быть проиндексированы и аналитики могут выполнять запросы к базе данных , чтобы найти разговоры интереса. Некоторые исследовательские правительственные программы , ориентированные на разведках приложениях распознавания речи, программы Ушей игрового например , DARPA и IARPA «s Babel программы.

В начале 2000 - х годов, распознавание речи по - прежнему доминируют традиционные подходы , такие как Скрытые Марковские модели в сочетании с Feedforward искусственных нейронных сетей . Сегодня, однако, многие аспекты распознавания речи были перенесены с помощью глубокого изучения методом , который называется Long кратковременная память (LSTM), в рецидивирующего нейронной сети , опубликованной Зепп Hochreiter & Jürgen Шмидхубера в 1997 году RNNs LSTM избежать схода проблемы градиента и может научиться «Очень Deep Learning» задача , которые требуют воспоминаний о событиях , которые произошли тысячи дискретных временных шагов назад, что важно для речи. Около 2007 года LSTM обучен Коннекшионистская височной классификация (ККА) начал опережать традиционные средства распознавания речи в некоторых приложениях. В 2015 году, распознавания речи Google, как сообщается , произошел резкий скачок производительности на 49% через КТК обученной LSTM, которая теперь доступна через Google Voice для всех пользователей смартфонов.

Использование глубокого упреждения (непериодические) сети для акустического моделирования было введены во время последней части 2009 по Джеффри Хинтону и его студентам в Университете Торонто и Ли Дэн и его коллегами из Microsoft Research, первоначально в совместной работе между Microsoft и университетом Торонто , который впоследствии был расширен за счет включения в IBM и Google (отсюда «общие взгляды четырех исследовательских групп» подзаголовок в их обзорной статье 2012). Исследование исполнительный Microsoft назвал это нововведение «наиболее резкое изменение в точности с 1979 года». В отличии от стационарных постепенных улучшений в течение последних нескольких десятилетий, применение глубокого обучения снизилось частота ошибок слов на 30%. Это нововведение было быстро принято через поле. Исследователи начали использовать глубокие методы обучения для моделирования языка , а также.

В долгой истории распознавания речи, как мелкой форме и глубокой форме (например , рецидивирующие сетей) искусственных нейронных сетей были исследованы в течение многих лет , в течение 1980 - х, 1990 - х годов и несколько лет в 2000 - е годы. Но эти методы не отвоевали неравномерную внутренняя ручные ремесла гауссова модель смеси / Hidden Markov модель технологии (GMM-НММ) на основе генеративных моделей речи обученных дискриминационно. Ряд ключевых трудностей были методологический проанализирован в 1990 - х годах, в том числе градиента уменьшения и слабой временной корреляционной структуру в нейронных моделях прогнозирования. Все эти трудности были в дополнение к отсутствию большого данных обучения и большой вычислительной мощности в эти первые дни. Большинство исследователи распознавания речи , которые понимают такие барьеры , следовательно , впоследствии отошли от нейронных сетей проводить порождающие методы моделирования до недавнего возрождения глубокого обучения начиная примерно 2009-2010 , что удалось преодолеть все эти трудности. Хинтон и др. и Дэн и соавт. рассмотрел часть этой недавней истории о том , как их взаимодействие друг с другом , а затем с коллегами по четырем группам (Университет Торонто, Microsoft, Google и IBM) зажигается ренессанс применения глубокой Feedforward нейронных сетей для распознавания речи.

2010-е годы

К началу 2010 - х годов речи распознавания, которая также называется распознавания речи явно отличается от зр Икер признания и динамиком независимости считается крупным прорывом. До тех пор, системы не требовали «учебного» периода. В 1987 году объявления для куклы несло подзаголовок «Наконец, куклу , которая понимает вас.» - несмотря на то , что он был описан как «дети , которые могли бы тренироваться , чтобы ответить на их голос».

Модели, методы и алгоритмы

Оба акустическое моделирование и моделирование языка является важной частью современных алгоритмов распознавания речи статистически на основе. Скрытые марковские модели (СММ) широко используются во многих системах. Моделирование Язык также используется во многих других приложениях обработки естественного языка , таких как классификации документов или статистической машинного перевода .

Скрытые марковские модели

Современные универсальные системы распознавания речи основаны на скрытых марковских моделей. Эти статистические модели , которые выводят последовательность символов или количества. СММ используются в распознавании речи , поскольку речевой сигнал можно рассматривать как кусочно - стационарный сигнал или стационарный сигнал короткое времени. За короткий временной шкале (например, 10 миллисекунд), речь может быть аппроксимирована в качестве стационарного процесса . Речь можно рассматривать в качестве модели Маркова для многих случайных целей.

Еще одна причина , почему СММ пользуются популярностью потому , что они могут быть обучены автоматически и просты и вычислительно возможно использовать. В распознавания речи, скрытая модель Маркова будет выводить последовательность п - мерных вещественных векторов (с п быть небольшим целым числом, например, 10), выводит одну из этих каждые 10 миллисекунд. Векторы будут состоять из кепстральных коэффициентов, которые получаются путем осуществления преобразования Фурье короткого временного окна речи и декорреляции спектра с использованием косинусного преобразования , а затем принимать первые (наиболее значимые) коэффициенты. Скрытые марковские модели будут иметь тенденцию иметь в каждом штате статистического распределения , которое представляет собой смесь по диагонали ковариационных гауссиан, что даст вероятность для каждого наблюдаемого вектора. Каждое слово, или (для более систем распознавания речи вообще), каждая фонема , будет иметь различное распределение выходного сигнала; скрытая модель Маркова для последовательности слов или фонем производится путем конкатенации отдельных обученных скрытых марковских моделей для отдельных слов и фонем.

Выше описаны основные элементы наиболее распространенных, HMM подхода к распознаванию речи. Современные системы распознавания речи используют различные комбинации ряда стандартных методик , с тем чтобы улучшить результаты по сравнению с основным подходом , описанным выше. Типичная большая словарный запас система должна контекстная зависимость для фонем (так фонемы с разной левой и правой контексте имеют различные реализации как состояния ТММ); он будет использовать кепстральное нормализации для нормализации для различных условий колонка и записи; для дальнейшей нормализации акустических систем могут использовать вокальную длину тракта нормализацию (VTLN) для мужской и женской нормализации и максимального правдоподобие линейной регрессии (MLLR) для дополнительной адаптации общего динамика. Функции будут иметь так называемую дельту и дельту-дельта коэффициенты для захвата динамики речи и в дополнении можно использовать гетероскедастический линейный дискриминантный анализ (HLDA); или может пропустить дельта и дельту-дельта коэффициенты и использовать сплайсинг и ЛД основанной проекции возможно, с последующим гетероскедастическим линейным дискриминантным анализом или глобальным пол-связанной дисперсией совместного преобразования (также известной как максимальное правдоподобие линейного преобразованием , или MLLT). Многие системы используют так называемые дискриминационные методы обучения , которые распределяют с чисто статистическим подходом к оценке параметров СММ и вместо того, чтобы оптимизировать некоторые классификации связанных с мерой обучающих данных. Примеры являются максимальной взаимной информацией (MMI), минимальная ошибка классификации (MCE) и минимальная ошибка телефона (П).

Расшифровка речи (термин для того, что происходит , когда система представлена с новым высказыванием и должен вычислить наиболее вероятный источник предложения), вероятно , использовать алгоритм Витерби , чтобы найти лучший путь, и здесь есть выбор между динамически создавая сочетание скрытой марковской модели, которая включает в себя как акустическую и информацию языковой модели, и объединения ее статически заранее (на конечный преобразователь , или FST, подход).

Возможное улучшение декодирования , чтобы сохранить набор хороших кандидатов вместо того , чтобы просто держать лучший кандидат, и использовать лучшую функцию подсчета очков ( снова забили ) , чтобы оценить эти хорошие кандидат , чтобы мы могли выбрать лучший в соответствии с этим изысканным счетом , Набор кандидатов может быть либо в виде списка ( N-лучший список подхода) или как подмножество моделей (а решетка ). Re скоринг обычно делается, пытаясь свести к минимуму риск Байеса (или приближенное от него): Вместо того , чтобы брать исходное предложение с максимальной вероятностью, мы пытаемся принять предложение , что сводит к минимуму продолжительность данной функции потерь в отношении всех возможных транскрипций (то есть, мы принимаем предложение , которое минимизирует среднее расстояние до других возможных предложений , взвешенных по их оценкам , вероятность). Функция потерь, как правило, расстояние Левенштейн , хотя это может быть разными расстояниями для решения конкретных задач; множество возможных транскрипций, конечно, обрезают поддерживать удобство манипулирования. Эффективные алгоритмы были разработаны , чтобы повторно оценка решетки , представленной в виде взвешенные конечные преобразователи с редактированием расстоянием представляли себя в качестве конечного преобразователя проверочного некоторых предположений.

Динамическое время коробление (DTW) распознавание речи основанной

Динамическое время коробление подход, который исторически использовался для распознавания речи, но в настоящее время в значительной степени были вытеснены более успешного подхода HMM основе.

Динамическое время коробление представляет собой алгоритм для измерения подобия между двумя последовательностями, которые могут изменяться во время или скорости. Например, сходство в ходьбе моделях будет обнаружено, даже если в одном видео люди медленно и, если ходить в другом он или она шла быстрее, или даже при наличии ускорений и торможение в течение одного наблюдения. DTW была применена к видео, аудио и графики - в самом деле, любые данные, которые могут быть превращены в линейное представление могут быть проанализированы с DTW.

Хорошо известно применение было автоматическое распознавание речи, чтобы справиться с различными скоростями говорящих. В общем, это метод, который позволяет компьютеру, чтобы найти оптимальное соответствие между двумя заданными последовательностями (например, временных рядов) с некоторыми ограничениями. То есть, последовательности являются «деформированные» нелинейно, чтобы соответствовать друг другу. Этот метод выравнивания последовательностей часто используется в контексте скрытых марковских моделей.

Нейронные сети

Нейронные сети появились как привлекательный подход к моделированию акустического в ASR в конце 1980-х годов. С тех пор, нейронные сети были использованы во многих аспектах распознавания речи, таких как фонемы классификация, изолированное распознавания слов, аудиовизуальное распознавание речи, распознавание аудиовизуального динамика и адаптация акустических систем.

В отличие от ПММ, нейронные сети не делают никаких предположений о функции статистических свойств и имеют несколько качеств , что делает их привлекательными модели распознавания для распознавания речи. При использовании для оценки вероятности полнометражного сегмента речи, нейронные сети позволяют дискриминационный обучение естественным и эффективным способом. Несколько предположений о статистике входных функций производится с нейронными сетями. Однако, несмотря на их эффективность в классификации краткосрочных временных единиц , таких как отдельные фонемы и отдельных слов, нейронные сети редко бывают удачными для непрерывных задач распознавания, в основном из - за отсутствия способности моделировать временные зависимости.

Однако, в последнее время LSTM Рекуррентные нейронные сети (RNNs) и Time Delay Neural Networks (TDNN-х) были использованы, которые, как было показано, чтобы быть в состоянии идентифицировать скрытые временные зависимости и использовать эту информацию для выполнения задачи распознавания речи.

Глубокие нейронные сети и шумодав автоассоциатор были также экспериментировали с , чтобы решить эту проблему эффективным образом.

Из-за неспособности Feedforward нейронных сетей для моделирования временных зависимостей, альтернативный подход заключается в использовании нейронных сетей в качестве предварительной обработки, например, особенность трансформации, снижения размерности, для распознавания на основе СММ.

Глубокое упреждение и периодические нейронные сети

Глубокое упреждение нейронная сеть (DNN) является искусственной нейронной сетью с несколькими скрытых слоями единиц между входными и выходным слоями. Подобно неглубоких нейронных сетей, DNNS может моделировать сложные нелинейные отношения. DNN архитектуры генерировать композиционные модели, где дополнительные слои позволяют состав функций из нижних слоев, что дает огромную способность к обучению и , таким образом , потенциал моделирования сложных моделей речевых данных.

Успех DNNS распознавания речи большого словарной произошел в 2010 году промышленными исследователями, в сотрудничестве с научными исследователями, где большие выходные слоями DNN на основе контекста зависит ТММЫ состояний , построенных дерева решений были приняты. См всесторонних обзоров этого развития и о состоянии искусства в октябре 2014 года в недавнем Springer книге из Microsoft Research. Смотрите также сопутствующим справочным автоматического распознавания речи и влияние различных машинного обучения парадигм в том числе особенно глубокого изучения в последнее время обзорных статей.

Одним из основополагающих принципов глубокого обучения является покончить с ручной особенностью техникой и использовать исходные функции. Этот принцип был впервые успешно исследовал в архитектуре глубокой автоассоциатор на «сырую» спектрограмме или линейных функциях фильтра банка, показывая свое превосходство над особенностями Mel-Cepstral , которые содержат несколько этапов фиксированного преобразования из спектрограмм. Истинная «сырая» особенность речи, сигналы, совсем недавно были показана , для получения превосходных более масштабных результатов распознавания речи.

Впритык автоматическое распознавание речи

С 2014 года там было много исследований интереса « от конца до конца» ASR. Традиционные фонетическая основой (т.е. все HMM основанная модель) подходы , необходимая отдельные компоненты и обучение произношению, акустическая и языковая модель . Впритык модели совместно изучить все компоненты распознаватель речи. Это полезно , так как это упрощает процесс обучения и процесс развертывания. Например, языковая модель N-грамм требуется для всех HMM на основе систем, а также типичная модель языка п-граммы часто занимает несколько гигабайта памяти делает их непрактичными для развертывания на мобильных устройствах. Следовательно, современная коммерческое ASR системы от Google и Apple , (по состоянию на 2017 г.) развернута на облаке и требует подключений к сети , в отличие от устройства на местном уровне.

Первая попытка конца в конец ASR была с Коннекшионистской височной классификацией (СТС) системами на основе введенной Алекс Грейвз в Google DeepMind и Навдип Jaitly из Университета Торонто в 2014 году модель состояла из повторяющихся нейронных сетей и слой СТС. Совместно, модель РНН-CTC изучает произношение и акустическую модель вместе, однако он не способен изучать язык из - за условную независимость предположений , похожих на СММЫ. Следовательно, модель СТС может непосредственно научиться карта речи акустики на английский языке символов, но модели делают многие распространенных орфографические ошибки и должны полагаться на отдельной языковую модель для очистки стенограмм. Позже, Baidu расширена на работе с очень большими наборами данных и продемонстрировал некоторый коммерческий успех в китайском китайском и английском языках. В 2016 году Оксфордский университет представил LipNet, первый конец в конец предложение на уровне губ чтение модели, используя пространственно - временные сверток в сочетании с архитектурой РНН-CTC, превосходящие характеристики уровня человеческого в ограниченном грамматике наборе данных. Масштабный CNN-РНН-CTC архитектура была представлена в 2018 году на Google DeepMind достижения 6 раз более высокой производительности , чем человек эксперты.

Альтернативный подход к моделям CTC на основе являются моделями внимания на основе. Внимание на основе модели ASR были введены одновременно Чен и др. из Carnegie Mellon University и Google мозга и Bahdanaua и др. из Монреальского университета в 2016 году модель под названием «Слушай, Посещайте и Spell» (LAS), буквально «слушает» на звуковой сигнал, обращает «внимание» к различным частям сигнала и «заклинаний» из транскрипта одного символа вовремя. В отличии от моделей СТС на основе модель внимания на основе не имеет предположений условно-независимость и может изучить все компоненты распознавателя речи , включая произношение, акустические и языковую модель непосредственно. Это означает, что во время развертывания, нет необходимости носить с собой языковую модель , что делает его очень практичным для развертывания на приложениях с ограниченным объемом памяти. К концу 2016 года, модели внимания на основе увидели значительный успех в том числе опережая модель СТС (с или без внешней языковой модели). Различные расширения были предложены с оригинальной моделью LAS. Латентная Последовательность Разложение (LSD) было предложено Carnegie Mellon University , MIT и Google мозгом непосредственно испускает единица суба-слов , которые являются более естественными , чем английские символы; Оксфордский университет и Google DeepMind продлен LAS на «смотреть, слушать, Посещайте и Spell» (WLAS) , чтобы справиться с чтением губ превосходя производительность на уровне человеческого.

Приложения

В автомобильных системах

Как правило, ручной вход управления, например, при помощи пальцевого управления на рулевом колесе, позволяет систему распознавания речи и это сигнализируется водитель на аудио строки. После звуковой подсказки, система имеет «прослушивание» окно, в течение которого он может принимать входной сигнал речи для распознавания.

Простые голосовые команды могут быть использованы для инициирования телефонных вызовов, выберите радиостанции или воспроизводить музыку с совместимого смартфона, MP3-плеер или музыкальный загруженным флэш-диск. Возможности распознавания голоса варьируются от автомобиля марки и модели. Некоторые из самых последних моделей автомобилей предлагают распознавание речи на естественном языке вместо фиксированного набора команд, что позволяет водителю использовать полные предложения и общие фразы. С такими системами не существует, следовательно, нет необходимости для пользователя, чтобы запомнить набор фиксированных командных слов.

Здравоохранение

Медицинская документация

В медико - санитарной помощи сектора, распознавания речи может быть реализовано в переднем конце или заднем конце процесса медицинской документации. Интерфейсный распознавания речи , когда поставщик диктует в двигатель распознавания речи, отображаются распознанные слова , как они говорят, и диктатор отвечает за редактирование и заканчивания на документе. Back-конец или отложенное распознавание речи , когда поставщик диктует в цифровой диктанте систему, голос направляется через машину распознавания речи и признанный проект документ направляется вместе с оригинальным голосовым файлом в редакторе, где проект редактируется и отчет завершен. Отложенное распознавание речи широко используется в промышленности в настоящее время.

Одной из основных проблем , связанных с использованием распознавания речи в области здравоохранения является то , что американское Восстановление и реинвестирование 2009 года ( ARRA ) предусматривает значительные финансовые выгоды для врачей , которые используют ЭЙ в соответствии с «Значимым использованием» стандартами. Эти стандарты требуют , чтобы значительное количество данных будет поддерживаться ЭМИ (сейчас чаще упоминается как запись электронного здравоохранения или ЭМК). Использование распознавания речи более естественно подходят для генерации повествовательного текста, как часть радиологии / интерпретации патологии, прогресс записки или резюме разряда: эргономические выгоды от использования распознавания речи для ввода структурированных дискретных данных (например, числовых значений или кодов из списка или контролируемого словаря ) являются относительно минимальными для людей , которые замеченных и которые могут работать с клавиатурой и мышью.

Более серьезной проблемой является то, что большинство EHRs не были специально приспособлены, чтобы воспользоваться возможностями распознавания голоса. Большая часть взаимодействия клинициста с ЭКАМИ включает навигацию через пользовательский интерфейс с помощью меню и вкладок / щелчки кнопок, и в значительной степени зависит от клавиатуры и мышей: голосовая навигация на основе обеспечивает лишь скромные эргономические преимущества. Напротив, многие высоко настроенные системы для радиологии или патологии диктовки реализации голосовых «макросов», где использование определенных фраз - например, «нормальный отчет», будет автоматически заполнять большое количество значений по умолчанию и / или генерировать шаблонное, который будет изменяться в зависимости от типа экзамена - например, рентген грудной клетки по сравнению с желудочно-контрастной серии для системы радиологии.

В качестве альтернативы этой навигации вручную, каскадного использование распознавания речи и извлечения информации изучалось как способ заполнить форму передачи обслуживания для клинической расстойки и подписать-офф. Результаты обнадеживают, и документ также открывает данные, вместе с соответствующими критериями эффективности и некоторыми программными средствами обработки, для научных исследований и разработок сообщества для изучения клинической документации и языковой обработки.

Терапевтическое использование

Длительное использование программного обеспечения для распознавания речи в сочетании с текстовыми процессорами показало преимущества на кратковременную-память restrengthening в мозговых АВМАХ пациентов , которые лечились с резекцией . Дальнейшие исследования должны быть проведены , чтобы определить когнитивные преимущества для лиц , у которых АВМ были обработаны с помощью радиологических методов.

военный

Истребители Высокопроизводительный

Значительные усилия были посвящены в последнем десятилетии к испытанию и оценке распознавания речи в истребительной авиации . Особо следует отметить , была американская программа распознавания речи для Advanced истребительной Technology Integration (AFTI) / F-16 самолетов ( F-16 VISTA ), программа во Франции для Mirage самолетов, а также другие программы в Великобритании , имеет дело с различными авиационных платформ. В этих программах распознавание речи было успешно эксплуатируется в истребительной авиации, с приложениями , в том числе: настройка радиочастоты, командуя систему автопилота, установки координат бычок-точки и параметры высвобождения оружия и управления отображением полета.

Работа с шведскими пилотами летать в JAS-39 Gripen кабины, Энглунд (2004) нашел признание ухудшалось с увеличением перегрузок . В докладе также сделан вывод о том , что адаптация значительно улучшить результаты во всех случаях и что введение моделей для дыхания было показано , значительно улучшить результаты распознавания. Вопреки тому , что можно было бы ожидать, не было обнаружено никаких эффектов разбитого английского динамиков. Было очевидно , что спонтанная речь вызвала проблемы для распознавателя, как можно было ожидать. Ограниченный словарный запас, и прежде всего, правильный синтаксис, таким образом , может быть , как ожидается, повысить точность распознавания существенно.

Eurofighter Typhoon , в настоящее время на вооружении Великобритании RAF , использует акустическую нестационарную систему, требуя от каждого пилота для создания шаблона. Система не используется для каких - либо безопасности критически важной или оружия важных задач, таких как высвобождение оружия или опускания шасси, но используется для широкого круга других функций кабины. Голосовые команды подтверждаются визуальной и / или ушной обратной связью. Система рассматривается как основная конструктивная особенность в сокращении пилотной нагрузки , и даже позволяет пилоту назначить цели для своего самолета с двумя простыми голосовыми командами или любой из его ведомых только пяти команд.

Громкоговоритель-независимые системы также разрабатываются и находятся под тестом для F35 Lightning II (JSF) и Alenia Aermacchi M-346 Master свинцового в истребительном тренере. Эти системы дали слово точности оценки, превышающие 98%.

Вертолеты

Проблемы достижения высокой точности распознавания в условиях стресса и шума сильно относятся к вертолетной окружающей среде, а также окружающей среде реактивных истребителей. Проблема акустического шума на самом деле более серьезная в среде вертолета, а не только из-за высокими уровни шума , но и потому , что пилот вертолета, в общем, не носит маску , которая позволит уменьшить акустический шум в микрофоне . Существенные испытания и оценка программы были проведены в последнем десятилетии в системах распознавания речи приложений на вертолетах, в частности , в армии США Avionics исследований и разработках (AVRADA) и Королевское аэрокосмическое Создание ( РАЭ ) в Великобритании. Работа во Франции включает распознавание речи в вертолете Puma . Там также было много полезной работы в Канаде . Результаты были обнадеживающими, и голосовые приложения включают: управление радио связи, установка навигационных систем, а также контроль автоматизированной системы целевой передачи обслуживания.

Как и в приложениях истребителей, главнейшая проблема для голоса в вертолетах является воздействием на пилотной эффективности. Обнадеживающие результаты представлены для испытаний AVRADA, хотя они представляют собой лишь технико - экономическую демонстрацию в тестовой среде. Многое еще предстоит сделать , как в распознавании речи и в целом технологии речи для того , чтобы последовательно добиться улучшения производительности в эксплуатационных условиях.

Обучение диспетчеров воздушного движения

Обучение диспетчеров воздушного движения (УВД) представляет собой отличное приложение для систем распознавания речи. Многие обучающие системы УВД в настоящее время требуют человек , чтобы действовать в качестве «псевдо-пилот», вовлекая в речевом диалоге с контроллером стажера, который имитирует диалог, контроллер должен был бы проводить с пилотами в реальной ситуации УВД. Распознавания речи и синтеза методы дают возможность устранить необходимость для человека , чтобы действовать в качестве псевдо-пилота, тем самым снижая обучение и поддержку персонала. В теории, задача авиадиспетчера также характеризуются высоким структурированной речью в качестве основного выхода контроллера, что позволяет уменьшить сложность задачи распознавания речи должна быть возможными. На практике это случается редко. Документ FAA 7110,65 детализирует фразы , которые должны быть использованы авиадиспетчеров. Хотя этот документ дает менее 150 примеров таких фраз, количество фраз , поддерживаемых одним из поставщиков моделирования речевых систем распознавания превышает 500.000.

USAF, USMC армии США, ВМС США, и FAA, а также ряд международных учебных организаций УВД, такие как ВВС Австралии и органы гражданской авиации в Италии, Бразилия и Канаде в настоящее время используют ATC симуляторы с функцией распознавания речи от целый ряд различных поставщиков.

Телефония и другие домены

ASR теперь обычный явление в области телефонии , и становится все более широким распространением в области компьютерных игр и моделирования. В системах телефонии, ASR в настоящее время в основном используется в контактных центрах путем интеграции с IVR системы. Несмотря на высоком уровне интеграции с обработкой текстов в целом персональных компьютеров, в области производства документов, ASR не видели ожидаемое увеличения использования.

Улучшение мобильных скоростей процессоров сделали распознавание речи практично в смартфонах . Речь используется в основном как часть пользовательского интерфейса, для создания стандартных или пользовательских речевых команд.

Использование в образовании и повседневной жизни

Для изучения языка , распознавание речи может быть полезным для изучения второго языка . Он может научить правильное произношение, в дополнение к помощи человеку развить беглость с их разговорные навыки.

Студенты , которые являются слепыми (см тифлопедагогика ) или имеют очень низкое зрение может принести пользу от использования технологии , чтобы передать слова , а затем услышать компьютер читать их, а также использовать компьютер, приказав своим голосом, вместо того, чтобы смотреть на экран и клавиатура.

Студенты , которые физически отключены или страдают от постоянного напряжения / другие травмы верхних конечностей могут быть освобождены от необходимости беспокоиться о почерке, печатать, или работать с писцом на школьных заданиях , с помощью программы преобразования речи в текст. Они могут также использовать технологию распознавания речи , чтобы свободно пользоваться поиском в Интернете или с помощью компьютера в домашних условиях без необходимости физически управлять мышью и клавиатурой.

Распознавание речи может позволить студентам с ограниченными возможностями обучения , чтобы стать лучшими писателями. Говоря эти слова вслух, они могут увеличить текучесть их написания, и быть облегчены опасений по поводу орфографии, пунктуации и других механики письма. Кроме того , см научению .

Использование программного обеспечения для распознавания голоса, в сочетании с цифровой аудио записью и персональным программным обеспечением обработки текста компьютера беговой оказалось положительной для восстановления поврежденной емкости кратковременной-памяти, при инсульте и краниотомий лиц.

Люди с ограниченными возможностями

Люди с ограниченными возможностями могут воспользоваться программами распознавания речи. Для физических лиц, которые являются глухими или слабослышащими, программным обеспечение распознавания речи используются для автоматического создания замкнутых-субтитров разговоров, таких как дискуссии в конференц-залах, аудиторные лекциях и / или религиозных службах.

Распознавание речи также очень полезно для людей , которые испытывают трудности , используя свои руки, начиная от мягких повторяющихся травм стресса привлекать инвалид , которые не позволяют с помощью обычных компьютерных устройств ввода. В самом деле, люди , которые использовали клавиатуре много и развитые RSI стали актуальным в начале рынка для распознавания речи. Распознавание речи используются в глухой телефонии , такие как голосовая почта в тексте, реле услуги и приостановленный телефон . Лица с ограниченными возможностями обучения , которые имеют проблемы с мыслью на бумагу связи ( в основном они думают об идее , но она обрабатывается неправильно , заставляя его закончить по- разному на бумаге) , может , возможно , воспользоваться программным обеспечением , но эта технология не является ошибкой доказательства. Кроме того , вся идея говорят в тексте может быть трудна для интеллектуально инвалида из - за того , что она редко , что кто -то пытается узнать технологию , чтобы научить человек с инвалидностью.

Этот тип технологии может помочь людям с дислексией, но и другими инвалидами по-прежнему под вопросом. Эффективность продукта является проблемой, которая мешает его быть эффективным. Хотя ребенок может быть в состоянии сказать ни слова в зависимости от того, как ясно, что они говорят, это технология может думать, что они говорят другое слово и ввести неправильный. Давать им больше работы, чтобы исправить, в результате чего им придется занять больше времени с фиксацией неправильного слова.

Другие области применения

Спектакль

Производительность систем распознавания речи, как правило , оценивается с точки зрения точности и скорости. Точность обычно номинальный с частотой ошибок слова (WER), в то время как скорость измеряются с реальным фактором времени . Другие показатели точности включают Одно слово Rate Error (SWER) и Command Success Rate (CSR).

Распознавание речи на машине является очень сложной проблемой, однако. Вокализации различаются с точки зрения акцента, произношения, артикуляции, шероховатости, назальности, смолы, объема и скорости. Речь искажается фонового шума и эхо-сигналов, электрических характеристик. Точность распознавания речи может меняться в зависимости от следующего:

  • Словарь размер и confusability
  • Громкоговоритель зависимость против независимости
  • Изолированная, прерывистая или непрерывная речь
  • Задачи и языковые ограничения
  • Читайте против спонтанной речи
  • Неблагоприятные условия

точность

Как уже упоминалось ранее в этой статье, точность распознавания речи может изменяться в зависимости от следующих факторов:

  • ставки ошибок увеличится размер словаря растет:
например, 10 цифр «ноль» на «девять» могут быть признаны в основном отлично, но словарный запас размеры 200, 5000 или 100000 могут иметь частоту ошибок в размере 3%, 7% или 45% соответственно.
  • Словарный запас трудно распознать, если она содержит начертание слова:
например 26 букв английского алфавита трудно различить, потому что они являются начертанием слова (наиболее известно, Е-множества: «В, С, D, Е, G, P, T, V, Z»); частота ошибок 8% считается хорошим для этого словаря.
  • Громкоговоритель зависимость против независимости:
Один из выступающих-зависимая система предназначена для использования одного громкоговорителя.
Говорящая-независимая система предназначена для использования любого акустической системы (более трудным).
  • Изолированная, прерывистая или непрерывная речь
С изолированной речи отдельные слова используются, таким образом, становится легче распознавать речь.

С прерывистые речи полные предложения , разделенные молчанием используются, таким образом, становится легче распознавать речь, а также с изолированной речи.
С используются слитной речи , естественно , произнесенные фразы, поэтому становится труднее распознать речь, отличную как от изолированной и прерывистой речи.


  • Задачи и языковые ограничения
    • применение, например, может отклонить Запросы гипотезы «Яблоко красное.»
    • например, ограничения могут быть семантическими; отвергая «Яблоко злится.»
    • например, синтаксический; отвергая «Красное яблоко.»

Ограничения часто представлены в грамматике.

  • Читайте против непроизвольной речи - Когда человек читает это, как правило, в контексте, который был ранее подготовлен, но, когда человек использует спонтанную речь, трудно распознать речь из-за disfluencies (как «э» и «гм», фальстарта, неполные предложения, заикание, кашель и смех) и ограниченный словарный запас.
  • Неблагоприятные условия окружающей среды - шум (например, шум в автомобиле или на заводе). Акустическое искажение (например, эхо-сигналы, акустика помещения)

Распознавание речи многоуровневая задача распознавания образов.

  • Акустические сигналы структурированы в иерархию единиц, например , фонем , слов, фраз и предложений;
  • Каждый уровень обеспечивает дополнительные ограничения;

например Известно произношение слов или юридической последовательность слов, которые могут компенсировать ошибки или неопределенность на более низком уровне;

  • Эта иерархия ограничений эксплуатируются. Объединяя решения вероятностно на всех более низких уровнях, и делает более детерминированные решения только на самом высоком уровне, распознавание речи на машине процесс разбит на несколько этапов. Вычислительном, это проблема, в которой звук шаблон должен быть признан или классифицированы в категорию, которая представляет собой значение для человека. Каждый акустический сигнал может быть разбит на более мелкие более основных суб-сигналов. По мере того как более сложный звуковой сигнал разбивается на меньшие подзадачи звуки, различные уровни созданы, где на верхнем уровне мы имеем сложные звуки, которые сделаны из более простых звуков на более низком уровне, и идти на более низкие уровни еще больше, мы создаем более простой и более короткие и простые звуки. Самый низкий уровень, где звуки являются наиболее фундаментальными, машина будет проверять для простых и более вероятностных правил, что звук должен представлять. После того, как эти звуки объединены в более сложную звук на верхнем уровне, новый набор более детерминированных правила должны предсказать, что новый комплекс звука должно представлять. Самый верхний уровень детерминированной правила должны выяснить значение сложных выражений. Для того, чтобы расширить наши знания о распознавании речи, мы должны принять во рассмотрение нейронных сетей. Есть четыре шага нейросетевых подходов:
  • Оцифровка речи, которую мы хотим признать

Для телефонной речи частота дискретизации 8000 выборок в секунду;

  • Вычислим особенности спектрально-области речи (с преобразованием Фурье);

вычисляются каждые 10 мс, с одной секции 10 мс называется кадр;

Анализ четырех шагов нейросетевых подходов можно объяснить дополнительной информацией. Звук производится воздухом (или какой - либо другая среда) вибрацией, которые мы регистр ушей, но машина приемников. Основной звук создает волну , которая имеет два описания: амплитуды (насколько силен его) и частоту (как часто она вибрирует в секунду).

проблемы безопасности

Распознавание речи может стать средством нападения, кражи или случайного срабатывания. Например, активация слово, как «Alexa» говорит в аудио или видео трансляции может вызвать устройства в домах и офисах, чтобы начать прослушивание для ввода ненадо, или, возможно, принять какое-либо действие. Голосовое управлением устройство также доступно для посетителей в здание, или даже вне здания, если они могут быть услышаны внутри. Злоумышленники могут получить доступ к личной информации, как календарь, содержание адресной книги, личные сообщения и документы. Они могут также быть в состоянии выдавать пользователю отправлять сообщения или делать покупки онлайн.

Два нападения было продемонстрировано, что использование искусственных звуков. Один передает ультразвук и попытку послать команды без близлежащих люди заметили. Другой добавляет небольшие неслышимых искажения в другую речь или музыки, специально созданная, чтобы запутать конкретную систему распознавания речи в признании музыки речи, или сделать то, что звучит как одна команды для человеческого звука, как другая команда к системе.

Дальнейшая информация

Конференции и журналы

Популярные конференции распознавания речи , проводимых каждый год или два включают SpeechTEK и SpeechTEK Европы, ICASSP , Interspeech / Eurospeech, и IEEE ASRU. Конференции в области обработки естественного языка , такие как ACL , NAACL , EMNLP и HLT, начинают включать документы по обработке речи . Важные журналы включают IEEE Сделки по речи и аудио - обработки (позже переименованный IEEE Транзакции Аудио, речи и языка обработки и с сентября 2014 года переименован в IEEE / ACM Сделки на аудио, речи и языка обработки-после слияния с ПАС публикации), Computer Speech и язык, и речевое общение.

книги

Такие книги , как «Основы распознавания речи» по Лоуренс Рабинера может быть полезно получить базовые знания , но не может быть полностью в курсе (1993). Другим хорошим источником может быть «Статистические методы для распознавания речи» по Йелинек и «разговорного языка Processing (2001)» с помощью Xuedong Huang и т.д. Более до настоящего времени, «Computer Speech», по Манфред Р. Шредера , второе издание опубликовано в 2004 году и «Speech Processing: Динамическая и оптимизация-ориентированный подход» , опубликованной в 2003 году Ли Дэн и Дуг O'Shaughnessey. Недавно обновленный учебник «речи и обработки языка (2008)» по Jurafsky и Мартин представляет основы и состояние техники для ASR. Признание Спикер также использует те же функции, большинство же предварительной обработки, а также методов классификации , как это делается в распознавании речи. Наиболее недавний всеобъемлющий учебник «Основа распознавания диктора» является в глубине источником до настоящего времени подробной информации о теории и практике. Хорошее понимание методов , используемых в лучших современных системах можно получить, обращая внимание на спонсируемый правительство оценок , такие как организованная DARPA (крупнейшим речевой проект распознавания связанного с продолжающимся в 2007 , является проектом GALE, который включает в себя как распознавание речи и компоненты перевода).

Хорошее и доступное введение в технологию распознавания речи и ее историю обеспечивается широкой аудитория книга «Голос в машине. Строительство Компьютеры Этого понимания речи» от Роберто Пиракцини (2012).

Самая последняя книга распознавания речи является «Автоматическое распознавание речи: Подход Deep Learning» (Издательство: Springer), написанная Д. Ю. Л. Денг опубликованы ближе к концу 2014 года, с высоко математически ориентированных технических подробностей о том, как глубокое обучение методы получены и реализованы в современных системах распознавания речи на основе DNNS и связанные с ними глубокими методами обучения. Связанная книга, опубликованная ранее в 2014 году, «Deep Learning: методы и приложения» Л. Денг и Д. Ю. обеспечивает менее технический, но больше обзор методологии ориентированы распознавания речи на основе DNN в течение 2009-2014, размещенных в более общий контекст глубоких приложений обучения, включая не только распознавание речи, но и распознавание образов, обработки естественного языка, поиск информации, мультимодальные обработки и многозадачном обучения.

Программного обеспечения

С точки зрения свободно доступных ресурсов, Carnegie Mellon University «s Sphinx инструментарий одно место , чтобы начать и узнать о распознавании речи и начать экспериментировать. Другой ресурс (бесплатно , но защищена авторским правом) является НТК книга (и сопутствующая НТК инструментарий). Для получения более поздних и государством в самых современных методов, Калди инструментарий может быть использован.

Демонстрация он-лайн распознаватель речи доступна на веб-странице Cobalt в.

Для более программных средств, см Список программного обеспечения для распознавания речи .

Смотрите также

Рекомендации

дальнейшее чтение

  • Pieraccini, Роберто (2012). Голос в машине. Строительство Компьютеры Это понимание речи . MIT Press. ISBN  978-0262016858 .
  • Woelfel, Matthias; McDonough, Джон (2009-05-26). Отдаленные распознавания речи . Wiley. ISBN  978-0470517048 .
  • Карат, Клэр-Мари; Vergo, Джон; Nahamoo, Дэвид (2007). «Технология разговорного интерфейса». В Sears, Эндрю ; Яцко, Джули А. Справочника человека и компьютер Взаимодействия: Основы, Развитие технологии и новые виды применение (человеческий фактор и эргономика) . Лоуренс Erlbaum Associates Inc. ISBN  978-0-8058-5870-9 .
  • Коул, Рональд; Mariani, Иосиф ; Uszkoreit, Ганс; Varile, Giovanni Battista; Zaenen, Энни; Замполли; Зуй, Виктор, ред. (1997). Обзор состояния техники в технологии человеческого языка . Кембридж Исследование по обработке естественного языка. XII-XIII. Cambridge University Press. ISBN  978-0-521-59277-2 .
  • Junqua, Дж-С .; Хатон, Ж.-П. (1995). Надёжность в автоматическом распознавании речи: Основы и приложения . Kluwer Academic Publishers. ISBN  978-0-7923-9646-8 .
  • Пирани, Giancarlo, изд. (2013). Усовершенствованные алгоритмы и архитектуры для понимания речи . Springer Science & Business Media. ISBN  978-3-642-84341-9 .

внешняя ссылка