Обработка речи - Speech processing

Обработка речи - это исследование речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, обработку, хранение, передачу и вывод речевых сигналов. Входной сигнал называется распознаванием речи, а выходной - синтезом речи .

История

Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs, Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произносимые одним говорящим. Пионерские работы в области распознавания речи с использованием анализа ее спектра были опубликованы в 1940-х годах.

Алгоритм обработки речи с линейным предсказанием (LPC) был впервые предложен Фумитадой Итакурой из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталем и Манфредом Р. Шредер в Bell Labs в 1970-е годы. LPC был основой для технологии передачи голоса по IP (VoIP), а также для микросхем синтезаторов речи , таких как речевые микросхемы LPC от Texas Instruments, используемые в игрушках Speak & Spell с 1978 года.

Одним из первых коммерчески доступных продуктов для распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в своей службе обработки вызовов с распознаванием речи для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем средний человеческий словарь.

К началу 2000-х годов доминирующая стратегия обработки речи начала сдвигаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению .

Методы

Динамическое искажение времени

Динамическое искажение времени (DTW) - это алгоритм измерения сходства между двумя временными последовательностями , скорость которых может различаться. В общем, DTW - это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное совпадение обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и которое имеет минимальную стоимость, где стоимость вычисляется как сумма абсолютных различий для каждой согласованной пары индексов между их значениями.

Скрытые марковские модели

Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма - оценить скрытую переменную x (t) по списку наблюдений y (t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любое время, зависит только от значения скрытой переменной x ( t - 1). Точно так же значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ).

Искусственные нейронные сети

Искусственная нейронная сеть (ИНС) основана на наборе связанных блоков или узлов, называемых искусственными нейронами , которые свободно моделируют нейроны в биологическом мозге . Каждое соединение, как синапсы в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, который получает сигнал, может обработать его, а затем передать сигнал дополнительным искусственным нейронам, подключенным к нему. В обычных реализациях ИНС сигнал в соединении между искусственными нейронами является действительным числом , а выходной сигнал каждого искусственного нейрона вычисляется некоторой нелинейной функцией суммы его входных сигналов.

Фазовая обработка

Обычно предполагается, что фаза является случайной однородной величиной и поэтому бесполезна. Это связано с переносом фазы: результат функции арктангенса не является непрерывным из-за периодических переходов . После разворачивания фазы (см. Главу 2.3; Мгновенная фаза и частота ) ее можно выразить как:, где - линейная фаза ( временной сдвиг на каждом кадре анализа), - фазовый вклад голосового тракта и источника фазы. Полученные оценки фазы могут использоваться для уменьшения шума: временное сглаживание мгновенной фазы и ее производных по времени ( мгновенная частота ) и частоте ( групповая задержка ), сглаживание фазы по частоте. Объединенные устройства оценки амплитуды и фазы могут более точно восстанавливать речь на основе предположения о распределении фазы по Мизесу.

Приложения

Смотрите также

Рекомендации