Акустическая модель - Acoustic model

Акустическая модель используется в автоматическом распознавании речи , чтобы представлять взаимосвязь между звуковым сигналом и фонемами или другими языковыми единицами , которые составляют речь. Модель узнается из набора аудиозаписей и их соответствующих расшифровок. Он создается путем создания аудиозаписей речи и их текстовых транскрипций, а также использования программного обеспечения для создания статистических представлений звуков, составляющих каждое слово.

Задний план

Современные системы распознавания речи используют как акустическую модель, так и языковую модель для представления статистических свойств речи. Акустическая модель моделирует взаимосвязь между звуковым сигналом и фонетическими единицами языка. Языковая модель отвечает за моделирование последовательностей слов в языке. Эти две модели объединяются, чтобы получить последовательности слов с наивысшим рейтингом, соответствующие данному аудиосегменту.

Большинство современных систем распознавания речи оперируют аудио небольшими фрагментами, известными как кадры, с приблизительной продолжительностью 10 мс на кадр. Необработанный аудиосигнал из каждого кадра может быть преобразован с помощью кепстра мел-частотной области . Коэффициенты этого преобразования обычно известны как частотные кепстральные коэффициенты (MFCC) s и используются в качестве входных данных для акустической модели наряду с другими функциями.

В последнее время использование сверточных нейронных сетей привело к значительным улучшениям в акустическом моделировании.

Аудио характеристики речи

Аудио можно кодировать с разной частотой дискретизации (например, выборок в секунду - наиболее распространенные: 8, 16, 32, 44,1, 48 и 96 кГц) и разными битами на выборку (наиболее распространенные: 8 бит, 16 -битный, 24-битный или 32-битный). Механизмы распознавания речи работают лучше всего, если используемая ими акустическая модель была обучена звуковой речи, записанной с той же частотой дискретизации / бит на отсчет, что и распознаваемая речь.

Распознавание речи на основе телефонии

Ограничивающим фактором для распознавания речи на основе телефонии является полоса пропускания, с которой может передаваться речь. Например, стандартный стационарный телефон имеет пропускную способность только 64 кбит / с при частоте дискретизации 8 кГц и 8 бит на выборку (8000 выборок в секунду * 8 бит на выборку = 64000 бит / с). Следовательно, для распознавания речи на основе телефонии акустические модели должны быть обучены с помощью аудиофайлов речи 8 кГц / 8 бит.

В случае передачи голоса по IP , то кодек определяет частоту дискретизации / бит в выборке передачи речи. Кодеки с более высокой частотой дискретизации / биты на выборку для передачи речи (которые улучшают качество звука) требуют акустических моделей, обученных с помощью аудиоданных, которые соответствуют этой частоте дискретизации / битам на выборку.

Распознавание речи на компьютере

Для распознавания речи на стандартном настольном ПК ограничивающим фактором является звуковая карта . Большинство звуковых карт сегодня могут записывать аудио с частотой дискретизации от 16 до 48 кГц, с битовой скоростью от 8 до 16 бит на сэмпл и воспроизведением с частотой до 96 кГц.

Как правило, механизм распознавания речи лучше работает с акустическими моделями, обученными с речевыми аудиоданными, записанными с более высокими частотами дискретизации / бит на отсчет. Но использование звука со слишком высокой частотой дискретизации / бит на отсчет может замедлить работу механизма распознавания. Нужен компромисс. Таким образом, для распознавания речи настольных компьютеров текущим стандартом являются акустические модели, обученные с помощью речевых аудиоданных, записанных с частотой дискретизации 16 кГц / 16 бит на выборку.

Ссылки

внешние ссылки