Аудиовизуальное распознавание речи - Audio-visual speech recognition

Аудиовизуальное распознавание речи (AVSR) - это метод, который использует возможности обработки изображений при чтении по губам, чтобы помочь системам распознавания речи в распознавании недетерминированных телефонов или придании перевеса среди решений, близких к вероятности.

Каждая система чтения по губам и распознавания речи работает отдельно, затем их результаты смешиваются на этапе объединения признаков . Как следует из названия, он состоит из двух частей. Первая - это звуковая часть, а вторая - визуальная. В звуковой части мы используем такие функции, как логарифмическая спектрограмма, mfcc и т. Д. Из необработанных аудиосэмплов, и строим модель, чтобы получить из нее вектор характеристик. Для визуальной части мы обычно используем какой-либо вариант сверточной нейронной сети для сжатия изображения до вектора признаков, после чего мы объединяем эти два вектора (аудио и визуальный) и пытаемся предсказать целевой объект.

Внешние ссылки