Источник – модель фильтра - Source–filter model

Модель « источник-фильтр» представляет речь как комбинацию источника звука, такого как голосовые связки , и линейного акустического фильтра, речевого тракта . Хотя эта модель является только приближением, она широко используется в ряде приложений, таких как синтез речи и анализ речи из-за ее относительной простоты. Это также связано с линейным прогнозированием . Развитие модели в значительной степени связано с ранними работами Гуннара Фанта , хотя другие, особенно Кен Стивенс , также внесли существенный вклад в модели, лежащие в основе акустического анализа речи и синтеза речи. Fant основывается на работах Цутому Чиба и Масато Кадзиямы, которые впервые показали взаимосвязь между акустическими свойствами гласных и формой речевого тракта.

Важное допущение, которое часто делается при использовании модели источник-фильтр, - это независимость источника и фильтра. В таких случаях модель следует более точно называть «моделью независимого источника-фильтра».

История

В 1942 году Чиба и Кадзияма опубликовали свои исследования акустики гласных и речевого тракта в своей книге «Гласный: его природа и структура» . Создав модели речевого тракта с помощью рентгеновской фотографии , они смогли предсказать формантные частоты различных гласных, установив связь между ними. Гуннар Фант, новатор в области речевого образования, использовал исследования Чибы и Кадзиямы, связанные с рентгеновской фотографией речевого тракта, для интерпретации своих собственных данных о звуках русской речи в Acoustic Theory of Speech Production , которая установила модель источника-фильтра.

Приложения

В разной степени разные фонемы можно различать по свойствам их источника (источников) и их спектральной форме . Звонкие звуки (например, гласные) имеют по крайней мере один источник из-за в основном периодического возбуждения голосовой щели, которое может быть аппроксимировано последовательностью импульсов во временной области и гармониками в частотной области, а также фильтром, который зависит, например, от языка положение и выступание губ. С другой стороны, фрикативные средства , такие как [s] и [f] , имеют по крайней мере один источник из-за турбулентного шума, производимого сужением в полости рта или глотке . Так называемые звонкие фрикативные звуки , такие как [z] и [v] , имеют два источника - один в голосовой щели, а другой - в надгортантом сужении.

Синтез речи

При реализации модели формирования речи источник-фильтр источник звука или сигнал возбуждения часто моделируется как периодическая последовательность импульсов для вокализованной речи или как белый шум для невокализованной речи. Фильтр речевого тракта в простейшем случае аппроксимируется всеполюсным фильтром, где коэффициенты получаются путем выполнения линейного предсказания, чтобы минимизировать среднеквадратичную ошибку в воспроизводимом речевом сигнале. Свертка сигнала возбуждения с характеристикой фильтра затем дает синтезированную речь.

Моделирование производства человеческой речи

Одна из возможных комбинаций источника и фильтра в голосовом тракте человека.

При воспроизведении человеческой речи источником звука являются голосовые связки , которые могут издавать периодический звук при сжатии или апериодический (белый шум) звук при расслаблении. Фильтр - это остальная часть голосового тракта, которая может изменять форму в результате манипуляций с глоткой , ртом и носовой полостью. Fant грубо сравнивает источник и фильтр с звучанием и артикуляцией соответственно. Источник генерирует ряд гармоник различной амплитуды , которые проходят через речевой тракт и либо усиливаются, либо ослабляются для получения звука речи.

Смотрите также

Рекомендации