Артикуляционный синтез - Articulatory synthesis

Трехмерная модель речевого тракта для артикуляционного синтеза. Основанная на моделировании коартикуляции согласных и гласных, предложение на немецком языке « Lea und Doreen mögen Bananen. » Было воспроизведено из естественно произнесенного предложения с точки зрения основной частоты и длительности телефонной связи.

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей речевого тракта человека и процессов артикуляции, происходящих в нем. Формой речевого тракта можно управлять разными способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык , челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через голосовой тракт.

Механические говорящие головы

Существует долгая история попыток построить механические « говорящие головы ». . Говорят, что Герберт (ум. 1003), Альберт Великий (1198–1280) и Роджер Бэкон (1214–1294) построили говорящие головы ( Уитстон 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своем исследовании в 1791 году (см. Также Dudley & Tarnoczy 1950 ).

Электрические аналоги речевого тракта

Первые электрические аналоги голосового тракта были статичными, как у Данна (1950), Кена Стивенса и его коллег (1953), Гуннара Фанта (1960). Розен (1958) построил динамический речевой тракт (DAVO), которым Деннис (1963) позже попытался управлять с помощью компьютера. Деннис и др. (1964), Hiki et al. (1968) и Бакстер и Стронг (1969) также описали аппаратные аналоги голосового тракта. Келли и Лохбаум (1962) провели первое компьютерное моделирование; позднее было проведено цифровое компьютерное моделирование, например Наката и Мицуока (1965), Мацуи (1968) и Пол Мермельштейн (1971). Honda et al. (1968) провели аналоговое компьютерное моделирование.

Модели Хаскинса и Маэды

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филипом Рубином , Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, представлял собой вычислительную модель речевого воспроизведения, основанную на моделях речевого тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами. Еще одна популярная модель, которая часто используется, - это модель Синдзи Маэда, в которой для управления формой языка используется факторный подход .

Современные модели

Недавний прогресс в визуализации речи, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способах выполнения артикуляционного синтеза [1] . Примеры включают модель Haskins CASY (конфигурируемый артикуляционный синтез), разработанную Филипом Рубином , Марком Тидом [2] и Луи Голдштейном [3] , которая сопоставляет срединно-сагиттальные вокальные тракты с фактическими данными магнитно-резонансной томографии (МРТ) и использует данные МРТ для построить 3D-модель голосового тракта. Полная трехмерная модель артикуляционного синтеза была описана Оловом Энгваллом. Трехмерный синтезатор артикуляционной речи на геометрической основе был разработан Питером Биркхольцем (VocalTractLab). Модель Directions Into Velocities of Articulators (DIVA) , подход к управлению с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, был разработан Фрэнком Х. Гюнтером из Бостонского университета . Проект ArtiSynth, возглавляемый Сидни Фелсом [4] из Университета Британской Колумбии , представляет собой набор инструментов для трехмерного биомеханического моделирования голосового тракта человека и верхних дыхательных путей. Биомеханическое моделирование артикуляторов, таких как язык , было впервые предложено рядом ученых, включая Райнера Вильгельмса-Трикарико [5] , Йохана Паяна [6] и Жан-Мишеля Жерара [7] , Цзянву Данг и Киёши Хонда [8] .

Коммерческие модели

Одной из немногих коммерческих систем артикуляционного синтеза речи является система на основе NeXT, первоначально разработанная и проданная Trillium Sound Research, дочерней компанией Университета Калгари , где проводилась большая часть оригинальных исследований. После прекращения существования различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х и слился с Apple Computer в 1997 году), программное обеспечение Trillium было опубликовано под Стандартной общественной лицензией GNU , и работа продолжалась как gnuspeech . Система, впервые поступившая на рынок в 1994 году, обеспечивает полное преобразование текста в речь на основе артикуляции с использованием волновода или аналога линии передачи орального и носового трактов человека, контролируемого «моделью отличительной области» Рене Карре.

Смотрите также

Сноски

Библиография

  • Бакстер, Брент и Уильям Дж. Стронг. (1969). WINDBAG - аналоговый синтезатор речи голосового тракта. Журнал Американского акустического общества , 45, 309 (A).
  • Birkholz P, Jackel D, Kröger BJ (2007) Моделирование потерь из-за турбулентности в изменяющейся во времени голосовой системе. Транзакции IEEE по обработке звука, речи и языка 15: 1218-1225
  • Birkholz P, Jackel D, Kröger BJ (2006) Построение и управление трехмерной моделью речевого тракта. Труды Международной конференции по акустике, речи и обработке сигналов (ICASSP 2006) (Тулуза, Франция), стр. 873–876
  • Кокер. CH (1968). Синтез речи с параметрической артикуляционной моделью. Proc. Речь. Symp., Киото, Япония , статья А-4.
  • Кокер, СН (1976). «Модель артикуляционной динамики и контроля». Труды IEEE . 64 (4): 452–460. DOI : 10,1109 / PROC.1976.10154 . S2CID  1412611 .
  • Коксователь; Фудзимура, О. (1966). «Модель для уточнения функции области голосового тракта». Журнал Акустического общества Америки . 40 (5): 1271. Bibcode : 1966ASAJ ... 40.1271C . DOI : 10.1121 / 1.2143456 .
  • Деннис, Джек Б. (1963). Компьютерное управление аналоговым речевым трактом. Журнал Акустического общества Америки , 35, 1115 (A).
  • Дадли, Гомер; Тарноци, Томас Х. (1950). «Говорящая машина Вольфганга фон Кемпелена» (PDF) . Журнал Акустического общества Америки . 22 (2): 151–166. Bibcode : 1950ASAJ ... 22..151D . DOI : 10.1121 / 1.1906583 .
  • Данн, Хью К. (1950). «Расчет резонансов гласных и электрического речевого тракта». Журнал Акустического общества Америки . 22 (6): 740–53. Bibcode : 1950ASAJ ... 22..740D . DOI : 10.1121 / 1.1906681 .
  • Энгвалл, О. (2003). Объединение измерений MRI, EMA и EPG в трехмерной модели языка. Речевое общение, 41, 303-329.
  • Фант, К. Гуннар М. (1960). Акустическая теория речевого производства . Гаага, Мутон.
  • Гариэль, М. (1879). «Машинка Парланте де М. Фабер» . J. Physique Théorique et Appliquée . 8 : 274–5. DOI : 10,1051 / jphystap: 018790080027401 .
  • Джерард, JM; Wilhelms-Tricarico, R .; Perrier, P .; Паян, Ю. (2003). «Трехмерная динамическая биомеханическая модель языка для изучения речевого моторного контроля» (PDF) . Последние разработки в области биомеханики . 1 : 49–64.
  • Хенке, WL (1966). Динамическая артикуляционная модель речевого образования с использованием компьютерного моделирования. Неопубликованная докторская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс.
  • Хонда, Такаши, Сэйити Иноуэ и Ясуо Огава. (1968). Гибридная система управления имитатором голосового тракта человека. Доклады 6-го Международного конгресса по акустике / под ред. Ю. Кохаси, стр. 175–8. Токио, Международный совет научных союзов.
  • Келли, Джон Л. и Кэрол Лохбаум. (1962). Синтез речи. Труды семинара по речевой коммуникации , статья F7. Стокгольм, Лаборатория передачи речи, Королевский технологический институт.
  • Кемпелен, Вольфганг Р. Фон. (1791). Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine . Wien, JB Degen.
  • Маэда, С. (1988). Улучшенная артикуляционная модель. Журнал Американского акустического общества , 84, Sup. 1, S146.
  • Маэда, С. (1990). Компенсаторная артикуляция во время речи: данные анализа и синтеза форм голосового тракта с использованием артикуляционной модели. В WJ Hardcastle и A. Marchal (Eds.), Speech Production and Speech Modeling , Kluwer Academic, Dordrecht, 131–149.
  • Мацуи, Эйити. (1968). Органы голоса смоделированы на компьютере. Доклады 6-го Международного конгресса по акустике / под ред. Я. Кохаси, стр. 151–4. Токио, Международный совет научных союзов.
  • Мермельштейн, Пол. (1969). Компьютерное моделирование артикуляционной деятельности при производстве речи. Труды Международной совместной конференции по искусственному интеллекту , Вашингтон, округ Колумбия, 1969, изд. DE Walker и LM Norton. Нью-Йорк, Гордон и Брич.
  • Мермельштейн, П. (1973). «Артикуляторная модель для изучения речевого производства». Журнал Акустического общества Америки . 53 (4): 1070–1082. Bibcode : 1973ASAJ ... 53.1070M . DOI : 10.1121 / 1.1913427 . PMID  4697807 .
  • Наката, Кадзуо; Мицуока, Т. (1965). «Фонематические преобразования и управляющие аспекты синтеза связной речи». J. Radio Res. Labs . 12 : 171–86.
  • Рахим, М .; Goodyear, C .; Kleijn, W .; Schroeter, J .; Сонди, М. (1993). «Об использовании нейронных сетей в артикуляционном синтезе речи». Журнал Акустического общества Америки . 93 (2): 1109–1121. Bibcode : 1993ASAJ ... 93.1109R . DOI : 10.1121 / 1.405559 .
  • Розен, Джордж (1958). «Динамический аналоговый синтезатор речи». Журнал Акустического общества Америки . 30 (3): 201–9. Bibcode : 1958ASAJ ... 30..201R . DOI : 10.1121 / 1.1909541 . ЛВП : 1721,1 / 118106 .
  • Рубин, ЧП; Baer, ​​T .; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки . 70 (2): 321–328. Bibcode : 1981ASAJ ... 70..321R . DOI : 10.1121 / 1.386780 .
  • Рубин, П., Зальцман, Э., Гольдштейн, Л., Макгоуэн, Р., Тид, М., и Бровман, К. (1996). CASY и расширения к динамической модели задач. Материалы 1-го учебного и исследовательского семинара ESCA по моделированию производства речи - 4-го семинара по производству речи , 125-128.
  • Стивенс, Кеннет Н .; Kasowski, S .; Фант, К. Гуннар М. (1953). «Электрический аналог голосового тракта». Журнал Акустического общества Америки . 25 (4): 734–42. Bibcode : 1953ASAJ ... 25..734S . DOI : 10.1121 / 1.1907169 .

внешние ссылки