ТИМИТ - TIMIT

TIMIT - это корпус фонематически и лексически транскрибируемой речи говорящих на американском английском разных полов и диалектов. Каждый записанный элемент был обозначен во времени.

TIMIT был разработан для расширения акустико-фонетических знаний и систем автоматического распознавания речи. Он был заказан DARPA, а дизайн корпуса был совместным усилием Массачусетского технологического института , SRI International и Texas Instruments (TI). Речь была записана в TI, расшифрована в MIT, проверена и подготовлена ​​к публикации Национальным институтом стандартов и технологий (NIST). Существует также версия телефонной полосы пропускания под названием NTIMIT (Network TIMIT).

TIMIT и NTIMIT не доступны в свободном доступе - для доступа к набору данных требуется либо членство в Консорциуме лингвистических данных , либо денежный платеж.

История

Телефонный корпус TIMIT был первой попыткой создать базу данных с образцами речи. Он был опубликован в 1988 году на CD-ROM и состоит всего из 10 предложений на говорящего. Каждый говорящий прочитал два «диалектных» предложения, а также еще 7 предложений, выбранных из большего набора. Каждое предложение длилось 30 секунд, и его произносили 630 разных говорящих. Это была первая заметная попытка создания и распространения корпуса выступлений, и в целом проект обошелся в 1,5 миллиона долларов США.

Полное название проекта - DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus, а аббревиатура TIMIT расшифровывается как Texas Instruments / Massachusetts Institute of Technology. Основная причина создания корпуса телефонной речи заключалась в обучении программ распознавания речи . В задаче Blizzard различное программное обеспечение обязано преобразовывать аудиозаписи в текстовые данные, и корпус TIMIT использовался в качестве стандартизированной базовой линии.

Сравнение методов машинного обучения

Сравнение методов распознавания фонем на наборе данных TIMIT
Учиться Метод Точность (%)
Цао и Фань КИРФ 93,1
Bird et al. DEvo MLP 92,85
Цао и Фань NPCD / MPLSR 92,8
Цао и Фань NPCD / PCA 92,1
Цао и Фань МПЛСР 91,1
Цао и Фань КПК / Ридж 91,1
Ли и Госал UMP 89,25
Ли и Госал MLO 85,25
Ли и Госал QDA 83,75
Ager et al. GMM 81,5
Ли и Ю FSDA 81,5
Ли и Ю FSVM 78

Смотрите также

использованная литература

  1. ^ Фишер, Уильям М .; Доддингтон, Джордж Р .; Гоуди-Маршалл, Кэтлин М. (1986). «База данных исследований распознавания речи DARPA: спецификации и статус». Труды семинара DARPA по распознаванию речи . С. 93–99.
  2. ^ Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Труды Шестых международных языковых ресурсов и оценки (LREC'08) : 391–395.CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ Лори Ф. Ламель и Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: дизайн и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).
  4. ^ Джон С. Гарофоло и Лори Ф. Ламель и Уильям М. Фишер и Джонатан Г. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT: (Технический отчет). Национальный институт стандартов и технологий. DOI : 10.6028 / nist.ir.4930 .
  5. ^ Nattanun Chanchaochai и Кристофер Cieri и Japhet Debrah и Hongwei Дин и Yue Jiang и Сиши Ляо и Марк Либермана и Джонатан Райт и Jiahong Юань и Juhong Чжань и Юйцин Zhan (2018). GlobalTIMIT: акустико-фонетические наборы данных для языков мира . Interspeech 2018. ISCA. DOI : 10.21437 / interspeech.2018-1185 .
  6. ^ Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: Корпус речи TIMIT, передаваемый по широкополосной мобильной сети 3G AMR . LREC.CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Савада, Кей и Асаи, Чиаки и Хашимото, Кей и Оура, Кейитиро и Токуда, Кейичи (2016). Система преобразования текста в речь NITech для Blizzard Challenge 2016 . Мастерская Blizzard Challenge 2016.CS1 maint: несколько имен: список авторов ( ссылка )
  8. ^ a b c d e Цао, Цзиго; Вентилятор, Гуанчже (2010). Классификация сигналов с использованием случайного леса с ядрами . IEEE. DOI : 10,1109 / aict.2010.81 . ISBN 978-1-4244-6748-8.
  9. ^ Берд, Джордан Дж .; Ваннер, Элизабет; Экарт, Анико; Фариа, Диего Р. (2020). «Оптимизация фонетического распознавания речи с помощью многоцелевых эволюционных алгоритмов» (PDF) . Экспертные системы с приложениями . Elsevier BV. 153 : 113402. DOI : 10.1016 / j.eswa.2020.113402 . ISSN  0957-4174 .
  10. ^ а б Ли, Бин; Ю, Цинчжао (2008). «Классификация функциональных данных: подход сегментации». Вычислительная статистика и анализ данных . Elsevier BV. 52 (10): 4790–4800. DOI : 10.1016 / j.csda.2008.03.024 . ISSN  0167-9473 .

внешние ссылки