Общий голос - Common Voice

Общий голос
Common Voice Banner2.png
Разработчики) Фонд Mozilla
Первый выпуск 19 июня 2017 г . ; 4 года назад ( 2017-06-19 )
Репозиторий https://github.com/mozilla/voice-web
Доступно в Многоязычный ( список языков )
Лицензия Creative Commons CC0
Веб-сайт commonvoice.mozilla.org

Common Voice - это краудсорсинговый проект, начатый Mozilla с целью создания бесплатной базы данных для программного обеспечения распознавания речи . Проект поддерживается волонтерами, которые записывают образцы предложений с помощью микрофона и просматривают записи других пользователей. Транскрибированные предложения будут собраны в доступной под голосовой базой публичного домена лицензия CC0 . Эта лицензия гарантирует, что разработчики могут использовать базу данных для приложений преобразования голоса в текст без ограничений и затрат.

Цели

Common Voice направлен на предоставление разнообразных голосовых образцов. По словам Катарины Борхерт из Mozilla , многие существующие проекты использовали наборы данных с общественного радио или иным образом имели наборы данных, которые недопредставляли как женщин, так и людей с ярко выраженным акцентом.

Голосовая база данных

Первый набор данных был выпущен в ноябре 2017 года. Более 20000 пользователей по всему миру записали 500 часов английских предложений.

В феврале 2019 года была выпущена первая партия языков. Это включало 18 языков: английский , французский , немецкий и мандаринский китайский , а также менее распространенные языки, такие как валлийский и кабильский . В общей сложности это включало почти 1400 часов записанных голосовых данных от более чем 42000 участников.

По состоянию на июль 2020 года в базе данных накоплено 7 226 часов голосовых записей на 54 языках, 5 591 час из которых были проверены волонтерами.

В мае 2021 года, после работы по добавлению киньяруанды , они получили грант на добавление суахили .

Смотрите также

использованная литература

  1. ^ «Почему мы гендер ИИ? Голос технологии фирма перейти к более включительно» . Хранитель . 11 января 2020 . Проверено 19 апреля 2020 .
  2. ^ «Объявление о первом выпуске модели распознавания речи Mozilla с открытым исходным кодом и набора голосовых данных» . блог mozilla.org . 29 ноября 2017 года.
  3. ^ «Mozilla обновляет набор данных Common Voice, добавляя 1400 часов речи на 18 языках» . VentureBeat . 28 февраля 2019.
  4. ^ «Обновления Mozilla Common Voice помогут обучить Wakeword« Привет, Firefox »для голосового просмотра веб-страниц» . VentureBeat . 1 июля 2020. Архивировано из оригинала на 10 марта 2021 года . Проверено 1 апреля 2021 года .
  5. ^ «Mozilla Common Voice получает 3,4 миллиона долларов инвестиций в демократизацию и диверсификацию голосовых технологий в Восточной Африке» . Mozilla Foundation . 2021-05-25 . Источник 2021-06-03 .