Диаризация спикера - Speaker diarisation

Диаризация говорящего ( или диаризация ) - это процесс разделения входящего аудиопотока на однородные сегменты в соответствии с идентичностью говорящего. Он может повысить удобочитаемость автоматической транскрипции речи за счет структурирования аудиопотока по очереди говорящего и, при использовании вместе с системами распознавания говорящего , путем предоставления истинной личности говорящего. Он используется для ответа на вопрос «кто когда говорил?» Диаризация спикеров - это комбинация сегментации спикеров и их кластеризации. Первый направлен на поиск точек смены динамика в аудиопотоке. Второй направлен на группировку речевых сегментов на основе характеристик говорящего.

С увеличением количества трансляций, записей собраний и голосовой почты, собираемых каждый год, диаризация спикеров привлекает большое внимание речевого сообщества, о чем свидетельствуют специальные оценки, посвященные ей под эгидой Национального института стандартов и технологий для телефона. выступление, трансляция новостей и встреч.

Основные виды диаризационных систем

В диаризации спикеров один из самых популярных методов - использовать модель смеси Гаусса для моделирования каждого из спикеров и назначать соответствующие кадры для каждого спикера с помощью скрытой марковской модели . Есть два основных типа сценариев кластеризации. Первый, безусловно, самый популярный и называется «Снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному динамику. Вторая стратегия кластеризации называется нисходящей и начинается с одного единственного кластера для всех аудиоданных и пытается итеративно разделить его, пока не будет достигнуто количество кластеров, равное количеству динамиков. Обзор 2010 г. можно найти по адресу [1]

ПО с открытым исходным кодом для диаризации спикеров

Есть несколько инициатив с открытым исходным кодом для ведения дневника докладчика:

  • ALIZE Speaker Diarization (последнее обновление репозитория: июль 2016 г .; последний выпуск: февраль 2013 г., версия: 3.0): ALIZE Diarization System, разработанная в Университете Авиньона, доступна версия 2.0 [2] .
  • SpkDiarization (последний выпуск: сентябрь 2013 г., версия: 8.4.1): инструмент LIUM_SpkDiarization [3] .
  • Audioseg (последнее обновление репозитория: май 2014 г .; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg - это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [4] .
  • SHoUT (последнее обновление: декабрь 2010; версия: 0.3): SHoUT - это программный пакет, разработанный в Университете Твенте для помощи в исследованиях распознавания речи. SHoUT - это голландская аббревиатура от слова Speech Recognition Research в Университете Твенте . [5]
  • pyAudioAnalysis (последнее обновление репозитория: август 2018 г.): Библиотека анализа звука Python: извлечение функций, классификация, сегментация и приложения [6]

Ссылки

  1. ^ Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшена диаризация говорящего с использованием идентификации говорящего» . Проверено 25 января 2012 .
  2. ^ Котти, Маргарита; Мощу, Василики; Котропулос, Константин. «Сегментация спикеров и кластеризация» (PDF) . Проверено 25 января 2012 .
  3. ^ «Проект оценки богатой транскрипции» . NIST . Проверено 25 января 2012 .

Библиография