Диаризация спикера - Speaker diarisation
Диаризация говорящего ( или диаризация ) - это процесс разделения входящего аудиопотока на однородные сегменты в соответствии с идентичностью говорящего. Он может повысить удобочитаемость автоматической транскрипции речи за счет структурирования аудиопотока по очереди говорящего и, при использовании вместе с системами распознавания говорящего , путем предоставления истинной личности говорящего. Он используется для ответа на вопрос «кто когда говорил?» Диаризация спикеров - это комбинация сегментации спикеров и их кластеризации. Первый направлен на поиск точек смены динамика в аудиопотоке. Второй направлен на группировку речевых сегментов на основе характеристик говорящего.
С увеличением количества трансляций, записей собраний и голосовой почты, собираемых каждый год, диаризация спикеров привлекает большое внимание речевого сообщества, о чем свидетельствуют специальные оценки, посвященные ей под эгидой Национального института стандартов и технологий для телефона. выступление, трансляция новостей и встреч.
Основные виды диаризационных систем
В диаризации спикеров один из самых популярных методов - использовать модель смеси Гаусса для моделирования каждого из спикеров и назначать соответствующие кадры для каждого спикера с помощью скрытой марковской модели . Есть два основных типа сценариев кластеризации. Первый, безусловно, самый популярный и называется «Снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному динамику. Вторая стратегия кластеризации называется нисходящей и начинается с одного единственного кластера для всех аудиоданных и пытается итеративно разделить его, пока не будет достигнуто количество кластеров, равное количеству динамиков. Обзор 2010 г. можно найти по адресу [1]
ПО с открытым исходным кодом для диаризации спикеров
Есть несколько инициатив с открытым исходным кодом для ведения дневника докладчика:
- ALIZE Speaker Diarization (последнее обновление репозитория: июль 2016 г .; последний выпуск: февраль 2013 г., версия: 3.0): ALIZE Diarization System, разработанная в Университете Авиньона, доступна версия 2.0 [2] .
- SpkDiarization (последний выпуск: сентябрь 2013 г., версия: 8.4.1): инструмент LIUM_SpkDiarization [3] .
- Audioseg (последнее обновление репозитория: май 2014 г .; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg - это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [4] .
- SHoUT (последнее обновление: декабрь 2010; версия: 0.3): SHoUT - это программный пакет, разработанный в Университете Твенте для помощи в исследованиях распознавания речи. SHoUT - это голландская аббревиатура от слова Speech Recognition Research в Университете Твенте . [5]
- pyAudioAnalysis (последнее обновление репозитория: август 2018 г.): Библиотека анализа звука Python: извлечение функций, классификация, сегментация и приложения [6]
Ссылки
- ^ Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшена диаризация говорящего с использованием идентификации говорящего» . Проверено 25 января 2012 .
- ^ Котти, Маргарита; Мощу, Василики; Котропулос, Константин. «Сегментация спикеров и кластеризация» (PDF) . Проверено 25 января 2012 .
- ^ «Проект оценки богатой транскрипции» . NIST . Проверено 25 января 2012 .
Библиография
- Ангуера, Ксавье (2012). «Дневник докладчика: обзор последних исследований» . Транзакции IEEE по обработке звука, речи и языка . Транзакции IEEE / ACM по обработке звука, речи и языка. 20 (2): 356–370. CiteSeerX 10.1.1.470.6149 . DOI : 10,1109 / TASL.2011.2125954 . ISSN 1558-7916 .
- Бейги, Хомаюн (2011). Основы распознавания говорящего . Нью-Йорк: Спрингер. ISBN 978-0-387-77591-3.