Распознавание спикера - Speaker recognition

Распознавание говорящего - это идентификация человека по характеристикам голоса. Используется для ответа на вопрос «Кто говорит?» Термин распознавание голоса может относиться к распознаванию говорящего или распознаванию речи . Верификация говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание, когда тот же говорящий говорит).

Распознавание говорящего может упростить задачу перевода речи в системах, обученных определенным голосам, или его можно использовать для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было установлено, различаются у разных людей. Эти акустические паттерны отражают как анатомию, так и усвоенные поведенческие паттерны.

Проверка против идентификации

Есть два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что имеет определенную личность, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация - это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего - это совпадение 1: 1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего - это совпадение 1: N, где голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка динамика обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают с ведома пользователей и обычно требуют их сотрудничества. Системы идентификации говорящего также могут быть реализованы скрытно без ведома пользователя, чтобы идентифицировать говорящих в дискуссии, предупреждать автоматизированные системы о смене говорящего, проверять, зарегистрирован ли пользователь в системе и т. Д.

В криминалистических приложениях обычно сначала выполняют процесс идентификации говорящего для создания списка «наилучших совпадений», а затем выполняют серию процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов, полученных от выступающего, со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это как доказательство, чтобы определить, действительно ли подозреваемый является преступником.

Обучение

Одна из первых обучающих технологий для коммерческого использования была реализована в кукле Джули 1987 года из Worlds of Wonder . В тот момент независимость говорящего была намеченным прорывом, и системам требовался период обучения. В рекламе куклы 1987 года был слоган: «Наконец-то кукла, которая тебя понимает». - несмотря на то, что это было описано как продукт, «который дети могут научить реагировать на свой голос». Термин «распознавание голоса» даже десять лет спустя относился к независимости говорящего.

Варианты распознавания говорящего

Каждая система распознавания говорящего состоит из двух этапов: регистрации и проверки. Во время регистрации голос говорящего записывается, и обычно ряд функций извлекается для формирования голосового отпечатка, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. Для систем идентификации высказывание сравнивается с несколькими голосовыми отпечатками, чтобы определить наилучшее совпадение (а), в то время как системы проверки сравнивают высказывание с одиночным голосовым отпечатком. Из-за вовлеченного процесса проверка происходит быстрее, чем идентификация.

Системы распознавания говорящих делятся на две категории: текстовые и независимые от текста.

Зависит от текста:

Если текст должен быть одинаковым для регистрации и проверки, это называется текстозависимым распознаванием. В системе, зависящей от текста, подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. Кроме того, использование общих секретов (например, паролей и PIN-кодов) или информации, основанной на знаниях, может использоваться для создания сценария многофакторной аутентификации .

Независимый от текста:

Системы, не зависящие от текста, чаще всего используются для идентификации говорящего, поскольку они практически не требуют сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании отличается. Фактически, регистрация может происходить без ведома пользователя, как в случае со многими криминалистическими приложениями. Поскольку независимые от текста технологии не сравнивают то, что было сказано при регистрации и проверке, приложения для проверки, как правило, также используют распознавание речи, чтобы определить, что пользователь говорит в точке аутентификации.

В текстонезависимых системах используются как акустика, так и методы анализа речи .

Технология

Распознавание говорящего - это проблема распознавания образов . Различные технологии , используемые для обработки и хранение голосовых отпечатков включают оценку частоты , скрытые марковские модели , гауссовые смеси , соответсвующую модель алгоритмы, нейронные сети , матричное представление , векторное квантование и дерева решений . Для сравнения высказываний с голосовыми отпечатками традиционно используются более простые методы, такие как косинусное сходство , из-за их простоты и производительности. Некоторые системы также используют методы «анти-говорящего», такие как модели когорт и модели мира. Спектральные характеристики преимущественно используются для представления характеристик громкоговорителей. Кодирование с линейным предсказанием (LPC) - это метод кодирования речи, используемый для распознавания говорящего и проверки речи .

Уровни окружающего шума могут препятствовать сбору как исходных, так и последующих голосовых выборок. Алгоритмы шумоподавления могут использоваться для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений поведенческих атрибутов голоса и регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается рост интеграции с продуктами двухфакторной аутентификации . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения голоса, хотя ведутся споры относительно общего воздействия на безопасность, вызванного автоматической адаптацией.

Правовые последствия

В связи с введением в действие таких законодательных актов, как Общий регламент по защите данных в Европейском союзе и Закон о конфиденциальности потребителей Калифорнии в Соединенных Штатах, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях.

Приложения

Первый международный патент был подан в 1983 году в результате проведенных в CSELT (Италия) исследований в области электросвязи, проведенных Микеле Кавацца и Альберто Чьярамелла, в качестве основы как для будущих телекоммуникационных услуг для конечных потребителей, так и для улучшения методов снижения шума в сети.

В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак, чтобы зарегистрированные местные жители, которым нечего заявлять, пересекали границу между Канадой и США, когда пункты досмотра были закрыты на ночь. Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган.

В мае 2013 года было объявлено, что Barclays Wealth будет использовать пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. Используемая система была разработана компанией Nuance, занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT для речевых технологий), компании, стоящей за технологией Apple Siri . Подтвержденный голосовой отпечаток должен был использоваться для идентификации вызывающих абонентов в систему, и в будущем система будет развернута по всей компании.

Подразделение частного банковского обслуживания Barclays было первой фирмой, предоставляющей финансовые услуги, которая применила голосовую биометрию в качестве основного средства аутентификации клиентов в их центрах обработки вызовов . 93% пользователей оценили систему на «9 из 10» за скорость, простоту использования и безопасность.

Распознавание говорящего также может использоваться в уголовных расследованиях, таких как казни в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа .

В феврале 2016 года крупный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатка пальца или голоса.

Смотрите также

Списки

Примечания

использованная литература

внешние ссылки

Программное обеспечение