Аудио майнинг - Audio mining

Аудиодобыча - это метод, с помощью которого можно автоматически анализировать и искать содержимое аудиосигнала. Это наиболее часто используется в области автоматического распознавания речи , где анализ пытается идентифицировать любую речь в аудио. Термин «интеллектуальный анализ звука» иногда используется взаимозаменяемо с индексированием аудио, фонетическим поиском, фонетическим индексированием, индексированием речи, аудиоаналитикой, анализом речи , обнаружением слов и поиском информации . Аудиоиндексация, однако, в основном используется для описания предварительной обработки аудио-майнинга, в которой аудиофайл разбивается на доступный для поиска индекс слов.

История

Академические исследования звукового майнинга начались в конце 1970-х в таких школах, как Университет Карнеги-Меллона, Колумбийский университет, Технологический институт Джорджии и Техасский университет. Индексирование и поиск аудиоданных стали привлекать внимание и пользоваться спросом в начале 1990-х, когда начал развиваться мультимедийный контент и объем аудиоконтента значительно увеличился. До того, как майнинг аудио стал основным методом, были созданы и вручную проанализированы письменные расшифровки аудиоконтента.

Обработать

Аудиодобыча обычно делится на четыре компонента: индексирование звука, системы обработки и распознавания речи, извлечение функций и классификация аудио. Аудио обычно обрабатывается системой распознавания речи, чтобы идентифицировать единицы слова или фонемы , которые могут встречаться в речевом контенте. Эта информация может быть либо немедленно использована в заранее заданном поиске по ключевым словам или фразам (система «определения слов» в реальном времени), либо выходные данные распознавателя речи могут быть сохранены в индексном файле. Позднее можно загрузить один или несколько файлов индекса интеллектуального анализа аудио, чтобы выполнить поиск по ключевым словам или фразам. Результатами поиска обычно являются совпадения, то есть области в файлах, которые хорошо подходят для выбранных ключевых слов. Затем пользователь может прослушать звук, соответствующий этим совпадениям, чтобы проверить, было ли найдено правильное совпадение.

Индексирование аудио

В аудио есть основная проблема поиска информации - необходимо найти текстовые документы, содержащие ключ поиска. В отличие от людей, компьютер не может различать различные типы аудио, такие как скорость, настроение, шум, музыка или человеческая речь - необходим эффективный метод поиска. Следовательно, индексирование звука позволяет эффективно искать информацию, анализируя весь файл с помощью распознавания речи. Затем создается индекс контента, содержащий слова и их местонахождение, выполняемые посредством извлечения аудио на основе контента, с акцентом на извлеченные аудио функции.

Это выполняется в основном двумя методами: распознавание непрерывной речи большого словарного запаса (LVCSR) и индексирование на основе фонетики.

Распознаватели непрерывной речи с большим словарным запасом (LVCSR)

При индексировании на основе текста или распознавании непрерывной речи с большим словарным запасом (LVCSR) аудиофайл сначала разбивается на узнаваемые фонемы. Затем он просматривается в словаре, который может содержать несколько сотен тысяч статей, и сопоставляется со словами и фразами, чтобы получить полную расшифровку текста. Затем пользователь может просто выполнить поиск желаемого словарного термина, и будет возвращена соответствующая часть аудиоконтента. Если текст или слово не могут быть найдены в словаре, система выберет следующую наиболее похожую запись, которую сможет найти. Система использует модель понимания языка, чтобы создать уровень достоверности для своих совпадений. Если уровень достоверности будет ниже 100 процентов, система предоставит варианты всех найденных совпадений.

Преимущества и недостатки

Главное достоинство LVCSR - высокая точность и скорость поиска. В LVCSR статистические методы используются для прогнозирования вероятности различных последовательностей слов, поэтому точность намного выше, чем при поиске одного слова при фонетическом поиске. Если слово можно найти, вероятность произнесения слова очень высока. Между тем, хотя первоначальная обработка звука занимает довольно много времени, поиск выполняется быстро, поскольку требуется всего лишь простой тест на соответствие текста.

С другой стороны, LVCSR подвержен распространенным проблемам распознавания речи . Собственная случайная природа звука и проблемы внешнего шума - все это влияет на точность индексирования на основе текста.

Другой проблемой LVCSR является его чрезмерная зависимость от своей словарной базы данных. LVCSR распознает только те слова, которые находятся в их словарных базах данных, и эти словари и базы данных не могут идти в ногу с постоянно меняющейся терминологией , именами и словами. Если словарь не содержит слова, система не сможет его идентифицировать или предсказать. Это снижает точность и надежность системы. Это называется проблемой нехватки словаря (OOV). Системы аудио-майнинга пытаются справиться с OOV, постоянно обновляя используемые словарь и языковую модель, но проблема все еще остается значительной и требует поиска альтернатив.

Кроме того, из-за необходимости постоянно обновлять и поддерживать знания, основанные на задачах, и большие обучающие базы данных, чтобы справиться с проблемой OOV, возникают высокие вычислительные затраты. Это делает LVCSR дорогостоящим подходом к майнингу аудио.

Фонетическое индексирование

Фонетическое индексирование также разбивает аудиофайл на узнаваемые фонемы, но вместо преобразования их в текстовый индекс они сохраняются как есть и анализируются для создания фонетического индекса. Процесс индексации на основе фонетики можно разделить на два этапа. Первый этап - индексация. Он начинается с преобразования входного носителя в стандартный формат аудиопрезентации ( PCM ). Затем к речи применяется акустическая модель. Эта акустическая модель представляет характеристики как акустического канала (среда, в которой была произнесена речь, и преобразователь, через который она была записана), так и естественного языка (на котором люди выражали входную речь). Это создает соответствующую фонетическую поисковую дорожку или фонетическую звуковую дорожку (PAT), сильно сжатое представление фонетического содержания входного носителя. Второй этап - поиск. Термин поискового запроса пользователя разбирается в возможную строку фонемы с использованием фонетического словаря. Затем несколько файлов PAT можно сканировать с высокой скоростью во время одного поиска вероятных фонетических последовательностей, которые близко соответствуют соответствующим строкам фонем в термине запроса.

Преимущества и недостатки

Фонетическое индексирование является наиболее привлекательным, поскольку на него практически не влияют языковые проблемы, такие как нераспознанные слова и орфографические ошибки. Фонетическая предварительная обработка поддерживает открытый словарь, не требующий обновления. Это делает его особенно полезным для поиска специальной терминологии или слов на иностранных языках, которые обычно не встречаются в словарях. Он также более эффективен для поиска аудиофайлов с мешающим фоновым шумом и / или нечеткими высказываниями, поскольку он может компилировать результаты на основе звуков, которые он может различить, и, если пользователь пожелает, он может искать варианты, пока не найдет желаемый элемент .

Кроме того, в отличие от LVCSR, он может обрабатывать аудиофайлы очень быстро, поскольку между языками очень мало уникальных фонем. Однако фонемы не могут быть эффективно проиндексированы как целое слово, поэтому поиск в системе, основанной на фонетике, выполняется медленно.

Проблема с фонетическим индексированием - его низкая точность. Поиск по фонемам приводит к большему количеству ложных совпадений, чем индексирование на основе текста. Это особенно характерно для коротких поисковых запросов, которые с большей вероятностью будут похожи на другие слова или являются частью более крупных слов. Он также может возвращать нерелевантные результаты на других языках. Если система не распознает в точности слово целиком или не понимает фонетические последовательности языков, индексирование на основе фонетики может дать точные результаты.

Система обработки и распознавания речи

Распознавание речи, считающееся наиболее важным и сложным компонентом интеллектуального анализа звука, требует знания системы воспроизведения речи человека и ее моделирования.

Чтобы соответствовать системе производства речи человека, система выработки электрической речи должна состоять из:

  • Генерация речи
  • Восприятие речи
  • Звонкая и глухая речь
  • Модель человеческой речи

Система создания электрической речи преобразует акустический сигнал в соответствующее представление речи через акустические модели в своем программном обеспечении, где представлены все фонемы. Статистическая языковая модель помогает в этом процессе, определяя, насколько вероятно, что слова будут следовать друг за другом в определенных языках. В сочетании со сложным вероятностным анализом система распознавания речи способна принимать неизвестный речевой сигнал и преобразовывать его в слова на основе словаря программы.

Система ASR (автоматическое распознавание речи) включает:

  • Акустический анализ : форма входной звуковой волны преобразуется в особенность
  • Акустическая модель : устанавливает связь между речевым сигналом и фонемами, моделью произношения и языковой моделью. Алгоритмы обучения применяются к речевой базе данных для создания статистического представления каждой фонемы, тем самым создавая акустическую модель с набором фонем и их вероятностными мерами.
  • Модель произношения : фонемы привязаны к определенным словам
  • Языковая модель : слова организованы для образования значимых предложений.

Некоторые приложения обработки речи включают распознавание речи, кодирование речи, аутентификацию говорящего, улучшение речи и синтез речи.

Извлечение признаков

Предварительным условием для всего процесса распознавания речи должно быть сначала установлено извлечение признаков в системе. Аудиофайлы необходимо обрабатывать от начала до конца, чтобы не потерять важную информацию.

Путем дифференциации источников звука по высоте тона, тембральным характеристикам, ритмическим характеристикам, негармоничности, автокорреляции и другим характеристикам на основе предсказуемости сигнала, статистической модели и динамических характеристик.

Обеспечение стандартизации при извлечении признаков регулируется международными стандартными функциями MPEG-7 , в которых функции для классификации звуковых или речевых сигналов фиксируются с точки зрения методов, используемых для анализа и представления необработанных данных с точки зрения определенных функций.

Стандартные методы извлечения речи:

  • Linear Predictive Coding (LPC) оценивает текущий образец речи, анализируя предыдущий образец речи
  • Кепстральный коэффициент Mel-частоты (MFCC) представляет речевой сигнал в параметрической форме с использованием шкалы mel
  • Перцепционное линейное предсказание (PLP) учитывает человеческую речь

Однако эти три метода не идеальны, поскольку нестационарные сигналы игнорируются. Нестационарные сигналы могут быть проанализированы с помощью Фурье и короткого времени Фурье , в то время как изменяющиеся во времени сигналы анализируются с помощью Wavelet и дискретное вейвлет - преобразование (DWT) .

Аудио Классификация

Аудиоклассификация - это форма обучения с учителем , включающая анализ аудиозаписей. Он разделен на несколько категорий: классификация акустических данных, классификация звуков окружающей среды, музыкальная классификация и классификация высказываний на естественном языке. Для этого процесса часто используются параметры высоты звука , тембра , ритма, негармоничности и звуковой корреляции, хотя могут использоваться и другие функции. Существует несколько методов классификации аудио с использованием существующих классификаторов, таких как k-ближайших соседей или наивный байесовский классификатор . Используя аннотированные аудиоданные, машины учатся определять и классифицировать звуки.

Также было проведено исследование использования глубоких нейронных сетей для распознавания речи и классификации звука из-за их эффективности в других областях, таких как классификация изображений. Один из методов использования DNN - это преобразование аудиофайлов в файлы изображений посредством спектрограмм для выполнения классификации.

Приложения Audio Mining

Аудиодобыча используется в таких областях, как музыкальный аудиодайнинг (также известный как поиск музыкальной информации ), который относится к идентификации важных для восприятия характеристик музыкального произведения, таких как мелодическая, гармоническая или ритмическая структура. Затем можно выполнить поиск, чтобы найти музыкальные произведения, похожие по своим мелодическим, гармоническим и / или ритмическим характеристикам.

В области лингвистики интеллектуальный анализ аудиоданных используется для фонетической обработки и семантического анализа. Эффективность майнинга звука при обработке аудиовизуальных данных помогает в идентификации и сегментации говорящих, а также в транскрипции текста. Посредством этого процесса речь может быть разделена на категории, чтобы идентифицировать информацию или извлекать информацию с помощью ключевых слов, произносимых в аудио. В частности, это использовалось для анализа речи . Колл-центры использовали эту технологию для проведения анализа в реальном времени, выявляя, среди прочего, изменения тона, настроения или высоты тона, которые затем обрабатываются механизмом принятия решений или искусственным интеллектом для принятия дальнейших действий. Дальнейшее использование было замечено в областях распознавания речи и приложений преобразования текста в речь.

Он также использовался в сочетании с интеллектуальным анализом видео в таких проектах, как интеллектуальный анализ данных фильмов.

Смотрите также

использованная литература

дальнейшее чтение

Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи . Springer. ISBN   978-981-13-6098-5 .

внешние ссылки

Обработка звука и распознавание речи: концепции, методы и обзоры исследований