Задержка (аудио) - Latency (audio)

Задержка относится к короткому периоду задержки (обычно измеряемому в миллисекундах ) между моментом, когда аудиосигнал входит в систему и когда он появляется. Потенциальные факторы задержки в аудиосистеме включают аналого-цифровое преобразование , буферизацию , цифровую обработку сигнала , время передачи , цифро-аналоговое преобразование и скорость звука в среде передачи .

Задержка может быть критической Метрика производительности в профессиональных аудио , включая системы арматурного звука , FOLDBACK системы (особенно те , которые используют в ухе мониторов ) живое радио и телевидение . Чрезмерная задержка звука может ухудшить качество связи в телекоммуникационных приложениях. Звук с низкой задержкой в компьютерах важен для интерактивности .

Телефонные звонки

Можно сказать, что во всех системах задержка состоит из трех элементов: задержки кодека, задержки воспроизведения и задержки сети.

Задержку телефонных звонков иногда называют задержка ото рта к уху ; в телекоммуникационной отрасли также используется термин «качество опыта»(QoE). Качество голоса измеряется в соответствии смодельюITU; измеримое качество вызова быстро ухудшается, если задержка от уст к уху превышает 200 миллисекунд. Оценка среднего мнения(MOS) также сравнима в ближнем прямолинейно со шкалой качества МСЭ - определено в стандартах G.107, G.108 и G.109 - с добротностьюRдиапазоне от 0 до 100. MOS из 4 («хорошо») будет иметь оценкуR80 или выше; для достижения 100R требуется MOS, превышающая 4,5.

ITU и 3GPP группируют услуги для конечных пользователей в классы на основе чувствительности к задержке:

Очень чувствителен к задержке Менее чувствителен к задержке
Классы
  • Разговорный класс (3GPP)
  • Интерактивный класс (ITU)
  • Интерактивный класс (3GPP)
  • Отзывчивый класс (ITU)
  • Класс потоковой передачи (3GPP)
  • Своевременный класс (ITU)
  • Фоновый класс (3GPP)
  • Некритический класс (ITU)
Услуги Разговорное видео / голос, видео в реальном времени Голосовые сообщения Потоковое видео и голос Факс
Данные в реальном времени Транзакционные данные Данные не в реальном времени Фоновые данные

Точно так же рекомендация G.114 относительно задержки «от рта к уху» указывает, что большинство пользователей «очень довольны» до тех пор, пока задержка не превышает 200 мс, с соответствующим R 90+. Выбор кодека также играет важную роль; кодеки наивысшего качества (и самой высокой пропускной способности), такие как G.711 , обычно настроены на наименьшую задержку кодирования-декодирования, поэтому в сети с достаточной пропускной способностью могут быть достигнуты задержки менее 100 мс . G.711 с битовой скоростью 64 кбит / с - это метод кодирования, который преимущественно используется в коммутируемой телефонной сети общего пользования .

Мобильные звонки

AMR узкополосный кодек, используемый в GSM и UMTS сетях, вводит латентность в процессах кодирования и декодирования.

По мере того, как операторы мобильной связи модернизируют существующие сети с максимальными усилиями для поддержки одновременных нескольких типов услуг по сетям, полностью основанным на IP, такие услуги, как Hierarchical Quality of Service ( H-QoS ), позволяют применять политики QoS для каждого пользователя и для каждой услуги для определения приоритетов, чувствительных ко времени. протоколы, такие как голосовые вызовы и другой трафик беспроводной связи.

Другой аспект задержки мобильной связи - это передача обслуживания между сетями; поскольку клиент в сети A вызывает клиента сети B, вызов должен проходить через две отдельные сети радиодоступа , две базовые сети и взаимосвязанный межсетевой центр коммутации мобильной связи (GMSC), который выполняет физическое соединение между двумя поставщиками.

IP звонки

Благодаря сквозному управлению QoS и соединениям с гарантированной скоростью задержка может быть уменьшена до аналоговых уровней PSTN / POTS. При стабильном соединении с достаточной пропускной способностью и минимальной задержкой системы VoIP обычно имеют внутреннюю задержку не менее 20 мс. В менее идеальных сетевых условиях максимальная задержка составляет 150 мс для общего использования. Задержка является более важным фактором, когда присутствует эхо, и системы должны выполнять подавление и подавление эха .

Компьютерное аудио

Задержка может быть особой проблемой для аудиоплатформ на компьютерах. Поддерживаемые оптимизации интерфейса сокращают задержку до времени, которое человеческое ухо не может обнаружить. Уменьшая размер буфера, можно уменьшить задержку. Популярным оптимизационным решением является ASIO от Steinberg , который обходит аудиоплатформу и подключает аудиосигналы непосредственно к оборудованию звуковой карты. Многие профессиональные и полупрофессиональные аудиоприложения используют драйвер ASIO, что позволяет пользователям работать со звуком в реальном времени. Pro Tools HD предлагает систему с низкой задержкой, аналогичную ASIO. Pro Tools 10 и 11 также совместимы с драйверами интерфейса ASIO.

Ядро реального времени Linux - это модифицированное ядро, которое изменяет стандартную частоту таймера, которую использует ядро ​​Linux, и дает всем процессам или потокам возможность иметь приоритет в реальном времени. Это означает, что критичный по времени процесс, такой как аудиопоток, может получить приоритет над другим, менее критичным процессом, таким как сетевая активность. Это также настраивается для каждого пользователя (например, процессы пользователя «tux» могут иметь приоритет над процессами пользователя «none» или над процессами нескольких системных демонов ).

Аудио цифрового телевидения

Многие современные приемники цифрового телевидения, телевизионные приставки и AV-приемники используют сложную обработку звука, которая может создавать задержку между моментом приема звукового сигнала и моментом его прослушивания в динамиках. Поскольку телевизоры также вносят задержки в обработку видеосигнала, это может привести к тому, что два сигнала будут достаточно синхронизированы, чтобы зритель мог их не заметить. Однако, если разница между задержкой аудио и видео значительна, эффект может сбивать с толку. Некоторые системы имеют настройку синхронизации губ, которая позволяет регулировать задержку звука для синхронизации с видео, а другие могут иметь расширенные настройки, при которых некоторые этапы обработки звука могут быть отключены.

Звуковая задержка также является значительным недостатком в ритм-играх , где для успеха требуется точное время. В большинстве этих игр есть настройка калибровки задержки, после чего игра будет корректировать временные окна на определенное количество миллисекунд для компенсации. В этих случаях ноты песни будут отправлены в динамики еще до того, как игра получит требуемый ввод от игрока, чтобы поддерживать иллюзию ритма. Игры, основанные на музыкальной импровизации , такие как барабаны Rock Band или DJ Hero , могут по-прежнему сильно пострадать, поскольку игра не может предсказать, что игрок ударит в этих случаях, а чрезмерная задержка по-прежнему создает заметную задержку между нажатием нот и их прослушиванием. играть.

Трансляция аудио

Задержка звука может возникать в системах вещания, где кто-то участвует в прямой трансляции через спутник или аналогичный канал с большой задержкой. Человек в основной студии должен ждать, пока участник на другом конце ссылки отреагирует на вопросы. Задержка в этом контексте может составлять от нескольких сотен миллисекунд до нескольких секунд. Работа с такими высокими задержками звука требует специальной подготовки, чтобы полученный комбинированный аудиовыход был приемлемо приемлемым для слушателей. Везде, где это практически возможно, важно стараться поддерживать низкую задержку звука в прямом эфире, чтобы реакция и обмен участниками были как можно более естественными. Задержка в 10 миллисекунд или лучше является целью для аудиосхем в профессиональных производственных структурах.

Аудио живого выступления

Задержка в живом исполнении естественным образом зависит от скорости звука . Чтобы пройти 1 метр, звук занимает около 3 миллисекунд. Между исполнителями возникает небольшая задержка в зависимости от того, как они разнесены друг от друга и от сценических мониторов, если они используются. Это создает практический предел того, насколько далеко могут быть друг от друга художники в группе. Мониторинг сцены расширяет этот предел, поскольку звук распространяется со скоростью, близкой к скорости света, по кабелям, соединяющим сценические мониторы.

Артисты, особенно в больших помещениях, также будут слышать реверберацию или эхо своей музыки, поскольку звук, исходящий со сцены, отскакивает от стен и конструкций и возвращается с задержкой и искажениями. Основная цель сценического мониторинга - предоставить артистам больше первичного звука, чтобы они не были выброшены из-за задержки этих ревербераций.

Обработка живого сигнала

В то время как аналоговое звуковое оборудование не имеет заметной задержки, цифровое звуковое оборудование имеет задержку, связанную с двумя общими процессами: преобразованием из одного формата в другой и задачами цифровой обработки сигналов (DSP), такими как выравнивание, сжатие и маршрутизация.

Процессы цифрового преобразования включают аналого-цифровые преобразователи (АЦП), цифро-аналоговые преобразователи (ЦАП) и различные изменения из одного цифрового формата в другой, например AES3, который передает электрические сигналы низкого напряжения в ADAT , оптический транспорт. . Для выполнения любого такого процесса требуется небольшое количество времени; типичные задержки находятся в диапазоне от 0,2 до 1,5 миллисекунд, в зависимости от частоты дискретизации, программного обеспечения и архитектуры оборудования.

Различные операции обработки аудиосигнала, такие как фильтры с конечной импульсной характеристикой (FIR) и бесконечной импульсной характеристикой (IIR), используют разные математические подходы к одному и тому же результату и могут иметь разные задержки. Кроме того, буферизация входных и выходных выборок добавляет задержку. Типичные задержки составляют от 0,5 до десяти миллисекунд, а в некоторых проектах задержка достигает 30 миллисекунд.

Задержка в цифровом звуковом оборудовании наиболее заметна, когда голос певца передается через микрофон, через цифровые аудиомикшеры, обработку и маршрутизацию, а затем отправляется в их собственные уши через ушные мониторы или наушники. В этом случае звук голоса певца передается к его собственному уху через кости головы, а через несколько миллисекунд через цифровой путь к ушам. В одном исследовании слушатели обнаружили, что задержка более 15 мс становится заметной. Задержка для других музыкальных занятий, таких как игра на гитаре, не вызывает такого серьезного беспокойства. Задержка в десять миллисекунд не так заметна для слушателя, который не слышит свой голос.

Громкоговорители с задержкой

При звукоусилении для музыкальных или речевых презентаций на больших площадках оптимальным является обеспечение достаточной громкости звука в задней части помещения, не прибегая к чрезмерной громкости звука в передней части. Один из способов добиться этого для звукорежиссеров - использовать дополнительные громкоговорители, расположенные на расстоянии от сцены, но ближе к задней части аудитории. Звук распространяется по воздуху со скоростью звука (около 343 метров (1125 футов) в секунду в зависимости от температуры и влажности воздуха). Измеряя или оценивая разницу в задержке между громкоговорителями рядом со сценой и громкоговорителями ближе к аудитории, звукорежиссер может ввести соответствующую задержку аудиосигнала, идущего к последним громкоговорителям, чтобы фронты волн от ближних и дальних громкоговорителей достигли в то же время. Из-за эффекта Хааса А.Н. дополнительные 15 миллисекунд могут быть добавлены к времени задержки громкоговорителей ближе к аудитории, так что волновой фронт стадии достигает их первых, сосредоточить внимание аудитории на сцене , а не местный громкоговоритель. Немного более поздний звук из динамиков с задержкой просто увеличивает воспринимаемый уровень звука, не влияя отрицательно на локализацию.

Смотрите также

использованная литература

внешние ссылки