Субъективное качество видео - Subjective video quality

Субъективное качество видео это видео качество , как испытываемые людьми. Он касается того, как видео воспринимается зрителем (также называемым «наблюдателем» или «субъектом»), и определяет его мнение о конкретной видеопоследовательности . Это связано с областью качества опыта . Измерение субъективного качества видео необходимо, поскольку было показано, что алгоритмы объективной оценки качества, такие как PSNR , плохо коррелируют с субъективными оценками. Субъективные оценки также могут использоваться в качестве основы для разработки новых алгоритмов.

Субъективные тесты качества видео - это психофизические эксперименты, в которых ряд зрителей оценивают определенный набор стимулов. Эти тесты довольно дороги с точки зрения времени (подготовка и выполнение) и человеческих ресурсов и поэтому должны быть тщательно спроектированы.

В субъективных тестах качества видео, как правило, SRC («Источники», то есть исходные видеопоследовательности) обрабатываются с различными условиями ( HRC для «Гипотетических эталонных схем») для генерации PVS («Обработанные видеопоследовательности »).

Измерение

Основная идея измерения субъективного качества видео аналогична оценке среднего мнения (MOS) для звука . Чтобы оценить субъективное качество видео системы обработки видео, обычно предпринимаются следующие шаги:

  • Выберите оригинальные, неискаженные видеопоследовательности для тестирования
  • Выберите настройки системы, которые следует оценить
  • Примените настройки к SRC, что приведет к тестовым последовательностям.
  • Выберите метод тестирования, описывающий, как последовательности представляются зрителям и как собираются их мнения.
  • Пригласите группу зрителей
  • Проведите тестирование в определенной среде (например, в лабораторных условиях) и представьте каждый PVS в определенном порядке каждому зрителю.
  • Рассчитайте рейтинговые результаты для отдельных PVS, SRC и HRC, например, MOS

Многие параметры условий просмотра могут влиять на результаты, такие как освещение комнаты, тип дисплея, яркость, контрастность, разрешение, расстояние просмотра, а также возраст и уровень образования зрителей. Поэтому рекомендуется сообщать эту информацию вместе с полученными рейтингами.

Выбор источника

Как правило, система должна быть протестирована с репрезентативным количеством различного содержимого и характеристик содержимого. Например, можно выбрать отрывки из контента разных жанров, например боевиков, новостных шоу и мультфильмов. Длина исходного видео зависит от цели теста, но обычно используются последовательности не менее 10 секунд.

Количество движения и пространственная детализация также должны охватывать широкий диапазон. Это гарантирует, что тест содержит последовательности различной сложности.

Источники должны быть безупречного качества. Не должно быть видимых артефактов кодирования или других свойств, которые снижали бы качество исходной последовательности.

Настройки

Конструкция HRC зависит от исследуемой системы. Как правило, на этом этапе вводится несколько независимых переменных, и они меняются на нескольких уровнях. Например, для проверки качества видеокодека независимыми переменными могут быть программное обеспечение кодирования видео, целевой битрейт и целевое разрешение обрабатываемой последовательности.

Рекомендуется выбирать настройки, которые приводят к рейтингам, охватывающим весь диапазон качества. Другими словами, при использовании абсолютной рейтинговой шкалы, тест должен показывать последовательности, которые зрители оценили бы от плохих до отличных.

Зрителей

Количество зрителей

Зрителей также называют «наблюдателями» или «субъектами». Определенное минимальное количество зрителей должно быть приглашено на исследование, поскольку большее количество испытуемых повышает надежность результатов эксперимента, например, за счет уменьшения стандартного отклонения усредненных оценок. Кроме того, существует риск исключения испытуемых за ненадежное поведение во время оценки.

Минимальное количество субъектов, необходимое для субъективного исследования качества видео, строго не определено. Согласно ITU-T, возможно любое число от 4 до 40, где 4 является абсолютным минимумом по статистическим причинам, а приглашение более 40 субъектов не имеет дополнительной ценности. В целом в эксперименте должно участвовать не менее 15 наблюдателей. Они не должны принимать непосредственного участия в оценке качества изображения в рамках своей работы и не должны быть опытными оценщиками. В других документах также утверждается, что для получения значимых усредненных оценок необходимо как минимум 10 предметов.

Однако большинство рекомендаций по количеству субъектов было разработано для измерения качества видео, с которым сталкивается пользователь домашнего телевидения или ПК, где диапазон и разнообразие искажений имеют тенденцию быть ограниченными (например, только для артефактов кодирования). Учитывая большой диапазон и разнообразие искажений, которые могут возникнуть на видео, снятых с помощью мобильных устройств и / или переданных по беспроводным сетям, обычно может потребоваться большее количество людей.

Бруннстрем и Барковски представили расчеты для оценки минимального количества необходимых предметов на основе существующих субъективных тестов. Они утверждают, что для обеспечения статистически значимых различий при сравнении оценок может потребоваться большее количество испытуемых, чем обычно рекомендуется.

Выбор зрителя

Зрители должны быть неспециалистами в том смысле, что они не должны быть профессионалами в области кодирования видео или смежных областях. Это требование вводится, чтобы избежать потенциальной предвзятости.

Как правило, у зрителей проверяется нормальное зрение или зрение с поправкой на нормальное с помощью диаграмм Снеллена . Дальтонизм часто проверяют с помощью пластин Исихара .

В сообществе QoE продолжается дискуссия о том, оказывает ли культурное, социальное или экономическое влияние зрителя существенное влияние на получаемые субъективные результаты качества видео. Систематическое исследование с участием шести лабораторий в четырех странах не выявило статистически значимого влияния языка и культуры / страны происхождения испытуемых на рейтинги качества видео.

Тестовая среда

Субъективные тесты качества можно проводить в любой среде. Однако из-за возможных факторов влияния из разнородных контекстов обычно рекомендуется проводить тесты в нейтральной среде, например в специальной лабораторной комнате. Такое помещение может быть звуконепроницаемым, со стенами, окрашенными в нейтральный серый цвет, и с использованием правильно откалиброванных источников света. Эти условия уточняются в нескольких рекомендациях. Было показано, что контролируемая среда приводит к меньшей изменчивости полученных оценок.

Краудсорсинг

В последнее время краудсорсинг используется для субъективной оценки качества видео и, в более общем плане, в контексте качества восприятия . Здесь зрители выставляют оценки на собственном компьютере дома, а не принимают участие в субъективном тестировании качества в лабораторных помещениях. Хотя этот метод позволяет получить больше результатов, чем при традиционных субъективных тестах, при меньших затратах, достоверность и надежность собранных ответов необходимо тщательно проверять.

Крупнейшая в мире база данных по качеству изображений, созданная с помощью краудсорсинга, стала общедоступной как база данных LIVE In the Wild Image Quality Challenge . Он содержит более 350 000 оценок человеческого качества от более чем 8 000 человек. Человеческие суждения были сделаны на основе более чем 1100 фотографий, сделанных с помощью мобильной камеры, с разной степенью достоверных искажений, а не искусственно внесенных искажений, как это было сделано почти во всех предыдущих базах данных.

Анализ результатов

Мнения зрителей обычно усредняются в средний балл мнений (MOS). Для этого метки категориальных шкал могут быть переведены в числа. Например, ответы «плохо» на «отлично» можно сопоставить со значениями от 1 до 5, а затем усреднить. Значения MOS всегда следует сообщать с указанием их статистических доверительных интервалов, чтобы можно было оценить общее согласие между наблюдателями.

Тематический просмотр

Часто перед оценкой результатов принимаются дополнительные меры. Тематический отбор - это процесс, при котором зрители, чьи оценки считаются недействительными или ненадежными, исключаются из дальнейшего анализа. Недействительные оценки трудно обнаружить, поскольку испытуемые могли выставлять оценки, не просматривая видео, или жульничать во время теста. Общая надежность объекта может быть определена с помощью различных процедур, некоторые из которых описаны в рекомендациях ITU-R и ITU-T. Например, корреляция между индивидуальными оценками человека и общей MOS, оцененной для всех последовательностей, является хорошим показателем их надежности по сравнению с остальными участниками теста.

Продвинутые модели

Оценивая стимулы, люди подвержены предубеждениям. Это может привести к различным и неточным оценкам и, как следствие, к значениям MOS, которые не отражают «истинное качество» стимула. В последние годы были предложены продвинутые модели, нацеленные на формальное описание рейтингового процесса и последующее восстановление зашумленности субъективных оценок. Согласно Яновски и др., Субъекты могут иметь предвзятость во мнении, которая обычно приводит к изменению их оценок, а также неточность выставления оценок, которая зависит от объекта и стимула, подлежащего оценке. Ли и др. предложили различать несоответствие темы и неоднозначность содержания .

Стандартизированные методы тестирования

Есть много способов выбрать правильную последовательность, системные настройки и методики тестирования. Некоторые из них стандартизированы. Они подробно описаны в нескольких рекомендациях ITU-R и ITU-T, среди которых ITU-R BT.500 и ITU-T P.910. Хотя некоторые аспекты частично совпадают, рекомендация BT.500 имеет свои корни в вещании, тогда как P.910 фокусируется на мультимедийном контенте.

Стандартизированный метод тестирования обычно описывает следующие аспекты:

  • как долго длится сеанс эксперимента
  • где проводится эксперимент
  • сколько раз и в каком порядке нужно просматривать каждый PVS
  • выставляются ли оценки один раз за стимул (например, после презентации) или непрерывно
  • являются ли оценки абсолютными, т.е. относящимися только к одному стимулу, или относительными (сравнение двух или более стимулов)
  • по какой шкале берутся рейтинги

Другая рекомендация, ITU-T P.913, дает исследователям больше свободы для проведения субъективных тестов качества в средах, отличных от типичной испытательной лаборатории, при этом от них требуется сообщать все детали, необходимые для воспроизводимости таких тестов.

Примеры

Ниже объясняются некоторые примеры стандартизированных процедур тестирования.

Одиночный стимул

  • ACR (абсолютный рейтинг категории): каждая последовательность оценивается индивидуально по шкале ACR . Метки на шкале: «плохо», «плохо», «удовлетворительно», «хорошо» и «отлично», и они переводятся в значения 1, 2, 3, 4 и 5 при вычислении MOS.
  • ACR-HR (абсолютный рейтинг категории со скрытой ссылкой): вариант ACR, в котором исходная неизмененная исходная последовательность отображается в дополнение к нарушенным последовательностям, без информирования субъектов о ее присутствии (следовательно, «скрытая»). Рейтинги рассчитываются как разница в баллах между эталонной версией и версией с дефектами. Дифференциальная оценка определяется как оценка PVS минус оценка, присвоенная скрытой ссылке, плюс количество баллов на шкале. Например, если PVS оценен как «плохо», а соответствующая скрытая ссылка - как «хорошо», тогда рейтинг равен . Когда эти рейтинги усредняются, результатом является не MOS, а дифференциальная MOS («DMOS»).
  • SSCQE (непрерывная оценка качества одиночного стимула): более длинная последовательность непрерывно оценивается с течением времени с использованием ползунка (разновидность фейдера ), на котором испытуемые оценивают текущее качество. Образцы берутся через равные промежутки времени, в результате чего получается кривая качества с течением времени, а не единая оценка качества.

Двойной стимул или множественный стимул

  • DSCQS (непрерывная шкала качества с двойным стимулом ): зритель видит неискаженный эталон и нарушенную последовательность в случайном порядке. Им разрешается повторно просматривать последовательности, а затем оценивать качество для обоих по непрерывной шкале, помеченной категориями ACR.
  • DSIS (двойная шкала обесценения стимула) и DCR (рейтинг категории деградации): оба относятся к одному и тому же методу. Зритель видит эталонное видео без искажений, затем то же видео с искажениями, и после этого его просят проголосовать за второе видео по так называемой шкале нарушений (от «нарушения незаметны» до «нарушения очень раздражают»).
  • ПК (сравнение пар): вместо сравнения последовательностей с нарушениями и без нарушений сравниваются различные типы нарушений (HRC). Следует оценить все возможные комбинации HRC.

Выбор методологии

Какой метод выбрать, во многом зависит от цели теста и возможных ограничений по времени и другим ресурсам. Некоторые методы могут иметь меньше контекстных эффектов (например, когда порядок стимулов влияет на результаты), что является нежелательной ошибкой теста. В ITU-T P.910 отмечается, что для проверки точности передачи следует использовать такие методы, как DCR, особенно в системах высокого качества. ACR и ACR-HR лучше подходят для квалификационных испытаний и - из-за получения абсолютных результатов - для сравнения систем. Метод ПК обладает высокой дискриминационной способностью, но требует более длительных сеансов тестирования.

Базы данных

Результаты субъективных тестов качества, включая использованные стимулы, называются базами данных . Ряд баз данных о субъективном качестве изображений и видео, основанных на таких исследованиях, был опубликован исследовательскими институтами. Эти базы данных, некоторые из которых стали фактическими стандартами, используются во всем мире телевизионными, кинематографическими и видеоинженерами по всему миру для разработки и тестирования моделей объективного качества, поскольку разработанные модели могут быть обучены на основе полученных субъективных данных.

Примеры этих баз данных включают популярную коллекцию общедоступных баз данных субъективного качества изображения, доступную на веб-сайте Лаборатории инженерии изображений и видео (LIVE) . Базы данных LIVE были первыми высококачественными крупными базами данных субъективного качества изображения, которые были доступны для общественности бесплатно и без утаивания какой-либо части данных. Последние работы включают базы данных Института исследований в области коммуникаций и кибернетики Нанта (IRCCyN) . Список европейских баз данных, относящихся к области качества опыта, можно найти в базах данных QUALINET .

использованная литература

  1. ^ Учебное пособие ITU-T: Объективная оценка восприятия качества видео: Полное справочное телевидение , 2004.
  2. ^ a b c d e f g h Рек. P.910: Методы субъективной оценки качества видео для мультимедийных приложений , 2008.
  3. ^ Винклер, Стефан. «О свойствах субъективных оценок в экспериментах по качеству видео» . Proc. Качество мультимедийного опыта , 2009 г.
  4. ^ Brunnström, Кьелл; Барковский, Маркус (2018-09-25). «Статистическое качество анализа опыта: планирование размера выборки и тестирование статистической значимости» . Журнал электронного изображения . 27 (5): 053013. Bibcode : 2018JEI .... 27e3013B . DOI : 10.1117 / 1.jei.27.5.053013 . ISSN  1017-9909 . S2CID  53058660 .
  5. ^ а б Пинсон, Массачусетс; Яновский, Л .; Pepion, R .; Huynh-Thu, Q .; Schmidmer, C .; Corriveau, P .; Юнкин, А .; Callet, P. Le; Барковский, М. (октябрь 2012 г.). «Влияние субъектов и окружающей среды на аудиовизуальные субъективные тесты: международное исследование» (PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640–651. Bibcode : 2012ISTSP ... 6..640P . DOI : 10,1109 / jstsp.2012.2215306 . ISSN  1932-4553 . S2CID  10667847 .
  6. ^ a b ITU-T P.913: Методы субъективной оценки качества видео, качества звука и аудиовизуального качества интернет-видео и качества распространения телевидения в любой среде , 2014 г.
  7. ^ a b c d e f ITU-R BT.500: Методология субъективной оценки качества телевизионных изображений , 2012 г.
  8. ^ Хосфелд, Тобиас (2014-01-15). «Лучшие практики крауд-тестирования QoE: оценка QoE с помощью краудсорсинга». Транзакции IEEE в мультимедиа . 16 (2): 541–558. DOI : 10,1109 / TMM.2013.2291663 . S2CID  16862362 .
  9. ^ Хоссфельд, Тобиас; Хирт, Матиас; Реди, Джудит; Мацца, Филиппо; Коршунов, Павел; Надери, Бабак; Зойферт, Майкл; Гардло, Бруно; Эггер, Себастьян (октябрь 2014 г.). «Лучшие практики и рекомендации по краудсорсингу QoE - уроки, извлеченные из целевой группы Qualinet« Краудсорсинг » » . хал-01078761. Цитировать журнал требует |journal=( помощь )
  10. ^ Яновский, Лучян; Пинсон, Маргарет (2015). «Точность испытуемых в качественном эксперименте: теоретическая предметная модель». Транзакции IEEE в мультимедиа . 17 (12): 2210–2224. DOI : 10.1109 / tmm.2015.2484963 . ISSN  1520-9210 . S2CID  22343847 .
  11. ^ Ли, Чжи; Бампис, Христос Г. (2017). «Восстановление субъективных показателей качества по измерениям с шумом». Конференция по сжатию данных 2017 г. (DCC) . IEEE: 52–61. arXiv : 1611.01715 . DOI : 10,1109 / dcc.2017.26 . ISBN 9781509067213. S2CID  14251604 .
  12. ^ Пинсон, Маргарет и Вольф, Стивен. «Сравнение субъективных методик тестирования качества видео» . Конференция SPIE по видеосвязи и обработке изображений , Лугано, Швейцария, июль 2003 г.

внешние ссылки