Сегментация изображения - Image segmentation

Модель сегментированной левой бедренной кости человека . Он показывает внешнюю поверхность (красный), поверхность между компактной костью и губчатой ​​костью (зеленый) и поверхность костного мозга (синий).

В цифровой обработки изображений и компьютерного зрения , сегментации изображений является процесс разбиения цифрового изображения на несколько сегментов ( наборы из пикселей , также известные как объекты изображения). Цель сегментации - упростить и / или изменить представление изображения на что-то более значимое и более простое для анализа. Сегментация изображения обычно используется для определения местоположения объектов и границ (линий, кривых и т. Д.) На изображениях. Точнее, сегментация изображения - это процесс присвоения метки каждому пикселю изображения таким образом, чтобы пиксели с одинаковой меткой обладали определенными характеристиками.

Результат сегментации изображения - это набор сегментов, которые вместе покрывают все изображение, или набор контуров, извлеченных из изображения (см. Определение краев ). Каждый из пикселей в области подобен некоторым характеристикам или вычисляемым свойствам, таким как цвет , интенсивность или текстура . Соседние области значительно различаются по цвету по отношению к одной и той же характеристике (ам). При применении к стопке изображений, типичной для медицинской визуализации , полученные контуры после сегментации изображения можно использовать для создания трехмерных реконструкций с помощью алгоритмов интерполяции, таких как маршевые кубы .

Приложения

Объем сегментация 3D-оказанной КТ в грудной клетке : Передняя грудная стенка, дыхательные пути и легочные сосуды передних к корню легкого, были в цифровом виде удалены для того , чтобы визуализировать грудное содержание:
- синие : легочные артерии
- красные : легочные вены (а также брюшная стенка )
- желтый : средостение
- фиолетовый : диафрагма

Некоторые из практических применений сегментации изображений:

Для сегментации изображений было разработано несколько универсальных алгоритмов и методов. Чтобы быть полезными, эти методы обычно должны сочетаться с конкретными знаниями предметной области, чтобы эффективно решать проблемы сегментации предметной области.

Классы методов сегментации

Есть два класса методов сегментации.

  • Классические подходы к компьютерному зрению
  • Методы, основанные на искусственном интеллекте

Группы сегментации изображений

  • Семантическая сегментация - это подход, определяющий для каждого пикселя принадлежность к классу объекта. Например, когда все люди на фигуре сегментированы как один объект, а фон - как один объект.
  • Сегментация экземпляров - это подход, который идентифицирует для каждого пикселя принадлежащий ему экземпляр объекта. Он обнаруживает каждый отдельный интересующий объект на изображении. Например, когда каждый человек на фигуре сегментируется как отдельный объект.

Пороговое значение

Самый простой метод сегментации изображения называется методом пороговой обработки . Этот метод основан на уровне клипа (или пороговом значении) для преобразования полутонового изображения в двоичное изображение.

Ключевым моментом этого метода является выбор порогового значения (или значений при выборе нескольких уровней). В промышленности используются несколько популярных методов, в том числе метод максимальной энтропии, пороговая обработка сбалансированной гистограммы , метод Оцу (максимальная дисперсия) и кластеризация k-средних .

В последнее время были разработаны методы определения пороговых значений изображений компьютерной томографии (КТ). Ключевая идея заключается в том, что, в отличие от метода Оцу, пороговые значения выводятся на основе рентгенограмм, а не (реконструированного) изображения.

Новые методы предполагали использование многомерных нелинейных пороговых значений на основе нечетких правил. В этих работах решение о принадлежности каждого пикселя к сегменту основано на многомерных правилах, полученных из нечеткой логики и эволюционных алгоритмов, основанных на среде освещения изображения и приложении.

Методы кластеризации

Исходное изображение
Исходное изображение.
Обработанное изображение
Изображение после запуска k -means с k = 16 . Обратите внимание, что распространенный метод повышения производительности для больших изображений - это уменьшить разрешение изображения, вычислить кластеры, а затем при необходимости переназначить значения большему изображению.

Алгоритм K-средство представляет собой итеративный метод , который используется для разбиения изображения на K кластеров. Базовый алгоритм :

  1. Выберите K кластерных центров случайным образом или на основе какого-либо эвристического метода, например K-means ++
  2. Назначьте каждый пиксель изображения кластеру, чтобы минимизировать расстояние между пикселем и центром кластера.
  3. Пересчитайте центры кластера, усреднив все пиксели в кластере.
  4. Повторяйте шаги 2 и 3 до тех пор, пока не будет достигнута сходимость (т. Е. Кластеры не меняются).

В этом случае расстояние - это квадрат или абсолютная разница между пикселем и центром кластера. Разница обычно основана на цвете пикселя , интенсивности , текстуре и местоположении или на взвешенной комбинации этих факторов. K можно выбрать вручную, случайным образом или с помощью эвристики . Этот алгоритм гарантированно сходится, но он может не вернуть оптимальное решение. Качество решения зависит от исходного набора кластеров и значения K .

Движение и интерактивная сегментация

Сегментация на основе движения - это метод, основанный на движении изображения для выполнения сегментации.

Идея проста: посмотрите на различия между парой изображений. Если предположить, что интересующий объект движется, разница будет именно в этом объекте.

Улучшив эту идею, Kenney et al. предложена интерактивная сегментация [2] . Они используют робота, чтобы толкать объекты, чтобы генерировать сигнал движения, необходимый для сегментации на основе движения.

Интерактивная сегментация следует структуре интерактивного восприятия, предложенной Довом Кацем [3] и Оливером Броком [4] .

Методы на основе сжатия

Методы, основанные на сжатии, постулируют, что оптимальная сегментация - это та, которая минимизирует по всем возможным сегментам длину кодирования данных. Связь между этими двумя концепциями заключается в том, что сегментация пытается найти закономерности в изображении, и любую регулярность изображения можно использовать для его сжатия. Метод описывает каждый сегмент своей текстурой и формой границы. Каждый из этих компонентов моделируется функцией распределения вероятностей, и длина его кодирования вычисляется следующим образом:

  1. Кодирование границ использует тот факт, что области на естественных изображениях имеют тенденцию иметь гладкий контур. Этот предварительный код используется при кодировании Хаффмана для кодирования кода цепочки разностей контуров изображения. Таким образом, чем более гладкая граница, тем короче длина кодирования, которую она достигает.
  2. Текстура кодируется сжатием с потерями аналогично принципу минимальной длины описания (MDL), но здесь длина данных, заданных в модели, аппроксимируется числом выборок, умноженным на энтропию модели. Текстура в каждой области моделируется многомерным нормальным распределением , энтропия которого имеет выражение в замкнутой форме. Интересным свойством этой модели является то, что оцененная энтропия ограничивает истинную энтропию данных сверху. Это связано с тем, что среди всех распределений с заданным средним значением и ковариацией нормальное распределение имеет наибольшую энтропию. Таким образом, истинная длина кодирования не может быть больше той, которую алгоритм пытается минимизировать.

Для любой данной сегментации изображения эта схема дает количество битов, необходимых для кодирования этого изображения на основе данной сегментации. Таким образом, среди всех возможных сегментов изображения цель состоит в том, чтобы найти сегментацию, которая дает наименьшую длину кодирования. Этого можно добиться с помощью простого метода агломеративной кластеризации. Искажение при сжатии с потерями определяет грубость сегментации, и его оптимальное значение может отличаться для каждого изображения. Этот параметр можно эвристически оценить по контрасту текстур на изображении. Например, когда текстуры в изображении похожи, например, в камуфляжных изображениях, требуется более высокая чувствительность и, следовательно, меньшее квантование.

Методы на основе гистограмм

Методы, основанные на гистограммах , очень эффективны по сравнению с другими методами сегментации изображений, поскольку обычно для них требуется только один проход через пиксели . В этом методе гистограмма вычисляется по всем пикселям изображения, а пики и впадины на гистограмме используются для определения местоположения кластеров на изображении. В качестве меры можно использовать цвет или интенсивность .

Уточнение этого метода состоит в том, чтобы рекурсивно применять метод поиска гистограммы к кластерам в изображении, чтобы разделить их на более мелкие кластеры. Эта операция повторяется с меньшими и меньшими кластерами, пока не перестанут образовываться кластеры.

Одним из недостатков метода поиска гистограммы является то, что может быть трудно идентифицировать значимые пики и впадины на изображении.

Подходы на основе гистограмм также можно быстро адаптировать для применения к нескольким кадрам, сохраняя при этом их эффективность за один проход. Гистограмма может быть построена несколькими способами, если рассматривается несколько кадров. Тот же подход, который применяется к одному кадру, может быть применен к нескольким, и после объединения результатов пики и впадины, которые ранее было трудно идентифицировать, с большей вероятностью будут различимы. Гистограмма также может применяться на попиксельной основе, где полученная информация используется для определения наиболее частого цвета для местоположения пикселя. Этот подход сегментирует на основе активных объектов и статической среды, что приводит к другому типу сегментации, полезной при отслеживании видео .

Обнаружение края

Обнаружение краев - это хорошо развитая область обработки изображений. Границы и края областей тесно связаны, так как часто происходит резкое изменение интенсивности на границах области. Поэтому методы обнаружения краев были использованы в качестве основы для другого метода сегментации.

Края, идентифицированные с помощью обнаружения кромок, часто отсоединяются. Однако, чтобы отделить объект от изображения, нужны замкнутые границы области. Желаемые края - это границы между такими объектами или пространственными таксонами.

Пространственные таксоны - это информационные гранулы, состоящие из четкой области пикселей, расположенные на уровнях абстракции в иерархической вложенной архитектуре сцены. Они похожи на гештальт- психологическое обозначение фигуры-фона, но расширены, чтобы включать передний план, группы объектов, объекты и заметные части объекта. Методы обнаружения краев могут применяться к области пространственного таксона точно так же, как они применяются к силуэту. Этот метод особенно полезен, когда отключенный край является частью иллюзорного контура.

Методы сегментации также могут применяться к кромкам, полученным с помощью детекторов кромок. Линдеберг и Ли разработали интегрированный метод, который сегментирует кромки на прямые и изогнутые кромочные сегменты для распознавания объектов на основе частей, на основе критерия минимальной длины описания (M DL ), который был оптимизирован методом, подобным разделению и слиянию, с кандидатами на точки останова. полученные из дополнительных реплик соединения, чтобы получить более вероятные точки, в которых можно рассмотреть разделение на разные сегменты.

Двойной метод кластеризации

Этот метод представляет собой комбинацию трех характеристик изображения: разбиение изображения на основе анализа гистограмм проверяется высокой компактностью кластеров (объектов) и высокими градиентами их границ. Для этого необходимо ввести два пространства: одно пространство - одномерная гистограмма яркости HH ( B ); второе пространство - это двойное трехмерное пространство самого исходного изображения BB ( xy ). Первое пространство позволяет измерить, насколько компактно распределена яркость изображения, вычисляя минимальную кластеризацию kmin. Пороговая яркость T, соответствующая kmin, определяет двоичное (черно-белое) изображение - растровое изображение bφ ( xy ), где φ ( xy ) = 0, если B ( xy ) <  T , и φ ( ху ) = 1, если B ( ху ) ≥  T . Растровое изображение b - это объект в двойном пространстве. На этом растровом изображении должна быть определена мера, отражающая, насколько компактно распределены черные (или белые) пиксели. Итак, цель - найти объекты с хорошими границами. Для всех T должна быть рассчитана мера M DCG / ( k  ×  L ) (где k - разница в яркости между объектом и фоном, L - длина всех границ, а G - средний градиент на границах). Максимум MDC определяет сегментацию.

Способы выращивания в регионах

Методы наращивания области основаны в основном на предположении, что соседние пиксели в одной области имеют одинаковые значения. Обычная процедура - это сравнение одного пикселя с его соседями. Если критерий подобия удовлетворен, пиксель может быть установлен так, чтобы он принадлежал тому же кластеру, что и один или несколько его соседей. Выбор критерия подобия важен, и на результаты во всех случаях влияет шум.

Метод статистического объединения областей (SRM) начинается с построения графа пикселей с использованием 4-связности с краями, взвешенными по абсолютному значению разности яркости. Первоначально каждый пиксель образует одну пиксельную область. Затем SRM сортирует эти края в очереди по приоритету и решает, следует ли объединить текущие области, принадлежащие краевым пикселям, с использованием статистического предиката.

Одним из методов выращивания области является метод выращивания области с посевом. Этот метод принимает набор семян в качестве входных данных вместе с изображением. Семена отмечают каждый из объектов, которые нужно сегментировать. Области итеративно увеличиваются путем сравнения всех нераспределенных соседних пикселей с областями. Разница между значением интенсивности пикселя и средним значением области используется в качестве меры сходства . Пиксель с наименьшей разницей, измеренной таким образом, назначается соответствующей области. Этот процесс продолжается до тех пор, пока все пиксели не будут присвоены области. Поскольку для выращивания посевной области требуются семена в качестве дополнительных входных данных, результаты сегментации зависят от выбора семян, а шум на изображении может привести к неправильному размещению семян.

Другой метод выращивания регионов - это метод выращивания незасеянных регионов. Это модифицированный алгоритм, не требующий явных начальных чисел. Он начинается с одной области - выбранный здесь пиксель не оказывает заметного влияния на окончательную сегментацию. На каждой итерации он учитывает соседние пиксели так же, как растёт засеянная область. Он отличается от выращивания засеянной области тем, что если минимум меньше заранее определенного порога, то он добавляется в соответствующую область . В противном случае пиксель считается отличным от всех текущих областей, и с этим пикселем создается новая область .

Один из вариантов этого метода, предложенный Хараликом и Шапиро (1985), основан на интенсивности пикселей . Средний и разброс региона и интенсивность кандидата пикселя используются для вычисления тестовой статистики. Если статистика теста достаточно мала, пиксель добавляется к области, а среднее значение области и разброс пересчитываются. В противном случае пиксель отклоняется и используется для формирования новой области.

Особый метод наращивания области называется -связной сегментацией (см. Также лямбда-связность ). Он основан на интенсивности пикселей и путях связывания соседей. Степень связности (связности) рассчитывается на основе пути, образованного пикселями. Для определенного значения два пикселя называются -связанными, если существует путь, соединяющий эти два пикселя, и связность этого пути не меньше . -связность - это отношение эквивалентности.

Сегментация с разделением и слиянием основана на разделе изображения в виде дерева квадрантов . Иногда это называют сегментацией дерева квадрантов.

Этот метод начинается с корня дерева, представляющего все изображение. Если он оказывается неоднородным (неоднородным), то он разбивается на четыре дочерних квадрата (процесс разделения) и так далее. Если, напротив, четыре дочерних квадрата однородны, они объединяются как несколько связанных компонентов (процесс объединения). Узел в дереве - это сегментированный узел. Этот процесс продолжается рекурсивно до тех пор, пока дальнейшие разделения или слияния не станут невозможными. Когда в реализации алгоритма метода задействована специальная структура данных, ее временная сложность может достигать оптимального алгоритма метода.

Методы на основе дифференциальных уравнений в частных производных

Используя метод на основе уравнения в частных производных (PDE) и решая уравнение PDE с помощью числовой схемы, можно сегментировать изображение. Распространение кривой - популярный метод в этой категории, с многочисленными приложениями для извлечения объектов, отслеживания объектов, стерео реконструкции и т.д. быть адресованным. Что касается большинства обратных задач , минимизация функционала стоимости является нетривиальной и накладывает определенные ограничения гладкости на решение, которые в данном случае могут быть выражены как геометрические ограничения на развивающуюся кривую.

Параметрические методы

Лагранжевые методы основаны на параметризации контура в соответствии с некоторой стратегией выборки и последующем развитии каждого элемента в соответствии с изображением и внутренними условиями. Такие методы являются быстрыми и эффективными, однако исходная «чисто параметрическая» формулировка (разработанная Кассом, Уиткиным и Терзопулосом в 1987 году и известная как « змеи ») обычно критикуется за ее ограничения в отношении выбора стратегии выборки, внутренних геометрических свойств. кривой, изменения топологии (разделение и слияние кривой), решение проблем в более высоких измерениях и т. д. В настоящее время были разработаны эффективные «дискретные» формулировки для устранения этих ограничений при сохранении высокой эффективности. В обоих случаях минимизация энергии обычно проводится с использованием спуска с наивысшим градиентом, в результате чего производные вычисляются с использованием, например, конечных разностей.

Методы установки уровня

Метод установки уровня был первоначально предложен для отслеживания движущихся интерфейсов Дервье и Томассет в 1979 и 1981 годах, а позже был заново изобретен Ошером и Сетхианом в 1988 году. В конце 1990-х он распространился по различным областям визуализации. Его можно использовать для эффективного решения проблемы кривой / поверхности / и т. Д. распространение неявным образом. Основная идея состоит в том, чтобы представить развивающийся контур с помощью функции со знаком, ноль которой соответствует фактическому контуру. Тогда, согласно уравнению движения контура, можно легко получить аналогичный поток для неявной поверхности, который при применении к нулевому уровню будет отражать распространение контура. Метод установки уровней дает множество преимуществ: он неявный, не содержит параметров, обеспечивает прямой способ оценки геометрических свойств развивающейся структуры, позволяет изменять топологию и является внутренним. Его можно использовать для определения структуры оптимизации, предложенной Чжао, Мерриманом и Ошером в 1996 году. Можно сделать вывод, что это очень удобная структура для решения многочисленных приложений компьютерного зрения и анализа медицинских изображений. Исследования различных структур данных с набором уровней привели к очень эффективной реализации этого метода.

Методы быстрого марша

Метод быстрого перехода использовался при сегментации изображения, и эта модель была улучшена (позволяя как положительные, так и отрицательные скорости распространения) в подходе, называемом обобщенным методом быстрого перехода.

Вариационные методы

Цель вариационных методов - найти сегментацию, оптимальную по отношению к конкретному функционалу энергии. Функционалы состоят из члена аппроксимации данных и регуляризующего члена. Классическим представителем является модель Потс определена для изображения с помощью

Минимизатор - это кусочно-постоянное изображение, которое имеет оптимальный компромисс между квадратом расстояния L2 до данного изображения и общей длиной его набора скачков. Набор переходов определяет сегментацию. Относительный вес энергий настраивается параметром . Бинарный вариант модели Поттса, т. Е. Если диапазон ограничен двумя значениями, часто называют моделью Чанвеса . Важным обобщением является модель Мамфорда-Шаха, представленная

Функциональное значение - это сумма общей длины кривой сегментации , гладкости приближения и расстояния до исходного изображения . Вес штрафа за гладкость регулируется на . Модель Поттса часто называют кусочно-постоянной моделью Мамфорда-Шаха, поскольку ее можно рассматривать как вырожденный случай . Как известно, задачи оптимизации в целом являются NP-трудными, но стратегии, близкие к минимизации, хорошо работают на практике. Классические алгоритмы - это градуированная невыпуклость и приближение Амброзио-Торторелли .

Методы разбиения графа

Методы разделения графа являются эффективными инструментами для сегментации изображений, поскольку они моделируют влияние окрестностей пикселей на данный кластер пикселей или пиксель в предположении однородности изображений. В этих методах изображение моделируется как взвешенный неориентированный граф . Обычно пиксель или группа пикселей связаны с узлами, а веса краев определяют (не) сходство между соседними пикселями. Затем граф (изображение) разделяется в соответствии с критерием, разработанным для моделирования «хороших» кластеров. Каждый раздел узлов (пикселей), выводимых этими алгоритмами, считается сегментом объекта на изображении; см. Категоризацию объектов на основе сегментации . Некоторые популярные алгоритмы этой категории - это нормализованные разрезы, случайный обход , минимальный разрез, изопериметрическое разбиение, сегментация на основе минимального остовного дерева и категоризация объектов на основе сегментации .

Марковские случайные поля

Применение марковских случайных полей (MRF) для изображений было предложено в начале 1984 г. Геманом и Геманом. Их сильная математическая основа и способность обеспечивать глобальный оптимум даже при определении локальных характеристик оказались основой новых исследований в области анализа изображений, устранения шумов и сегментации. MRF полностью характеризуются своими априорными распределениями вероятностей, распределениями предельных вероятностей, кликами , ограничением сглаживания, а также критерием обновления значений. Критерий сегментации изображения с использованием MRF переформулируется как нахождение схемы маркировки, которая имеет максимальную вероятность для данного набора функций. Широкие категории сегментации изображений с использованием MRF включают контролируемую и неконтролируемую сегментацию.

Контролируемая сегментация изображений с использованием MRF и MAP

С точки зрения сегментации изображения функция, которую MRF стремятся максимизировать, - это вероятность идентификации схемы маркировки при условии, что в изображении обнаружен конкретный набор функций. Это повторение метода максимальной апостериорной оценки .

Окрестности MRF для выбранного пикселя

Общий алгоритм сегментации изображений с использованием MAP приведен ниже:

  1. Определите окрестности каждого объекта (случайная величина в терминах MRF).
    Обычно это включает соседей 1-го или 2-го порядка.
  2. Установите начальные вероятности P ( f i ) > для каждого объекта как 0 или
  3. где f i ∈ Σ - это набор, содержащий признаки, извлеченные
    для пикселя i и определяющие начальный набор кластеров.
  4. Используя данные обучения, вычислите среднее ( μ i ) и дисперсию ( σ i ) для каждой метки. Это называется классовой статистикой.
  5. Вычислите маржинальное распределение для данной схемы разметки P ( f i  |  i ), используя теорему Байеса и статистику классов, вычисленную ранее. Для маржинального распределения используется гауссовская модель.
  6. Вычислите вероятность каждой метки класса с учетом ранее определенной окрестности. Потенциалы
    клики используются для моделирования социального воздействия маркировки.
  7. Перебирайте новые априорные вероятности и переопределяйте кластеры так, чтобы эти вероятности были максимальными.
    Это делается с помощью множества алгоритмов оптимизации, описанных ниже.
  8. Остановитесь, когда вероятность максимальна и схема маркировки не изменится.
    Расчеты также могут быть реализованы в терминах логарифмического правдоподобия .

Алгоритмы оптимизации

Каждый алгоритм оптимизации представляет собой адаптацию моделей из множества областей, и они отличаются своими уникальными функциями стоимости. Общей чертой функций стоимости является наказание за изменение значения пикселя, а также за разницу в метке пикселя по сравнению с метками соседних пикселей.

Итерированные условные режимы / градиентный спуск

Итерироваться условные режимы алгоритм (ИВМ) пытается восстановить схему идеальной маркировки путем изменения значения каждого пикселя над каждой итерации и оценки энергии новой схемы маркировки с использованием функции затрат , приведенной ниже,

где α - штраф за изменение метки пикселя, а β - штраф за разницу в метке между соседними пикселями и выбранным пикселем. Здесь окрестность пикселя i, а δ - дельта-функция Кронекера. Основная проблема с ICM заключается в том, что, как и в случае с градиентным спуском, он имеет тенденцию задерживаться над локальными максимумами и, таким образом, не может получить глобально оптимальную схему маркировки.

Имитация отжига (SA)

Полученный как аналог отжига в металлургии, имитация отжига (SA) использует изменение метки пикселей в ходе итераций и оценивает разницу в энергии каждого вновь сформированного графа с исходными данными. Если вновь сформированный график более выгоден с точки зрения низкой стоимости энергии, рассчитывается следующим образом:

алгоритм выбирает вновь сформированный граф. Имитация отжига требует ввода температурных графиков, которые напрямую влияют на скорость сходимости системы, а также на энергетический порог для минимизации.

Альтернативные алгоритмы

Существует ряд других методов для решения простых MRF, а также MRF более высокого порядка. Они включают в себя максимизацию заднего края, многомасштабную оценку MAP, сегментацию с несколькими разрешениями и многое другое. Помимо оценок правдоподобия, для решения MRF существуют методы вырезания графа с использованием максимального потока и другие сильно ограниченные методы на основе графов.

Сегментация изображений с использованием MRF и максимального ожидания

Алгоритм ожидания Максимизация используется для итерационного оценить заднюю вероятности и распределения мечения , когда никакой подготовки данных не имеется , и никакой оценки сегментации модели не может быть сформирована. Общий подход состоит в том, чтобы использовать гистограммы для представления характеристик изображения и действовать, как кратко изложено в этом трехэтапном алгоритме:

1. Используется случайная оценка параметров модели.

2. Шаг E: оценка статистики класса на основе определенной модели случайной сегментации. Используя их, вычислите условную вероятность принадлежности к метке, учитывая, что набор функций рассчитывается с использованием наивной теоремы Байеса .

Здесь набор всех возможных этикеток.

3. Шаг M: Установленная релевантность данного набора характеристик схеме маркировки теперь используется для вычисления априорной оценки данной метки во второй части алгоритма. Поскольку фактическое количество общих меток неизвестно (из набора обучающих данных), в вычислениях используется скрытая оценка количества меток, заданных пользователем.

где - набор всех возможных функций.

Сегментация цветного изображения с использованием модели HMRF-EM

Недостатки сегментации изображений на основе MAP и EM

  1. Точные оценки MAP не могут быть легко вычислены.
  2. Приблизительные оценки MAP требуют больших вычислительных ресурсов для вычисления.
  3. Расширение до мультиклассовой маркировки снижает производительность и увеличивает необходимое пространство для хранения.
  4. Для достижения глобальных оптимумов требуется надежная оценка параметров ЭМ.
  5. На основе метода оптимизации сегментация может группироваться до локальных минимумов.

Трансформация водораздела

Преобразование водораздела рассматривает величину градиента изображения как топографической поверхности. Пиксели, имеющие наивысшие значения интенсивности градиента (GMI), соответствуют линиям водоразделов, которые представляют границы области. Вода, помещенная на любой пиксель, ограниченный общей линией водораздела, течет вниз до общего локального минимума интенсивности (LIM). Пиксели, стекающие к общему минимуму, образуют бассейн, который представляет собой сегмент.

Сегментация на основе модели

Центральное предположение подходов, основанных на моделях, заключается в том, что интересующие структуры имеют тенденцию к определенной форме. Следовательно, можно искать вероятностную модель, которая характеризует форму и ее изменение. При сегментировании изображения ограничения могут быть наложены с использованием этой модели в качестве априорной. Такая задача может включать (i) регистрацию обучающих примеров в общей позе, (ii) вероятностное представление вариации зарегистрированных образцов и (iii) статистический вывод между моделью и изображением. Другие важные методы в литературе для сегментации на основе модели включают активные модели формы и активные модели внешнего вида .

Многомасштабная сегментация

Сегментация изображения вычисляется в нескольких масштабах в пространстве шкалы и иногда распространяется от грубого до мелкого масштаба; см. сегментацию пространства масштаба .

Критерии сегментации могут быть сколь угодно сложными и могут учитывать как глобальные, так и локальные критерии. Общее требование состоит в том, что каждый регион должен быть в некотором смысле связан.

Одномерная иерархическая сегментация сигналов

Основополагающая работа Уиткина в масштабном пространстве включала идею о том, что одномерный сигнал может быть однозначно сегментирован на области с одним масштабным параметром, контролирующим масштаб сегментации.

Ключевое наблюдение состоит в том, что пересечения нуля вторых производных (минимумов и максимумов первой производной или наклона) многомасштабных сглаженных версий сигнала образуют дерево вложенности, которое определяет иерархические отношения между сегментами на разных масштабах. В частности, экстремумы наклона на крупных масштабах можно проследить до соответствующих особенностей на мелких масштабах. Когда максимум наклона и минимум наклона аннигилируют друг друга в большем масштабе, три сегмента, которые они разделены, сливаются в один сегмент, тем самым определяя иерархию сегментов.

Сегментация изображения и первичный набросок

В этой области было проведено множество исследовательских работ, из которых некоторые сейчас достигли состояния, когда они могут применяться либо с интерактивным ручным вмешательством (обычно с применением к медицинской визуализации), либо полностью автоматически. Ниже приводится краткий обзор некоторых основных исследовательских идей, на которых основаны современные подходы.

Однако структура вложенности, описанная Уиткиным, специфична для одномерных сигналов и нетривиально переносится на изображения более высокой размерности. Тем не менее, эта общая идея вдохновила нескольких других авторов на исследование схем от грубого к точному для сегментации изображений. Кендеринк предложил изучить, как изоинтенсивные контуры эволюционируют по шкале, и этот подход более подробно исследовали Лифшиц и Пайзер. К сожалению, однако, интенсивность элементов изображения изменяется в зависимости от масштаба, что означает, что трудно отследить крупномасштабные элементы изображения до более мелких масштабов, используя информацию об изоинтенсивности.

Линдеберг изучил проблему связывания локальных экстремумов и седловых точек на масштабах и предложил представление изображения, называемое первичным эскизом масштабного пространства, которое делает явными отношения между структурами на разных масштабах, а также делает явным, какие особенности изображения являются стабильными в больших диапазонах шкала, в том числе шкала, соответствующая местным условиям. Бергхольм предложил обнаруживать края в грубых масштабах в пространстве масштабов, а затем прослеживать их до более мелких масштабов с ручным выбором шкалы грубого обнаружения и шкалы точной локализации.

Гауч и Пайзер изучили дополнительную проблему гребней и долин в нескольких масштабах и разработали инструмент для интерактивной сегментации изображений на основе многомасштабных водоразделов. Использование многомасштабного водораздела с применением к карте градиентов также исследовалось Олсеном и Нильсеном и было перенесено в клиническое использование компанией Dam. Vincken et al. предложил гиперстек для определения вероятностных отношений между структурами изображений в различных масштабах. Использование стабильных структур изображений в масштабе было продвинуто Ахуджей и его сотрудниками в полностью автоматизированную систему. Полностью автоматический алгоритм сегментации мозга, основанный на тесно связанных идеях многомасштабных водоразделов, был представлен Ундеманом и Линдебергом и тщательно протестирован в базах данных мозга.

Эти идеи многомасштабной сегментации изображения путем связывания структур изображения по масштабам также были подхвачены Флорак и Куиджпер. Биджауи и Руэ связывают структуры, обнаруженные в масштабном пространстве выше минимального порога шума, с деревом объектов, которое охватывает несколько масштабов и соответствует некоторому типу функции в исходном сигнале. Извлеченные объекты точно реконструируются с использованием итеративного метода матрицы сопряженных градиентов.

Полуавтоматическая сегментация

В одном из видов сегментации пользователь выделяет интересующую область с помощью щелчков мышью, и применяются алгоритмы, так что путь, который лучше всего подходит к краю изображения, отображается.

В этом виде сегментации используются такие методы, как SIOX , Livewire , Intelligent Scissors или IT-SNAPS. В альтернативном виде полуавтоматической сегментации алгоритмы возвращают пространственный таксон (т.е. передний план, группу объектов, объект или часть объекта), выбранный пользователем или обозначенный через априорные вероятности.

Обучаемая сегментация

Большинство вышеупомянутых методов сегментации основаны только на информации о цвете пикселей изображения. Люди используют гораздо больше знаний при выполнении сегментации изображений, но внедрение этих знаний потребует значительных затрат человеческих инженерных и вычислительных затрат и потребует огромной базы данных знаний в предметной области, которой в настоящее время не существует. Обучаемые методы сегментации, такие как сегментация нейронной сети, позволяют преодолеть эти проблемы, моделируя знания предметной области из набора данных с помеченными пикселями.

Нейронная сеть сегментации изображений может обрабатывать небольшие области изображения для извлечения простых функций, таких как края. Затем другая нейронная сеть или любой механизм принятия решений могут комбинировать эти функции, чтобы соответствующим образом маркировать области изображения. Разновидностью сети, построенной таким образом, является карта Кохонена .

Нейронные сети с импульсной связью (PCNN) - это нейронные модели, предложенные путем моделирования зрительной коры головного мозга кошки и разработанные для высокопроизводительной биомиметической обработки изображений . В 1989 году Райнхард Экхорн представил нейронную модель, имитирующую механизм зрительной коры головного мозга кошки. Модель Экхорна предоставила простой и эффективный инструмент для изучения зрительной коры мелких млекопитающих и вскоре была признана имеющей значительный потенциал применения в обработке изображений. В 1994 году модель Экхорна была адаптирована как алгоритм обработки изображений Джоном Л. Джонсоном, который назвал этот алгоритм импульсной нейронной сетью. За последнее десятилетие PCNN использовались для множества приложений обработки изображений, в том числе для сегментации изображения, генерации признаков, выделения лиц, обнаружения движения, увеличения области, уменьшения шума и т. Д. PCNN - это двухмерная нейронная сеть. Каждый нейрон в сети соответствует одному пикселю во входном изображении, получая информацию о цвете соответствующего пикселя (например, интенсивность) в качестве внешнего стимула. Каждый нейрон также соединяется со своими соседними нейронами, получая от них локальные стимулы. Внешние и местные стимулы объединяются во внутреннюю систему активации, которая накапливает стимулы до тех пор, пока не превысит динамический порог, что приводит к импульсному выходу. Путем итеративного вычисления нейроны PCNN производят временные серии выходных импульсов. Временной ряд выходных импульсов содержит информацию о входных изображениях и может использоваться для различных приложений обработки изображений, таких как сегментация изображения и генерация признаков. По сравнению с обычными средствами обработки изображений, PCNN имеют несколько существенных достоинств, включая устойчивость к шуму, независимость от геометрических изменений во входных рисунках, способность преодолевать незначительные изменения интенсивности во входных рисунках и т. Д.

U-Net - это сверточная нейронная сеть, которая принимает на вход изображение и выводит метку для каждого пикселя. Первоначально U-Net был разработан для обнаружения границ клеток на биомедицинских изображениях. U-Net следует классической архитектуре автоэнкодера , поэтому он содержит две подструктуры . Структура кодера следует традиционному стеку сверточных слоев и слоев максимального пула для увеличения воспринимающего поля по мере его прохождения через слои. Он используется для фиксации контекста изображения. В структуре декодера используются транспонированные сверточные слои для повышения дискретизации, так что конечные размеры близки к размерам входного изображения. Пропускные соединения помещаются между сверточными и транспонированными сверточными слоями одинаковой формы, чтобы сохранить детали, которые в противном случае были бы потеряны.

В дополнение к задачам семантической сегментации на уровне пикселей, которые присваивают заданную категорию каждому пикселю, современные приложения сегментации включают задачи семантической сегментации на уровне экземпляра, в которых каждый человек в данной категории должен быть уникально идентифицирован, а также задачи паноптической сегментации, которые объединяют эти две задачи для обеспечения более полной сегментации сцены.

Сегментация похожих изображений и видео

Связанные изображения, такие как фотоальбом или последовательность видеокадров, часто содержат семантически похожие объекты и сцены, поэтому часто полезно использовать такие корреляции. Задача одновременного сегментирования сцен из связанных изображений или видеокадров называется совместной сегментацией , которая обычно используется при локализации действий человека . В отличие от обычного обнаружения объектов на основе ограничивающей рамки , методы локализации действий человека обеспечивают более детализированные результаты, обычно сегментирующие маски для каждого изображения, очерчивающие интересующий человеческий объект и его категорию действия (например, сегмент-трубка ). Такие методы, как динамические сети Маркова , CNN и LSTM , часто используются для использования межкадровых корреляций.

Другие методы

Существует множество других методов сегментации, таких как мультиспектральная сегментация или сегментация на основе связности, основанная на изображениях DTI .

Тестирование сегментации

Доступны несколько тестов сегментации для сравнения производительности методов сегментации с современными методами сегментации на стандартизованных наборах:

Смотрите также

Примечания

использованная литература

внешние ссылки