Положительно определенное ядро ​​- Positive-definite kernel

В теории операторов , разделе математики, положительно определенное ядро - это обобщение положительно определенной функции или положительно определенной матрицы . Впервые он был введен Джеймсом Мерсером в начале 20 века в контексте решения интегральных операторных уравнений . С тех пор положительно определенные функции и их различные аналоги и обобщения возникли в различных разделах математики. Они встречаются в природе в анализе Фурье , теории вероятностей , теории операторов , комплексной функции-теории , проблемы моментов , интегральных уравнений , краевых задач для дифференциальных уравнений в частных , машинного обучения , встраивание проблемы , теории информации , а также в других областях.

В этой статье будут обсуждаться некоторые исторические и современные разработки теории положительно определенных ядер, начиная с общей идеи и свойств до рассмотрения практических приложений.

Определение

Позвольте быть непустым набором, иногда называемым набором индексов. Симметричная функция называется положительно определенной (PD) ядро на если

справедливо для любого , данного .

В теории вероятностей иногда проводится различие между положительно определенными ядрами, для которых следует равенство в (1.1) , и положительно полуопределенными (psd) ядрами, которые не накладывают этого условия. Обратите внимание, что это эквивалентно требованию, чтобы любая конечная матрица, построенная путем попарного вычисления , имела либо полностью положительные (pd), либо неотрицательные (psd) собственные значения .

В математической литературе ядра обычно представляют собой комплексные функции, но в этой статье мы предполагаем, что функции действительны, что является обычной практикой в ​​приложениях ядер pd.

Некоторые общие свойства

  • Для семейства ядер pd
    • Сумма равна pd, учитывая
    • Продукт pd, учитывая
    • Предел равен pd, если предел существует.
  • Если - последовательность наборов и последовательность ядер pd, то оба
а также
это ядра pd на .
  • Пусть . Тогда ограничение на к также П.Д. ядра.

Примеры ядер pd

  • Общие примеры ядер pd, определенных в евклидовом пространстве, включают:
    • Линейное ядро: .
    • Полиномиальное ядро : .
    • Гауссово ядро ( RBF ядра ): .
    • Лапласиане ядро: .
    • Абель ядро: .
    • ядро, порождающее соболевские пространства :, где - функция Бесселя третьего рода .
    • порождающее ядро Палея-Винера пространство: .
  • Если это гильбертово пространство , то его соответствующий скалярный продукт является ядром pd. Действительно, у нас есть
  • Ядра, определенные на гистограммах и гистограммы: гистограммы часто встречаются при решении реальных задач. Большинство наблюдений обычно доступны в виде неотрицательных векторов подсчетов, которые, если нормализовать, дают гистограммы частот. Было показано, что следующее семейство квадратичных показателей, соответственно дивергенция Дженсена, -квадрат, общая вариация и две вариации расстояния Хеллингера:

может использоваться для определения ядер pd по следующей формуле

История

Положительно определенные ядра, как они определены в (1.1), впервые появились в 1909 году в статье Джеймса Мерсера об интегральных уравнениях. Несколько других авторов использовали эту концепцию в последующие два десятилетия, но ни один из них не использовал явно ядра , функции iepd (действительно, М. Матиас и С. Бохнер, похоже, не знали об изучении ядер pd). Работа Мерсера возникла из статьи Гильберта 1904 года об интегральных уравнениях Фредгольма второго рода:

В частности, Гильберт показал, что

где - непрерывное вещественное симметричное ядро, непрерывно, - полная система ортонормированных собственных функций , а s - соответствующие собственные значения (1.2). Гильберт определил «определенное» ядро ​​как ядро, для которого двойной интеграл

удовлетворяет за исключением . Первоначальной целью статьи Мерсера было охарактеризовать ядра, определенные в смысле Гильберта, но Мерсер вскоре обнаружил, что класс таких функций слишком ограничен, чтобы характеризовать их в терминах определителей. Поэтому он определил непрерывное вещественное симметрическое ядро положительного типа (т. Е. Положительно определенное) if для всех действительных непрерывных функций на , и доказал, что (1.1) является необходимым и достаточным условием для того, чтобы ядро ​​было положительного типа. Затем Мерсер доказал, что для любого непрерывного ядра pd расширение

держится абсолютно и равномерно.

Примерно в то же время У. Янг, мотивированный другим вопросом теории интегральных уравнений, показал, что для непрерывных ядер условие (1.1) эквивалентно для всех .

Э. Х. Мур инициировал изучение ядра PD в очень общем виде. Если - абстрактное множество, он вызывает функции, определенные на «положительных эрмитовых матрицах», если они удовлетворяют (1.1) для всех . Мур интересовался обобщением интегральных уравнений и показал, что для каждого такого существует гильбертово пространство функций, такое что для каждого . Это свойство называется воспроизводящим свойством ядра и оказывается важным при решении краевых задач для эллиптических уравнений в частных производных.

Другим направлением развития, в котором ядра pd играли большую роль, была теория гармоник на однородных пространствах, начатая Э. Картаном в 1929 г. и продолженная Х. Вейлем и С. Ито. Наиболее исчерпывающей теорией pd-ядер в однородных пространствах является теория М. Крейна, которая включает в качестве частных случаев работы по pd-функциям и неприводимым унитарным представлениям локально компактных групп.

В теории вероятностей pd-ядра возникают как ядра ковариации случайных процессов.

Связь с воспроизведением гильбертовых пространств ядра и карт характеристик

Положительно определенные ядра обеспечивают основу, которая охватывает некоторые основные конструкции гильбертова пространства. Далее мы представляем тесную связь между положительно определенными ядрами и двумя математическими объектами, а именно воспроизводящими гильбертовыми пространствами и отображениями признаков.

Позвольте быть набором, гильбертовым пространством функций и соответствующим скалярным произведением на . Для любого функционала оценки определяется как . Сначала мы определяем гильбертово пространство с воспроизводящим ядром (RKHS):

Определение : пространство называется гильбертовым пространством воспроизводящего ядра, если функционалы оценки непрерывны.

Каждый RKHS имеет связанную с ним специальную функцию, а именно воспроизводящее ядро:

Определение : воспроизведение ядра - это функция, такая, что

1) , и
2) , для всех и .

Последнее свойство называется воспроизводящим свойством.

Следующий результат показывает эквивалентность RKHS и воспроизводящих ядер:

Теорема : каждое воспроизводящее ядро индуцирует уникальный RKHS, и каждое RKHS имеет уникальное воспроизводящее ядро.

Теперь связь между положительно определенными ядрами и RKHS дается следующей теоремой

Теорема : каждое воспроизводящее ядро ​​является положительно определенным, и каждое положительно определенное ядро ​​определяет уникальный RKHS, единственным воспроизводящим ядром которого является.

Таким образом, имея положительно определенное ядро , можно построить связанный RKHS с воспроизводящим ядром.

Как указывалось ранее, положительно определенные ядра могут быть построены из внутренних продуктов. Этот факт можно использовать для связи ядер pd с другим интересным объектом, который возникает в приложениях машинного обучения, а именно с картой функций. Позвольте быть гильбертовым пространством и соответствующим скалярным продуктом. Любая карта называется картой объектов. В этом случае мы называем пространство функций. Легко видеть, что каждая карта функций определяет уникальное ядро ​​pd с помощью

Действительно, положительная определенность следует из свойства pd скалярного произведения. С другой стороны, каждое ядро ​​pd и соответствующий ему RKHS имеют множество связанных карт функций. Например: пусть и для всех . Затем по воспроизводящему свойству. Это предлагает новый взгляд на ядра pd как на внутренние продукты в соответствующих гильбертовых пространствах, или, другими словами, ядра pd можно рассматривать как карты сходства, которые эффективно количественно определяют, насколько похожи две точки и являются по значению . Более того, благодаря эквивалентности ядер pd и соответствующего ему RKHS, каждая карта характеристик может использоваться для построения RKHS.

Ядра и расстояния

Методы ядра часто сравнивают с методами, основанными на расстоянии, такими как метод ближайшего соседа . В этом разделе мы обсуждаем параллели между их двумя соответствующими ингредиентами, а именно ядрами и расстояниями .

Здесь под функцией расстояния между каждой парой элементов некоторого набора мы подразумеваем метрику, определенную на этом множестве, то есть любую неотрицательнозначную функцию, на которой удовлетворяет

  • , и тогда и только тогда , когда ,
  • ,
  • .

Одна связь между расстояниями и ядрами pd задается определенным типом ядра, называемым отрицательно определенным ядром, и определяется следующим образом

Определение : симметричная функция называется отрицательно определенным (nd) ядром на, если

справедливо для любого и такого, что .

Параллель между ядрами nd и расстояниями заключается в следующем: всякий раз, когда ядро ​​nd обращается в нуль на множестве и равно нулю только на этом множестве, его квадратный корень является расстоянием для . В то же время каждое расстояние не обязательно соответствует одному ядру. Это верно только для гильбертовых расстояний, где расстояние называется гильбертовым, если можно изометрически вложить метрическое пространство в какое-то гильбертово пространство.

С другой стороны, ядра nd можно отождествить с подсемейством ядер pd, известным как бесконечно делимые ядра. Неотрицательнозначное ядро называется безгранично делимым, если для каждого существует положительно определенное ядро такое, что .

Еще одна ссылки является то , что П.Д. ядро индуцирует псевдометрику , где первое ограничение на функции расстояния ослаблено , чтобы в течение . Учитывая положительно определенное ядро , мы можем определить функцию расстояния как:

Некоторые приложения

Ядра в машинном обучении

Положительно определенные ядра, благодаря их эквивалентности с воспроизводящими ядерными гильбертовыми пространствами, особенно важны в области теории статистического обучения из-за знаменитой теоремы о представителе, которая гласит, что каждая функция минимизатора в RKHS может быть записана как линейная комбинация функции ядра оценивается в тренировочных точках. Это практически полезный результат, поскольку он эффективно упрощает задачу минимизации эмпирического риска от бесконечномерной задачи до конечномерной задачи оптимизации.

Ядра в вероятностных моделях

В теории вероятностей ядра возникают по-разному.

  • Недетерминированные проблемы восстановления: предположим, что мы хотим найти отклик неизвестной модельной функции в новой точке набора , при условии, что у нас есть выборка пар вход-ответ, полученная в результате наблюдения или эксперимента. Отклик в точке не является фиксированной функцией, а скорее реализацией действительной случайной величины . Цель состоит в том, чтобы получить информацию о функции, которая заменяет в детерминированной настройке. Для двух элементов случайные величины и не будут некоррелированными, потому что if слишком близки к случайным экспериментам, описанным и часто будут демонстрировать аналогичное поведение. Это описывается ядром ковариации . Такое ядро ​​существует и положительно определено при слабых дополнительных предположениях. Теперь хорошую оценку для можно получить, используя интерполяцию ядра с ядром ковариации, полностью игнорируя вероятностный фон.

Предположим теперь, что к шумовой переменной добавляется нулевое среднее значение и дисперсия , так что шум не зависит для разных и не зависит от них, тогда проблема нахождения хорошей оценки идентична предыдущей, но с измененной ядро предоставлено .

  • Оценка плотности по ядрам: проблема состоит в том, чтобы восстановить плотность многомерного распределения по домену из большой выборки, включая повторения. Там, где точки выборки расположены плотно, функция истинной плотности должна принимать большие значения. Простая оценка плотности возможна путем подсчета количества выборок в каждой ячейке сетки и построения результирующей гистограммы, которая дает кусочно-постоянную оценку плотности. Лучшую оценку можно получить, используя ядро , инвариантное по отношению к сдвигу , с полным интегралом, равным единице, и определив

как гладкая оценка.

Численное решение дифференциальных уравнений в частных производных.

Одна из самых больших областей применения так называемых бессеточных методов - это численное решение уравнений в частных производных . Некоторые из популярных бессеточных методов тесно связаны с положительно определенными ядрами (например, бессеточный локальный метод Петрова Галеркина (MLPG) , метод воспроизводящих ядерных частиц (RKPM) и гидродинамика сглаженных частиц (SPH) ). Эти методы используют радиальное базовое ядро ​​для коллокации .

Теорема Стайнспринга о расширении

Другие приложения

В литературе по компьютерным экспериментам и других инженерных экспериментов один чаще встречаются модели , основанные на ядрах Pd, RBFs или кригинге . Одна из таких тем - методология поверхности отклика . Другие типы приложений, которые сводятся к подбору данных, - это быстрое прототипирование и компьютерная графика . Здесь часто используются неявные модели поверхности для аппроксимации или интерполяции данных облака точек.

Ядра pd применяются в различных других областях математики в многомерной интеграции, многомерной оптимизации, а также в численном анализе и научных вычислениях, где изучаются быстрые, точные и адаптивные алгоритмы, идеально реализованные в высокопроизводительных вычислительных средах.

Смотрите также

использованная литература