Универсальная аппроксимационная теорема - Universal approximation theorem

В математической теории искусственных нейронных сетей , универсальные теоремы приближения являются результатами, устанавливающие плотность в алгоритмический сгенерированном классе функций в пределах данного функционального пространства , представляющего интереса. Обычно эти результаты касаются возможностей аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами , а приближение относится к топологии компактной сходимости . Однако есть также множество результатов между неевклидовыми пространствами и другими обычно используемыми архитектурами и, в более общем смысле, алгоритмически сгенерированными наборами функций, такими какархитектура сверточной нейронной сети (CNN), радиальные базисные функции или нейронные сети с определенными свойствами. Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимационные возможности нейронных сетей с произвольным количеством искусственных нейронов ( случай « произвольной ширины »), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов (« произвольная глубина» " кейс).

Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не предоставляют конструкции для грузов, а просто заявляют, что такая конструкция возможна.

История

Одна из первых версий случая произвольной ширины была доказана Георгием Цибенко в 1989 году для сигмовидных функций активации. Курт Хорник показал в 1991 году, что это не конкретный выбор функции активации, а, скорее, сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г., а затем Аллан Пинкус в 1999 г. показали, что свойство универсальной аппроксимации эквивалентно наличию неполиномиальной функции активации.

Произвольной глубины случай был также изучен многими авторами, такими как Zhou Lu и др в 2017 году, Борис Ханин и Марк Sellke в 2018 году, и Патрик Kidger и Терри Lyons в 2020 г. Результат минимальная ширина на слой был рафинированной в и в для остаточных сетей.

Существует несколько расширений теоремы, например, для функций прерывистой активации, некомпактных доменов, сертифицированных сетей и альтернативных сетевых архитектур и топологий.

Ограничения

Никакая совокупность нейронных сетей не способна изучить структурную причинно-следственную модель , т. Е. «Произвольно сложная и выразительная нейронная сеть неспособна предсказать эффекты вмешательств на основе одних только данных наблюдений», даже при универсальной аппроксимируемости нейронных сетей в соответствии с причинной иерархией теорема . Однако был введен их новый особый тип, нейронная каузальная модель , поддающаяся градиентному спуску , и разработан алгоритм, «достаточный и необходимый для определения того, можно ли узнать о причинном эффекте из данных».

Случай произвольной ширины

Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. Он расширяет классические результаты Георгия Цибенко и Курта Хорника .

Универсальная аппроксимационная теорема: зафиксируйте непрерывную функцию (функцию активации) и положительные целые числа . Функция не является многочленом тогда и только тогда, когда для каждой непрерывной функции (целевая функция), каждый компактного подмножества из , и каждый существует непрерывная функция (выходного слоя) с представлением

где - составные аффинные отображения и обозначает покомпонентную композицию, такую, что оценка аппроксимации

выполняется для любого сколь угодно малого (расстояние от до может быть бесконечно малым).

Теорема утверждает, что результат первого слоя может аппроксимировать любую функцию с хорошим поведением . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.

Случай произвольной глубины

«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017 году. Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую функцию Лебега на n- мерном входном пространстве по отношению к расстоянию, если глубина сети может расти. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n . Все интегрируемые по Лебегу функции, за исключением множества с нулевой мерой, не могут быть аппроксимированы сетями ReLU ширины n . В той же статье было показано, что сетей ReLU шириной n + 1 достаточно для аппроксимации любой непрерывной функции n -мерных входных переменных. Следующее уточнение определяет оптимальную минимальную ширину, для которой такое приближение возможно и обусловлено.

Универсальная аппроксимационная теорема (расстояние L1, активация ReLU, произвольная глубина, минимальная ширина). Для любой p-интегрируемой функции Бохнера-Лебега и любого существует полносвязная сеть ReLU точно ширины , удовлетворяющая

.

Более того, существует функция и некоторые функции , для которых не существует полносвязной сети ReLU с шириной меньше, чем удовлетворяющая приведенной выше оценке приближения.

Вместе центральный результат дает следующую универсальную аппроксимационную теорему для сетей с ограниченной шириной.

Универсальная аппроксимационная теорема ( неаффинная активация, произвольная глубина , ограниченная ширина). Позвольте быть компактным подмножеством . Пусть - любая неаффинная непрерывная функция, которая непрерывно дифференцируема хотя бы в одной точке с ненулевой производной в этой точке. Пусть обозначает пространство прямоточной нейронной сети с входными нейронами, выходными нейронами, и произвольным числом скрытых слоев каждых с нейронами, таким образом, что каждый скрытый нейрон имеет функцию активации и каждый выходной нейрон имеет идентичность в качестве своей функции активации, с входом слой и выходной слой . Тогда для любого и любого существует такое, что

Другими словами, является плотным в относительно равномерной топологии .

Были установлены некоторые необходимые условия для случая ограниченной ширины, произвольной глубины, но все еще существует разрыв между известными достаточными и необходимыми условиями.

Ввод графика

Достижение полезной универсальной аппроксимации функций на графах (или, скорее, на классах изоморфизма графов ) было давней проблемой. Популярные сверточные нейронные сети с графами (GCN или GNN) могут быть такими же различительными, как тест изоморфизма графов Вайсфейлера – Лемана. В 2020 году Брюль-Габриэльсон установил результат теоремы об универсальной аппроксимации, показывающий, что представления графа с определенными инъективными свойствами достаточно для универсальной аппроксимации функций на ограниченных графах и ограниченной универсальной аппроксимации функций на неограниченных графах с сопровождающим #edges #nodes -runtime метод, выполненный по последнему слову техники на коллекции тестов.

Смотрите также

использованная литература