Групповой метод обработки данных - Group method of data handling

Групповой метод обработки данных (GMDH) - это семейство индуктивных алгоритмов для компьютерного математического моделирования многопараметрических наборов данных с полностью автоматической структурной и параметрической оптимизацией моделей.

GMDH используется в таких областях, как интеллектуальный анализ данных , обнаружение знаний , прогнозирование , моделирование сложных систем , оптимизация и распознавание образов . Алгоритмы GMDH характеризуются индуктивной процедурой, которая выполняет сортировку постепенно усложняющихся полиномиальных моделей и выбор наилучшего решения с помощью внешнего критерия .

Модель GMDH с несколькими входами и одним выходом представляет собой подмножество компонентов базовой функции (1):

{\ displaystyle Y (x_ {1}, \ dots, x_ {n}) = a_ {0} + \ sum \ limits _ {i = 1} ^ {m} a_ {i} f_ {i}}

где f _i - элементарные функции, зависящие от различных наборов входных данных, a _i - коэффициенты, а m - количество компонентов базовой функции.

Чтобы найти лучшее решение, алгоритмы GMDH рассматривают различные подмножества компонентов базовой функции (1), называемые частичными моделями . Коэффициенты этих моделей оцениваются методом наименьших квадратов . Алгоритмы GMDH постепенно увеличивают количество частичных компонентов модели и находят структуру модели с оптимальной сложностью, обозначенной минимальным значением внешнего критерия . Этот процесс называется самоорганизацией моделей.

В качестве первой базовой функции, использованной в GMDH, был постепенно усложняющийся полином Колмогорова – Габора (2):

{\ displaystyle Y (x_ {1}, \ dots, x_ {n}) = a_ {0} + \ sum \ limits _ {i = 1} ^ {n} {a_ {i}} x_ {i} + \ sum \ limits _ {i = 1} ^ {n} {\ sum \ limits _ {j = i} ^ {n} {a_ {ij}}} x_ {i} x_ {j} + \ sum \ limits _ { i = 1} ^ {n} {\ sum \ limits _ {j = i} ^ {n} {\ sum \ limits _ {k = j} ^ {n} {a_ {ijk}}}} x_ {i} x_ {j} x_ {k} + \ cdots}

Обычно используются более простые частные модели с функциями до второй степени.

Индуктивные алгоритмы также известны как полиномиальные нейронные сети . Юрген Шмидхубер называет GMDH одним из первых методов глубокого обучения , отмечая, что он использовался для обучения восьмиуровневых нейронных сетей еще в 1971 году.

История

Автор ГМДЗ - советский ученый профессор Ивахненко Алексей Геннадьевич.

Метод был создан в 1968 году профессором Алексеем Г. Ивахненко в Институте кибернетики в Киеве . Этот индуктивный подход с самого начала был компьютерным методом, поэтому набор компьютерных программ и алгоритмов был основным практическим результатом, достигнутым на основе новых теоретических принципов. Благодаря политике автора по совместному использованию открытого кода метод быстро получил широкое распространение в большом количестве научных лабораторий по всему миру. Поскольку большая часть рутинной работы переносится на компьютер, влияние человеческого фактора на объективный результат сводится к минимуму. Фактически, этот подход можно рассматривать как одну из реализаций тезиса об искусственном интеллекте , в котором говорится, что компьютер может выступать в качестве мощного советника для людей.

Развитие GMDH состоит из синтеза идей из разных областей науки: кибернетической концепции « черного ящика » и принципа последовательного генетического отбора попарных признаков , теорем Геделя о неполноте и принципа Габора «свободы выбора решений». в Адемар в неправильности и в Бере принцип внешнего дополнения.

GMDH - оригинальный метод решения задач структурно-параметрической идентификации моделей экспериментальных данных в условиях неопределенности . Такая проблема возникает при построении математической модели , аппроксимирующей неизвестный образец исследуемого объекта или процесса. Он использует информацию о нем, которая неявно содержится в данных. GMDH отличается от других методов моделирования активным применением следующих принципов : автоматическое построение моделей, неубедительные решения и последовательный отбор по внешним критериям для поиска моделей оптимальной сложности. В нем использовалась оригинальная многослойная процедура автоматического построения структуры моделей, имитирующая процесс биологического отбора с учетом попарно следующих друг за другом признаков. Такая процедура в настоящее время используется в сетях глубокого обучения . Для сравнения и выбора оптимальных моделей используются два или более подмножества выборки данных. Это позволяет избежать предварительных предположений, поскольку деление выборки неявно признает различные типы неопределенности во время автоматического построения оптимальной модели.

В процессе разработки была установлена органическая аналогия между проблемой построения моделей для зашумленных данных и прохождения сигнала по каналу с шумом . Это позволило заложить основы теории помехоустойчивого моделирования. Главный результат этой теории состоит в том, что сложность оптимальной прогнозной модели зависит от уровня неопределенности данных: чем выше этот уровень (например, из-за шума), тем проще должна быть оптимальная модель (с меньшим количеством оцененных параметров). Это положило начало развитию теории GMDH как индуктивного метода автоматической адаптации оптимальной сложности модели к уровню изменения шума в нечетких данных . Поэтому GMDH часто считают оригинальной информационной технологией для извлечения знаний из экспериментальных данных .

Период 1968–1971 гг. Характеризуется применением только критерия регулярности для решения задач идентификации, распознавания образов и краткосрочного прогнозирования. В качестве опорных функций использовались полиномы, логические сети, нечеткие множества Заде и формулы вероятностей Байеса. Авторов вдохновила очень высокая точность прогнозов с новым подходом. Помехозащищенность не исследовалась.

Период 1972–1975 гг . Решена проблема моделирования зашумленной информации и неполной информационной базы. Предложен многокритериальный отбор и использование дополнительной априорной информации для повышения помехоустойчивости. Лучшие эксперименты показали, что при расширенном определении оптимальной модели по дополнительному критерию уровень шума может быть в десять раз больше, чем сигнал. Затем он был улучшен с использованием теоремы Шеннона об общей теории коммуникации.

Период 1976–1979 гг . Исследована сходимость многослойных алгоритмов GMDH. Было показано, что некоторые многослойные алгоритмы имеют «ошибку многослойности» - аналог статической ошибки систем управления. В 1977 г. было предложено решение задач анализа объективных систем с помощью многоуровневых алгоритмов GMDH. Оказалось, что сортировка по ансамблю критериев позволяет найти единственную оптимальную систему уравнений и, таким образом, показать сложные элементы объекта, их основные входные и выходные переменные.

Период 1980–1988 гг . Получено много важных теоретических результатов. Стало ясно, что полные физические модели нельзя использовать для долгосрочного прогнозирования. Доказано, что нефизические модели GMDH более точны для аппроксимации и прогноза, чем физические модели регрессионного анализа. Были разработаны двухуровневые алгоритмы, использующие для моделирования две разные шкалы времени.

С 1989 г. были разработаны и исследованы новые алгоритмы (AC, OCC, PF) для непараметрического моделирования нечетких объектов и SLP для экспертных систем. Современный этап развития GMDH можно охарактеризовать как расцвет нейросетей с глубоким обучением и параллельных индуктивных алгоритмов для многопроцессорных компьютеров.

Внешние критерии

Внешний критерий - одна из ключевых особенностей GMDH. Критерий описывает требования к модели, например минимизацию наименьших квадратов . Он всегда рассчитывается с отдельной частью выборки данных, которая не использовалась для оценки коэффициентов. Это дает возможность выбрать модель оптимальной сложности в соответствии с уровнем неопределенности входных данных. Есть несколько популярных критериев:

Критерий регулярности (CR) - наименьшие квадраты модели в образце B.
Критерий минимального смещения или согласованности - квадрат ошибки разницы между оцененными выходными данными (или векторами коэффициентов) двух моделей, разработанных на основе двух различных выборок A и B, деленный на квадрат выходных данных, оцененных на выборке B. Сравнение моделей, использующих его. , позволяет получить непротиворечивые модели и восстановить скрытый физический закон из зашумленных данных.
Критерии перекрестной проверки .

Простое описание разработки модели с использованием GMDH

Для моделирования с использованием GMDH предварительно выбираются только критерий выбора и максимальная сложность модели. Затем процесс проектирования начинается с первого слоя и продолжается. Количество слоев и нейронов в скрытых слоях, структура модели определяется автоматически. Могут быть рассмотрены все возможные комбинации допустимых входов (все возможные нейроны). Затем коэффициенты полинома определяются с использованием одного из доступных методов минимизации, такого как разложение по сингулярным значениям (с обучающими данными). Затем нейроны, которые имеют лучшее значение внешнего критерия (для данных тестирования), сохраняются, а другие удаляются. Если внешний критерий лучшего нейрона слоя достигает минимума или превосходит критерий остановки, проектирование сети завершается, и полиномиальное выражение лучшего нейрона последнего слоя вводится как функция математического предсказания; в противном случае будет создан следующий слой, и этот процесс будет продолжен.

Нейронные сети типа GMDH

Есть много разных способов выбрать порядок рассмотрения частичных моделей. Самый первый порядок рассмотрения, используемый в GMDH и первоначально названный многослойной индуктивной процедурой, является наиболее популярным. Это сортировка постепенно усложняющихся моделей, созданных на основе базовой функции . На лучшую модель указывает минимум внешней критериальной характеристики. Многослойная процедура эквивалентна искусственной нейронной сети с полиномиальной функцией активации нейронов. Поэтому алгоритм с таким подходом обычно называют нейронной сетью типа GMDH или полиномиальной нейронной сетью. Ли показал, что нейронная сеть типа GMDH работает лучше, чем классические алгоритмы прогнозирования, такие как Single Exponential Smooth, Double Exponential Smooth, ARIMA и нейронная сеть с обратным распространением.

Комбинаторный GMDH

Рисунок 1. Типичное распределение минимальных значений критерия регулярности для комбинаторных моделей GMDH различной сложности.

Еще одним важным подходом к рассмотрению частичных моделей, который становится все более популярным, является комбинаторный поиск, который является либо ограниченным, либо полным. Этот подход имеет некоторые преимущества по сравнению с полиномиальными нейронными сетями, но требует значительной вычислительной мощности и, следовательно, неэффективен для объектов с большим количеством входов. Важным достижением комбинаторного GMDH является то, что он полностью превосходит подход линейной регрессии, если уровень шума во входных данных больше нуля. Это гарантирует, что в ходе исчерпывающей сортировки будет найдена наиболее оптимальная модель.

Базовый комбинаторный алгоритм выполняет следующие шаги:

Делит выборку данных как минимум на две выборки A и B.
Создает подвыборки из A в соответствии с частичными моделями с постоянно возрастающей сложностью.
Оценивает коэффициенты частичных моделей на каждом уровне сложности моделей.
Рассчитывает значение внешнего критерия для моделей на образце B.
Выбирает лучшую модель (набор моделей) по минимальному значению критерия.
Для выбранной модели оптимальной сложности пересчитайте коэффициенты на всей выборке данных.

В отличие от нейронных сетей типа GMDH, комбинаторный алгоритм обычно не останавливается на определенном уровне сложности, поскольку точка увеличения значения критерия может быть просто локальным минимумом, см. Рис.1.

Алгоритмы

Комбинаторный (COMBI)
Многослойная итерация (MIA)
GN
Объективный системный анализ (OSA)
Гармоничный
Двухуровневый (ARIMAD)
Мультипликативно-аддитивная (MAA)
Объективная компьютерная кластеризация (OCC);
Алгоритм кластеризации Pointing Finger (PF);
Аналоги комплексообразования (АК)
Гармоническая редискретизация
Алгоритм на основе многоуровневой теории статистических решений (MTSD)
Группа эволюции адаптивных моделей (ИГРА)

Список программного обеспечения

MATLAB
Проект FAKE GAME - Открытый исходный код. Кроссплатформенность.
GEvom - Бесплатно по запросу для академического использования. Только для Windows.
GMDH Shell - программное обеспечение для прогнозной аналитики и прогнозирования временных рядов на основе GMDH. Доступна бесплатная академическая лицензия и бесплатная пробная версия. Только для Windows.
KnowledgeMiner - коммерческий продукт. Только для Mac OS X. Доступна бесплатная демо-версия.
Клиент PNN Discovery - Коммерческий продукт.
Научный РПФ! - Бесплатное ПО с открытым исходным кодом.
wGMDH - плагин Weka , с открытым исходным кодом.
Пакет R - с открытым исходным кодом.
R Пакет для задач регрессии - с открытым исходным кодом.
Библиотека Python алгоритма MIA - Открытый исходный код.

использованная литература

внешние ссылки

дальнейшее чтение

А.Г. Ивахненко. Эвристическая самоорганизация в задачах инженерной кибернетики , Автоматика, т. 6, 1970 - с. 207-219.
SJ Farlow . Самоорганизующиеся методы моделирования: алгоритмы типа GMDH . Нью-Йорк, Базель: Marcel Decker Inc., 1984, 350 стр.
HR Мадала, А.Г. Ивахненко. Алгоритмы индуктивного обучения для моделирования сложных систем . CRC Press, Бока-Ратон, 1994.

Languages

In other projects