Язык разметки прогнозной модели - Predictive Model Markup Language

Язык разметки прогнозных моделей ( PMML ) - это основанный на XML формат обмена прогнозирующими моделями , разработанный доктором Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям способ описания и обмена прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает общие модели, такие как логистическая регрессия и другие нейронные сети с прямой связью.. Версия 0.9 была опубликована в 1998 году. Последующие версии были разработаны Data Mining Group.

Поскольку PMML является стандартом на основе XML, спецификация представлена в форме схемы XML . PMML сам по себе является зрелым стандартом, и более 30 организаций анонсировали продукты, поддерживающие PMML.

Компоненты PMML

Файл PMML можно описать следующими компонентами:

Заголовок : содержит общую информацию о документе PMML, такую как информация об авторских правах для модели, ее описание и информация о приложении, используемом для создания модели, например имя и версия. Он также содержит атрибут для отметки времени, который можно использовать для указания даты создания модели.
Словарь данных : содержит определения всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, string или double).
Преобразования данных : преобразования позволяют отображать пользовательские данные в более желательную форму, которая будет использоваться моделью интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
- Нормализация: отображение значений в числа, ввод может быть непрерывным или дискретным.
- Дискретность: преобразование непрерывных значений в дискретные.
- Сопоставление значений: сопоставление дискретных значений с дискретными значениями.
- Функции (настраиваемые и встроенные): получение значения путем применения функции к одному или нескольким параметрам.
- Агрегация: используется для суммирования или сбора групп значений.
Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть с прямой связью представлена в PMML элементом «NeuralNetwork», который содержит такие атрибуты, как:
- Название модели (атрибут modelName)
- Имя функции (атрибут functionName)
- Имя алгоритма (атрибут algorithmName)
- Функция активации (атрибут ActivationFunction)
- Количество слоев (атрибут numberOfLayers)

Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Эти атрибуты - NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять множество других типов моделей, включая вспомогательные векторные машины , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .

Схема майнинга : список всех полей, используемых в модели. Это может быть подмножество полей, как определено в словаре данных. Он содержит конкретную информацию о каждом поле, например:
- Имя (имя атрибута): должно относиться к полю в словаре данных
- Тип использования (атрибут usageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля - это те, значения которых предсказываются моделью.
- Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения высоких и низких значений для конкретного поля) или как есть.
- Политика замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
- Обработка отсутствующего значения (атрибут missingValueTreatment): указывает, как была получена замена отсутствующего значения (например, в виде значения, среднего или медианы).
Цели : позволяет выполнять постобработку прогнозируемого значения в формате масштабирования, если выход модели является непрерывным. Цели также можно использовать для задач классификации. В этом случае атрибут priorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогнозирования не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это особенности прогнозируемого поля, а также, как правило, само прогнозируемое значение, вероятность, сродство к кластеру (для моделей кластеризации), стандартная ошибка и т. Д. Последняя версия PMML, PMML 4.1, расширенный вывод для обеспечения общей постобработки. выходов модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для последующей обработки.

PMML 4.0, 4.1, 4.2 и 4.3

PMML 4.0 был выпущен 16 июня 2009 года.

Примеры новых функций:

Улучшенные возможности предварительной обработки: дополнения к встроенным функциям включают ряд логических операций и функцию If-Then-Else .
Модели временных рядов : новые модели экспоненциального сглаживания ; также заполнители для ARIMA , разложения сезонного тренда и оценки спектральной плотности , которые будут поддерживаться в ближайшем будущем.
Объяснение модели: Сохранение оценок и показателей производительности модели в самом файле PMML.
Множественные модели: возможности для построения моделей, ансамблей и сегментации (например, комбинирование регрессии и деревьев решений).
Расширения существующих элементов: добавление мультиклассовой классификации для машин опорных векторов , улучшенное представление правил ассоциации и добавление моделей регрессии Кокса .

PMML 4.1 был выпущен 31 декабря 2011 года.

Включены новые функции:

Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
Общее определение области и имен полей.
Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
Расширенные возможности постобработки (через элемент «Вывод»).

PMML 4.2 был выпущен 28 февраля 2014 года.

Новые функции включают:

Преобразования: новые элементы для реализации интеллектуального анализа текста
Новые встроенные функции для реализации регулярных выражений: совпадения, конкатенация и замена.
Упрощенные выходы для постобработки
Улучшения в системе показателей и элементах модели наивного Байеса

PMML 4.3 был выпущен 23 августа 2016 г.

Новые функции включают:

Новые типы моделей:
- Гауссовский процесс
- Байесовская сеть
Новые встроенные функции
Разъяснения по использованию
Улучшения документации

Версия 4.4 была выпущена в ноябре 2019 года.

История выпуска

Версия	Дата выпуска
Версия 0.7	Июль 1997 г.
Версия 0.9	Июль 1998 г.
Версия 1.0	Август 1999 г.
Версия 1.1	Август 2000 г.
Версия 2.0	Август 2001 г.
Версия 2.1	Март 2003 г.
Версия 3.0	Октябрь 2004 г.
Версия 3.1	Декабрь 2005 г.
Версия 3.2	Май 2007 г.
Версия 4.0	Июнь 2009 г.
Версия 4.1	Декабрь 2011 г.
Версия 4.2	Февраль 2014 года
Версия 4.2.1	Март 2015 г.
Версия 4.3	Август 2016 г.
Версия 4.4	Ноябрь 2019

Группа интеллектуального анализа данных

Mining Group Data представляет собой консорциум под управлением Центра вычислительных наук Research, Inc, некоммерческая , основанная в 2008 году Data Group Mining также разработала стандарт , называемый портативный формат для Analytics или PFA, который является дополнением к PMML.

Смотрите также

Открытый обмен нейронной сетью

Внешние ссылки

Предварительная обработка данных в PMML и ADAPA - Учебник
Видео презентации PMML доктора Алекса Гуаццелли для группы ACM Data Mining (размещено на LinkedIn)
PMML 3.2 Технические характеристики
PMML 4.0 Спецификация
PMML 4.1 Технические характеристики
PMML 4.2.1 Технические характеристики
PMML 4.3 Технические характеристики
Представление прогнозных решений в PMML: переход от необработанных данных к прогнозам - статья опубликована на веб-сайте IBM developerWorks.
Прогнозная аналитика в здравоохранении: важность открытых стандартов - статья, опубликованная на веб-сайте IBM developerWorks.

Languages

In other projects