Язык разметки прогнозной модели - Predictive Model Markup Language
Язык разметки прогнозных моделей ( PMML ) - это основанный на XML формат обмена прогнозирующими моделями , разработанный доктором Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям способ описания и обмена прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает общие модели, такие как логистическая регрессия и другие нейронные сети с прямой связью.. Версия 0.9 была опубликована в 1998 году. Последующие версии были разработаны Data Mining Group.
Поскольку PMML является стандартом на основе XML, спецификация представлена в форме схемы XML . PMML сам по себе является зрелым стандартом, и более 30 организаций анонсировали продукты, поддерживающие PMML.
Компоненты PMML
Файл PMML можно описать следующими компонентами:
- Заголовок : содержит общую информацию о документе PMML, такую как информация об авторских правах для модели, ее описание и информация о приложении, используемом для создания модели, например имя и версия. Он также содержит атрибут для отметки времени, который можно использовать для указания даты создания модели.
- Словарь данных : содержит определения всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, string или double).
-
Преобразования данных : преобразования позволяют отображать пользовательские данные в более желательную форму, которая будет использоваться моделью интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
- Нормализация: отображение значений в числа, ввод может быть непрерывным или дискретным.
- Дискретность: преобразование непрерывных значений в дискретные.
- Сопоставление значений: сопоставление дискретных значений с дискретными значениями.
- Функции (настраиваемые и встроенные): получение значения путем применения функции к одному или нескольким параметрам.
- Агрегация: используется для суммирования или сбора групп значений.
-
Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть с прямой связью представлена в PMML элементом «NeuralNetwork», который содержит такие атрибуты, как:
- Название модели (атрибут modelName)
- Имя функции (атрибут functionName)
- Имя алгоритма (атрибут algorithmName)
- Функция активации (атрибут ActivationFunction)
- Количество слоев (атрибут numberOfLayers)
- Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Эти атрибуты - NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять множество других типов моделей, включая вспомогательные векторные машины , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .
-
Схема майнинга : список всех полей, используемых в модели. Это может быть подмножество полей, как определено в словаре данных. Он содержит конкретную информацию о каждом поле, например:
- Имя (имя атрибута): должно относиться к полю в словаре данных
- Тип использования (атрибут usageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля - это те, значения которых предсказываются моделью.
- Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения высоких и низких значений для конкретного поля) или как есть.
- Политика замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
- Обработка отсутствующего значения (атрибут missingValueTreatment): указывает, как была получена замена отсутствующего значения (например, в виде значения, среднего или медианы).
- Цели : позволяет выполнять постобработку прогнозируемого значения в формате масштабирования, если выход модели является непрерывным. Цели также можно использовать для задач классификации. В этом случае атрибут priorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогнозирования не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
- Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это особенности прогнозируемого поля, а также, как правило, само прогнозируемое значение, вероятность, сродство к кластеру (для моделей кластеризации), стандартная ошибка и т. Д. Последняя версия PMML, PMML 4.1, расширенный вывод для обеспечения общей постобработки. выходов модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для последующей обработки.
PMML 4.0, 4.1, 4.2 и 4.3
PMML 4.0 был выпущен 16 июня 2009 года.
Примеры новых функций:
- Улучшенные возможности предварительной обработки: дополнения к встроенным функциям включают ряд логических операций и функцию If-Then-Else .
- Модели временных рядов : новые модели экспоненциального сглаживания ; также заполнители для ARIMA , разложения сезонного тренда и оценки спектральной плотности , которые будут поддерживаться в ближайшем будущем.
- Объяснение модели: Сохранение оценок и показателей производительности модели в самом файле PMML.
- Множественные модели: возможности для построения моделей, ансамблей и сегментации (например, комбинирование регрессии и деревьев решений).
- Расширения существующих элементов: добавление мультиклассовой классификации для машин опорных векторов , улучшенное представление правил ассоциации и добавление моделей регрессии Кокса .
PMML 4.1 был выпущен 31 декабря 2011 года.
Включены новые функции:
- Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
- Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
- Общее определение области и имен полей.
- Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
- Расширенные возможности постобработки (через элемент «Вывод»).
PMML 4.2 был выпущен 28 февраля 2014 года.
Новые функции включают:
- Преобразования: новые элементы для реализации интеллектуального анализа текста
- Новые встроенные функции для реализации регулярных выражений: совпадения, конкатенация и замена.
- Упрощенные выходы для постобработки
- Улучшения в системе показателей и элементах модели наивного Байеса
PMML 4.3 был выпущен 23 августа 2016 г.
Новые функции включают:
- Новые типы моделей:
- Гауссовский процесс
- Байесовская сеть
- Новые встроенные функции
- Разъяснения по использованию
- Улучшения документации
Версия 4.4 была выпущена в ноябре 2019 года.
История выпуска
Версия | Дата выпуска |
---|---|
Версия 0.7 | Июль 1997 г. |
Версия 0.9 | Июль 1998 г. |
Версия 1.0 | Август 1999 г. |
Версия 1.1 | Август 2000 г. |
Версия 2.0 | Август 2001 г. |
Версия 2.1 | Март 2003 г. |
Версия 3.0 | Октябрь 2004 г. |
Версия 3.1 | Декабрь 2005 г. |
Версия 3.2 | Май 2007 г. |
Версия 4.0 | Июнь 2009 г. |
Версия 4.1 | Декабрь 2011 г. |
Версия 4.2 | Февраль 2014 года |
Версия 4.2.1 | Март 2015 г. |
Версия 4.3 | Август 2016 г. |
Версия 4.4 | Ноябрь 2019 |
Группа интеллектуального анализа данных
Mining Group Data представляет собой консорциум под управлением Центра вычислительных наук Research, Inc, некоммерческая , основанная в 2008 году Data Group Mining также разработала стандарт , называемый портативный формат для Analytics или PFA, который является дополнением к PMML.
Смотрите также
Рекомендации
Внешние ссылки
- Предварительная обработка данных в PMML и ADAPA - Учебник
- Видео презентации PMML доктора Алекса Гуаццелли для группы ACM Data Mining (размещено на LinkedIn)
- PMML 3.2 Технические характеристики
- PMML 4.0 Спецификация
- PMML 4.1 Технические характеристики
- PMML 4.2.1 Технические характеристики
- PMML 4.3 Технические характеристики
- Представление прогнозных решений в PMML: переход от необработанных данных к прогнозам - статья опубликована на веб-сайте IBM developerWorks.
- Прогнозная аналитика в здравоохранении: важность открытых стандартов - статья, опубликованная на веб-сайте IBM developerWorks.