Язык разметки прогнозной модели - Predictive Model Markup Language

PMML Logo.png

Язык разметки прогнозных моделей ( PMML ) - это основанный на XML формат обмена прогнозирующими моделями , разработанный доктором Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям способ описания и обмена прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает общие модели, такие как логистическая регрессия и другие нейронные сети с прямой связью.. Версия 0.9 была опубликована в 1998 году. Последующие версии были разработаны Data Mining Group.

Поскольку PMML является стандартом на основе XML, спецификация представлена ​​в форме схемы XML . PMML сам по себе является зрелым стандартом, и более 30 организаций анонсировали продукты, поддерживающие PMML.

Компоненты PMML

Файл PMML можно описать следующими компонентами:

  • Заголовок : содержит общую информацию о документе PMML, такую ​​как информация об авторских правах для модели, ее описание и информация о приложении, используемом для создания модели, например имя и версия. Он также содержит атрибут для отметки времени, который можно использовать для указания даты создания модели.
  • Словарь данных : содержит определения всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, string или double).
  • Преобразования данных : преобразования позволяют отображать пользовательские данные в более желательную форму, которая будет использоваться моделью интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
    • Нормализация: отображение значений в числа, ввод может быть непрерывным или дискретным.
    • Дискретность: преобразование непрерывных значений в дискретные.
    • Сопоставление значений: сопоставление дискретных значений с дискретными значениями.
    • Функции (настраиваемые и встроенные): получение значения путем применения функции к одному или нескольким параметрам.
    • Агрегация: используется для суммирования или сбора групп значений.
  • Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть с прямой связью представлена ​​в PMML элементом «NeuralNetwork», который содержит такие атрибуты, как:
    • Название модели (атрибут modelName)
    • Имя функции (атрибут functionName)
    • Имя алгоритма (атрибут algorithmName)
    • Функция активации (атрибут ActivationFunction)
    • Количество слоев (атрибут numberOfLayers)
Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Эти атрибуты - NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять множество других типов моделей, включая вспомогательные векторные машины , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .
  • Схема майнинга : список всех полей, используемых в модели. Это может быть подмножество полей, как определено в словаре данных. Он содержит конкретную информацию о каждом поле, например:
    • Имя (имя атрибута): должно относиться к полю в словаре данных
    • Тип использования (атрибут usageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля - это те, значения которых предсказываются моделью.
    • Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения высоких и низких значений для конкретного поля) или как есть.
    • Политика замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
    • Обработка отсутствующего значения (атрибут missingValueTreatment): указывает, как была получена замена отсутствующего значения (например, в виде значения, среднего или медианы).
  • Цели : позволяет выполнять постобработку прогнозируемого значения в формате масштабирования, если выход модели является непрерывным. Цели также можно использовать для задач классификации. В этом случае атрибут priorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогнозирования не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
  • Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это особенности прогнозируемого поля, а также, как правило, само прогнозируемое значение, вероятность, сродство к кластеру (для моделей кластеризации), стандартная ошибка и т. Д. Последняя версия PMML, PMML 4.1, расширенный вывод для обеспечения общей постобработки. выходов модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для последующей обработки.

PMML 4.0, 4.1, 4.2 и 4.3

PMML 4.0 был выпущен 16 июня 2009 года.

Примеры новых функций:

PMML 4.1 был выпущен 31 декабря 2011 года.

Включены новые функции:

  • Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
  • Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
  • Общее определение области и имен полей.
  • Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
  • Расширенные возможности постобработки (через элемент «Вывод»).

PMML 4.2 был выпущен 28 февраля 2014 года.

Новые функции включают:

  • Преобразования: новые элементы для реализации интеллектуального анализа текста
  • Новые встроенные функции для реализации регулярных выражений: совпадения, конкатенация и замена.
  • Упрощенные выходы для постобработки
  • Улучшения в системе показателей и элементах модели наивного Байеса

PMML 4.3 был выпущен 23 августа 2016 г.

Новые функции включают:

  • Новые типы моделей:
    • Гауссовский процесс
    • Байесовская сеть
  • Новые встроенные функции
  • Разъяснения по использованию
  • Улучшения документации

Версия 4.4 была выпущена в ноябре 2019 года.

История выпуска

Версия Дата выпуска
Версия 0.7 Июль 1997 г.
Версия 0.9 Июль 1998 г.
Версия 1.0 Август 1999 г.
Версия 1.1 Август 2000 г.
Версия 2.0 Август 2001 г.
Версия 2.1 Март 2003 г.
Версия 3.0 Октябрь 2004 г.
Версия 3.1 Декабрь 2005 г.
Версия 3.2 Май 2007 г.
Версия 4.0 Июнь 2009 г.
Версия 4.1 Декабрь 2011 г.
Версия 4.2 Февраль 2014 года
Версия 4.2.1 Март 2015 г.
Версия 4.3 Август 2016 г.
Версия 4.4 Ноябрь 2019

Группа интеллектуального анализа данных

Mining Group Data представляет собой консорциум под управлением Центра вычислительных наук Research, Inc, некоммерческая , основанная в 2008 году Data Group Mining также разработала стандарт , называемый портативный формат для Analytics или PFA, который является дополнением к PMML.

Смотрите также

Рекомендации

Внешние ссылки