Прогнозное моделирование - Predictive modelling

В прогнозном моделировании для прогнозирования результатов используется статистика. Чаще всего нужно предсказать событие в будущем, но прогнозное моделирование может применяться к любому типу неизвестного события, независимо от того, когда оно произошло. Например, прогностические модели часто используются для выявления преступлений и выявления подозреваемых после совершения преступления.

Во многих случаях модель выбирается на основе теории обнаружения, чтобы попытаться угадать вероятность результата при заданном количестве входных данных, например, при наличии электронного письма, определяющего, насколько вероятно, что это спам .

Модели могут использовать один или несколько классификаторов, пытаясь определить вероятность того, что набор данных принадлежит другому набору. Например, модель может использоваться для определения того, является ли электронное письмо спамом или «ветчиной» (не спамом).

В зависимости от границ определений, прогнозное моделирование является синонимом или в значительной степени частично совпадает с областью машинного обучения , как ее чаще называют в академическом контексте или в контексте исследований и разработок. При коммерческом развертывании прогнозное моделирование часто называют прогнозной аналитикой .

Прогностическое моделирование часто противопоставляется причинному моделированию / анализу. В первом случае можно полностью удовлетвориться использованием индикаторов или заместителей интересующего результата. В последнем стремятся установить истинные причинно-следственные связи. Это различие привело к появлению растущей литературы в области методов исследования и статистики, а также к распространенному утверждению, что « корреляция не подразумевает причинно-следственную связь ».

Модели

Практически любую статистическую модель можно использовать для целей прогнозирования. Вообще говоря, существует два класса прогнозных моделей: параметрические и непараметрические . Третий класс, полупараметрические модели, включает в себя функции обоих. Параметрические модели делают «конкретные допущения в отношении одного или нескольких параметров совокупности, которые характеризуют базовое распределение (я)». Непараметрические модели «обычно включают меньше предположений о структуре и форме распределения [чем параметрические модели], но обычно содержат сильные предположения о независимости».

Приложения

Моделирование поднятия

Моделирование подъема - это метод моделирования изменения вероятности, вызванного действием. Обычно это маркетинговое действие, такое как предложение купить продукт, использовать продукт больше или повторно подписать контракт. Например, в кампании удержания вы хотите спрогнозировать изменение вероятности того, что клиент останется клиентом, если с ним свяжутся. Модель изменения вероятности позволяет нацелить кампанию удержания на тех клиентов, для которых изменение вероятности будет выгодным. Это позволяет программе удержания избежать ненужного оттока или ухода клиентов, не тратя зря деньги на связи с людьми, которые будут действовать в любом случае.

Археология

Прогнозное моделирование в археологии берет свое начало в работе Гордона Уилли в середине пятидесятых годов в долине Виру в Перу. Были проведены полные интенсивные исследования, после чего была определена ковариабельность между культурными остатками и природными особенностями, такими как склоны и растительность. Развитие количественных методов и большая доступность применимых данных привели к росту дисциплины в 1960-х, а к концу 1980-х годов крупные землеустроители во всем мире добились значительного прогресса.

Как правило, прогнозное моделирование в археологии устанавливает статистически обоснованные причинно-следственные или ковариабельные отношения между естественными прокси, такими как типы почвы, высота, уклон, растительность, близость к воде, геология, геоморфология и т. Д., А также наличие археологических особенностей. Путем анализа этих поддающихся количественной оценке атрибутов земли, подвергшейся археологическим раскопкам, иногда можно предвидеть «археологическую уязвимость» неисследованных территорий, основываясь на естественных примерах в этих областях. Крупные управляющие земельными ресурсами в Соединенных Штатах, такие как Бюро землепользования (BLM), Министерство обороны (DOD) и многочисленные агентства по автострадам и паркам, успешно использовали эту стратегию. Используя прогнозное моделирование в своих планах управления культурными ресурсами, они могут принимать более обоснованные решения при планировании деятельности, которая может потребовать нарушения грунта и впоследствии повлиять на археологические памятники.

Управление взаимоотношениями с клиентами

Прогнозное моделирование широко используется в аналитическом управлении взаимоотношениями с клиентами и интеллектуальном анализе данных для создания моделей уровня клиента, которые описывают вероятность того, что клиент предпримет конкретное действие. Действия обычно связаны с продажами, маркетингом и удержанием клиентов.

Например, крупная потребительская организация, такая как оператор мобильной связи, будет иметь набор прогнозных моделей для перекрестных продаж продуктов, глубокой продажи продуктов (или дополнительных продаж ) и оттока . Кроме того, в настоящее время для такой организации более обычным явлением является наличие модели сохраняемости с использованием модели повышения . Это предсказывает вероятность того, что покупатель может быть спасен в конце периода контракта (изменение вероятности оттока), в отличие от стандартной модели прогнозирования оттока.

Автострахование

Прогнозное моделирование используется в страховании транспортных средств для определения риска происшествий для держателей полисов на основе информации, полученной от держателей полисов. Это широко используется в решениях по страхованию на основе использования, где в прогнозных моделях используются данные на основе телеметрии для построения модели прогнозируемого риска для вероятности страхового возмещения. В прогнозных моделях автострахования «черный ящик» используется только вход датчика GPS или акселерометра . Некоторые модели включают в себя широкий спектр прогнозных входных данных, помимо базовой телеметрии, включая расширенное поведение при вождении, независимые записи о ДТП, историю дорог и профили пользователей, чтобы предоставить улучшенные модели рисков.

Здравоохранение

В 2009 году Parkland Health & Hospital System начала анализ электронных медицинских карт с целью использования прогнозного моделирования для выявления пациентов с высоким риском повторной госпитализации. Первоначально больница была ориентирована на пациентов с застойной сердечной недостаточностью, но программа расширилась и теперь включает пациентов с диабетом, острым инфарктом миокарда и пневмонией.

В 2018 году Banerjee et al. предложила модель глубокого обучения - вероятностные прогностические оценки выживаемости у пациентов с метастатическим раком (PPES-Met) - для оценки краткосрочной ожидаемой продолжительности жизни (> 3 месяцев) пациентов путем анализа клинических записей в свободной форме в электронной медицинской карте, в то время как поддержание временной последовательности посещений. Модель была обучена на большом наборе данных (10 293 пациента) и проверена на отдельном наборе данных (1818 пациентов). Он достиг области под кривой ROC ( рабочие характеристики приемника ) 0,89. Чтобы обеспечить способность объяснения, они разработали интерактивный графический инструмент, который может улучшить понимание врачом основы прогнозов модели. Высокая точность и объяснимая способность модели PPES-Met может позволить использовать модель в качестве инструмента поддержки принятия решений для персонализации лечения метастатического рака и оказания ценной помощи врачам.

Алгоритмическая торговля

Прогнозирующее моделирование в торговле - это процесс моделирования, в котором вероятность результата прогнозируется с использованием набора переменных-предикторов . Прогностические модели могут быть построены для различных активов, таких как акции, фьючерсы, валюты, товары и т. Д. Прогностическое моделирование все еще широко используется торговыми фирмами для разработки стратегий и торговли. Он использует математически продвинутое программное обеспечение для оценки индикаторов по цене, объему, открытому интересу и другим историческим данным, чтобы обнаружить повторяющиеся закономерности.

Системы отслеживания лидов

Прогнозное моделирование дает лидогенераторам фору за счет прогнозирования результатов каждой потенциальной кампании на основе данных. Этот метод экономит время и выявляет потенциальные слепые зоны, чтобы помочь клиенту принимать более разумные решения.

Заметные неудачи прогнозного моделирования

Хотя это и не обсуждается широко в сообществе специалистов по предиктивному моделированию, предиктивное моделирование - это методология, которая широко использовалась в прошлом в финансовой индустрии, и некоторые из основных неудач способствовали финансовому кризису 2007–2008 годов . Эти неудачи иллюстрируют опасность полагаться исключительно на модели, которые по своей сути являются ретроспективными. Следующие примеры ни в коем случае не являются полным списком:

1) Рейтинг облигаций. S&P , Moody's и Fitch количественно определяют вероятность дефолта по облигациям с помощью дискретных переменных, называемых рейтингом. Рейтинг может принимать дискретные значения от AAA до D. Рейтинг является прогностическим фактором риска дефолта на основе множества переменных, связанных с заемщиком и историческими макроэкономическими данными. Рейтинговые агентства потерпели неудачу со своими рейтингами на рынке обеспеченных долговыми обязательствами ( CDO ) ипотечных кредитов на сумму 600 миллиардов долларов США . Практически весь сектор AAA (и сектор супер-AAA - новый рейтинг, который рейтинговые агентства предоставили для представления сверхнадежных инвестиций) рынка CDO в течение 2008 г. допустил дефолт или был серьезно понижен, многие из которых получили свои рейтинги менее чем за год до этого.

2) Пока что никакие статистические модели, которые пытаются спрогнозировать цены фондового рынка на основе исторических данных, не считаются последовательными, чтобы делать правильные прогнозы в долгосрочной перспективе. Особенно запомнилась неудача фонда Long Term Capital Management , который нанял высококвалифицированных аналитиков, в том числе лауреата Нобелевской премии по экономическим наукам , для разработки сложной статистической модели, которая предсказывала разброс цен между различными ценными бумагами. Эти модели приносили впечатляющую прибыль, пока не случился крупный провал, который заставил тогдашнего председателя Федеральной резервной системы Алан Гринспен выступить посредником в плане спасения, разработанного брокерами-дилерами с Уолл-стрит , чтобы предотвратить обвал рынка облигаций.

Возможные фундаментальные ограничения прогнозных моделей, основанных на подборе данных

1) История не всегда может точно предсказать будущее. Использование отношений, полученных из исторических данных, для прогнозирования будущего неявно предполагает, что в сложной системе существуют определенные устойчивые условия или константы. Это почти всегда приводит к некоторой неточности, когда в системе задействованы люди.

2) Проблема неизвестных неизвестных. При сборе всех данных сборщик сначала определяет набор переменных, для которых собираются данные. Однако независимо от того, насколько обширно собиратель рассматривает свой выбор переменных, всегда существует возможность появления новых переменных, которые не были учтены или даже определены, но имеют решающее значение для результата.

3) состязательное поражение алгоритма. После того, как алгоритм становится общепринятым стандартом измерения, его могут использовать в своих интересах люди, которые понимают алгоритм и имеют стимул обмануть или манипулировать результатом. Вот что случилось с рейтингом CDO, описанным выше. Дилеры CDO активно выполняли предложения рейтинговых агентств по достижению AAA или супер-AAA по выдаваемым ими CDO, умело манипулируя переменными, которые были «неизвестны» «сложным» моделям рейтинговых агентств.

Смотрите также

использованная литература

^ Гейссер, Сеймур (1993). Прогнозный вывод: введение . Чепмен и Холл . п. . ISBN 978-0-412-03471-8.
Перейти ↑ Finlay, Steven (2014). Прогнозная аналитика, интеллектуальный анализ данных и большие данные. Мифы, заблуждения и методы (1-е изд.). Пэлгрейв Макмиллан . п. 237. ISBN. 978-1137379276.
^ Шескин, David J. (27 апреля 2011). Справочник по параметрическим и непараметрическим статистическим процедурам . CRC Press . п. 109. ISBN 978-1439858011.
Перейти ↑ Cox, DR (2006). Принципы статистического вывода . Издательство Кембриджского университета . п. 2.
^ Уилли, Гордон Р. (1953), "Образцы доисторических поселений в долине Виру, Перу", Бюллетень 155. Бюро американской этнологии
^ Гейдельберг, Курт и др. «Оценка программы исследования археологических образцов на испытательном и учебном полигоне Невады», Технический отчет SRI 02-16, 2002
^ Джеффри Х. Альтшул, Линн Себастьян и Курт Хайдельберг, «Прогнозирующее моделирование в вооруженных силах: похожие цели, расходящиеся пути», Серия исследований по сохранению 1, Фонд SRI, 2004 г.
^ «Больница использует аналитику данных и прогнозное моделирование для выявления и распределения скудных ресурсов для пациентов с высоким риском, что приводит к меньшему количеству повторных госпитализаций» . Агентство медицинских исследований и качества . 2014-01-29 . Проверено 19 марта 2019 .
^ Банерджи, Имон; и другие. (2018-07-03). «Вероятностные прогностические оценки выживаемости у пациентов с метастатическим раком (PPES-Met) с использованием клинических описаний в свободном тексте» . Научные отчеты . 8 (10037 (2018)): 10037. Bibcode : 2018NatSR ... 810037B . DOI : 10.1038 / s41598-018-27946-5 . PMC 6030075 . PMID 29968730 .
^ "Торговые системы на основе прогнозных моделей, Часть 1 - Успех системного трейдера" . Системный трейдер Успех . 2013-07-22 . Проверено 25 ноября 2016 .
^ «Прогностическое моделирование для отслеживания вызовов» . Phonexa . 2019-08-22 . Проверено 25 февраля 2021 .

дальнейшее чтение

Clarke, Bertrand S .; Кларк, Дженнифер Л. (2018), Прогностическая статистика , Cambridge University Press
Иглесиас, Пилар; Sandoval, Mônica C .; Перейра, Карлос Альберто де Браганса (1993), «Прогнозирующая вероятность в конечных популяциях» , Brazilian Journal of Probability and Statistics , 7 (1): 65–82, JSTOR 43600831
Келлехер, Джон Д .; Мак Нейме, Брайан; Д'Арси, Аойф (2015), Основы машинного обучения для прогнозной аналитики данных: алгоритмы, рабочие примеры и тематические исследования , MIT Press
Кун, Макс; Джонсон, Кьелл (2013), Прикладное прогнозное моделирование , Springer
Шмуэли, Г. (2010), «Объяснить или предсказать?», Статистическая наука , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214 / 10-STS330

[1] Гейссер, Сеймур (1993). Прогнозный вывод: введение . Чепмен и Холл . п. . ISBN 978-0-412-03471-8.

[2] Перейти ↑ Finlay, Steven (2014). Прогнозная аналитика, интеллектуальный анализ данных и большие данные. Мифы, заблуждения и методы (1-е изд.). Пэлгрейв Макмиллан . п. 237. ISBN. 978-1137379276.

[Sheskin-3] Шескин, David J. (27 апреля 2011). Справочник по параметрическим и непараметрическим статистическим процедурам . CRC Press . п. 109. ISBN 978-1439858011.

[Cox06-4] Перейти ↑ Cox, DR (2006). Принципы статистического вывода . Издательство Кембриджского университета . п. 2.

[5] Уилли, Гордон Р. (1953), "Образцы доисторических поселений в долине Виру, Перу", Бюллетень 155. Бюро американской этнологии

[6] Гейдельберг, Курт и др. «Оценка программы исследования археологических образцов на испытательном и учебном полигоне Невады», Технический отчет SRI 02-16, 2002

[7] Джеффри Х. Альтшул, Линн Себастьян и Курт Хайдельберг, «Прогнозирующее моделирование в вооруженных силах: похожие цели, расходящиеся пути», Серия исследований по сохранению 1, Фонд SRI, 2004 г.

[8] «Больница использует аналитику данных и прогнозное моделирование для выявления и распределения скудных ресурсов для пациентов с высоким риском, что приводит к меньшему количеству повторных госпитализаций» . Агентство медицинских исследований и качества . 2014-01-29 . Проверено 19 марта 2019 .

[9] Банерджи, Имон; и другие. (2018-07-03). «Вероятностные прогностические оценки выживаемости у пациентов с метастатическим раком (PPES-Met) с использованием клинических описаний в свободном тексте» . Научные отчеты . 8 (10037 (2018)): 10037. Bibcode : 2018NatSR ... 810037B . DOI : 10.1038 / s41598-018-27946-5 . PMC 6030075 . PMID 29968730 .

[10] "Торговые системы на основе прогнозных моделей, Часть 1 - Успех системного трейдера" . Системный трейдер Успех . 2013-07-22 . Проверено 25 ноября 2016 .

[11] «Прогностическое моделирование для отслеживания вызовов» . Phonexa . 2019-08-22 . Проверено 25 февраля 2021 .

Languages

In other projects