Логистическая регрессия - Logistic regression

В статистике , то логистическая модель (или логит модели ) используется для моделирования вероятности определенного класса или события , такие как существующие годен / не годен, выигрыш / проигрыш, живой / мертвый или здоровый / больной. Это может быть расширено для моделирования нескольких классов событий, таких как определение того, содержит ли изображение кошку, собаку, льва и т. Д. Каждому объекту, обнаруживаемому на изображении, будет присвоена вероятность от 0 до 1 с суммой, равной единице.

Логистическая регрессия - это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования двоичной зависимой переменной , хотя существует множество более сложных расширений . В регрессионном анализе , логистическая регрессия (или логит регрессия ) является оценка параметров логистической модели (форма двоичной регрессии ). Математически бинарная логистическая модель имеет зависимую переменную с двумя возможными значениями, такими как годен / не годен, которая представлена индикаторной переменной , где два значения помечены как «0» и «1». В логистической модели, в лог-коэффициенты (The логарифм из шансов ) для значения с надписью «1» представляет собой линейную комбинацию из одного или нескольких независимых переменных ( «предсказателей»); каждая независимая переменная может быть двоичной переменной (два класса, закодированных индикаторной переменной) или непрерывной переменной (любое действительное значение). Соответствующая вероятность значения, помеченного «1», может варьироваться от 0 (обязательно значение «0») до 1 (безусловно, значение «1»), отсюда и маркировка; функция, которая преобразует логарифмические шансы в вероятность, является логистической функцией, отсюда и название. Единица измерения для шкалы лога-фор называется логитом из журнала ИСТИК ипа нее , следовательно , альтернативных имен. Можно также использовать аналогичные модели с другой сигмоидной функцией вместо логистической, например, пробит-модель ; Определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно увеличивает шансы данного результата с постоянной скоростью, при этом каждая независимая переменная имеет свой собственный параметр; для двоичной зависимой переменной это обобщает отношение шансов .

В модели бинарной логистической регрессии зависимая переменная имеет два уровня ( категориальный ). Выходы с более чем двумя значениями моделируются с помощью полиномиальной логистической регрессии и, если несколько категорий упорядочены , с помощью порядковой логистической регрессии (например, порядковая логистическая модель пропорциональных шансов). Сама модель логистической регрессии просто моделирует вероятность выхода с точки зрения входных данных и не выполняет статистическую классификацию (это не классификатор), хотя ее можно использовать для создания классификатора, например, путем выбора порогового значения и классификации входных данных с вероятностью. больше порогового значения для одного класса и ниже порогового значения для другого класса; это обычный способ создания двоичного классификатора . Коэффициенты обычно не вычисляются с помощью выражения в замкнутой форме, в отличие от линейного метода наименьших квадратов ; см. § Подгонка модели . Логистическая регрессия как общая статистическая модель была первоначально разработана и популяризирована в первую очередь Джозефом Берксоном , начиная с Берксона (1944) , где он придумал «логит»; см. § История .

Приложения

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальных наук. Например, Шкала тяжести травм и травм ( TRISS ), которая широко используется для прогнозирования смертности травмированных пациентов, была первоначально разработана Boyd et al. с помощью логистической регрессии. Многие другие медицинские шкалы, используемые для оценки тяжести состояния пациента, были разработаны с использованием логистической регрессии. Логистическая регрессия может использоваться для прогнозирования риска развития данного заболевания (например, диабета , ишемической болезни сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела , результаты различных анализов крови и т. Д.). Другой пример может заключаться в прогнозировании того, проголосует ли непальский избиратель за Конгресс Непала, Коммунистическую партию Непала или любую другую партию, на основании возраста, дохода, пола, расы, государства проживания, голосов на предыдущих выборах и т. Д. используется в инженерии , особенно для прогнозирования вероятности отказа данного процесса, системы или продукта. Он также используется в маркетинговых приложениях, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. Д. В экономике его можно использовать для прогнозирования вероятности того, что человек окажется на рынке труда, и бизнес-приложение будет Предсказывать вероятность дефолта домовладельца по ипотеке . Условные случайные поля , расширение логистической регрессии до последовательных данных, используются при обработке естественного языка .

Примеры

Логистическая модель

Давайте попробуем понять логистическую регрессию, рассмотрев логистическую модель с заданными параметрами, а затем посмотрим, как можно оценить коэффициенты на основе данных. Рассмотрим модель с двумя предикторами, и , и одной двоичной (Бернулли) переменной отклика , которую мы обозначаем . Мы предполагаем линейную связь между переменными-предикторами и логарифмическими шансами (также называемыми логит) события, которое . Это линейное соотношение может быть записано в следующей математической форме (где - логарифм шансов, является основанием логарифма и являются параметрами модели):

Мы можем восстановить шансы , возведя в степень логарифм шансов:

.

Путь простой алгебраической манипуляции (и разделив числитель и знаменатель на ), вероятность того, что является

.

Где это сигмовидной функция с основанием . Приведенная выше формула показывает, что после того, как они зафиксированы, мы можем легко вычислить либо логарифмические шансы для данного наблюдения, либо вероятность того, что для данного наблюдения. Основной вариант использования логистической модели - это наблюдение и оценка вероятности этого . В большинстве приложений за основу логарифма обычно берется е . Однако в некоторых случаях проще сообщить результаты, работая с основанием 2 или основанием 10.

Рассмотрим пример с , и коэффициенты , и . Чтобы быть конкретным, модель

где - вероятность того, что событие .

Это можно интерпретировать следующим образом:

  • это y- перехват . Это логарифм шансов события , когда предикторы . Возведя в степень, мы можем увидеть, что когда шансы события равны 1 к 1000, или . Точно так же вероятность события, когда может быть вычислена как .
  • означает, что увеличение на 1 увеличивает логарифмические шансы на . Таким образом, если увеличивается на 1, шансы, что увеличиваются в раз . Следует отметить , что вероятность из также увеличилась, но она не увеличивается так же , как шансы увеличились.
  • означает, что увеличение на 1 увеличивает логарифмические шансы на . Таким образом, если увеличивается на 1, шансы увеличиваются в раз. Обратите внимание, как влияние на логарифм шансов вдвое больше, чем влияние , но влияние на шансы в 10 раз больше. Но эффект на вероятность из не так много , как 10 раз больше, это только эффект на вероятность того, что в 10 раз больше.

Чтобы оценить параметры на основе данных, необходимо выполнить логистическую регрессию.

Вероятность сдачи экзамена по сравнению с часами обучения

Чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на обучение, влияет на вероятность сдачи студентом экзамена?

Причина использования логистической регрессии для этой проблемы заключается в том, что значения зависимой переменной, пройден и не пройден, хотя и представлены «1» и «0», не являются количественными числами . Если проблема была изменена таким образом, что результат «прошел / не прошел» был заменен оценкой 0–100 (количественные числа), то можно было бы использовать простой регрессионный анализ .

В таблице показано количество часов, проведенных каждым учащимся, и указано, прошли они (1) или не прошли (0).

Часы 0,50 0,75 1,00 1,25 1,50 1,75 1,75 2,00 2,25 2,50 2,75 3,00 3,25 3,50 4.00 4,25 4,50 4,75 5.00 5,50
Проходить 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1

График показывает вероятность сдачи экзамена в зависимости от количества часов обучения с кривой логистической регрессии, подобранной к данным.

График кривой логистической регрессии, показывающий вероятность сдачи экзамена в зависимости от количества часов обучения

Логистический регрессионный анализ дает следующий результат.

Коэффициент Std.Error z-значение P-значение (Вальд)
Перехватить -4,0777 1,7610 -2,316 0,0206
Часы 1,5046 0,6287 2.393 0,0167

Вывод показывает, что количество часов обучения в значительной степени связано с вероятностью сдачи экзамена ( , тест Вальда ). Выходные данные также предоставляют коэффициенты для и . Эти коэффициенты вводятся в уравнение логистической регрессии для оценки шансов (вероятности) сдачи экзамена:

Один дополнительный час обучения, по оценкам, увеличит логарифмические шансы прохождения на 1,5046, поэтому умножение шансов прохождения через Форму с перехватом x (2,71) показывает, что это оценивает четные шансы (логарифм шансов 0, шансы 1, вероятность 1 / 2) для обучающегося 2,71 часа.

Например, для студента, который учится 2 часа, ввод значения в уравнение дает оценочную вероятность сдачи экзамена 0,26:

Точно так же для студента, который учится 4 часа, оценочная вероятность сдачи экзамена составляет 0,87:

В этой таблице показана вероятность сдачи экзамена для нескольких значений часов обучения.

Часы
учебы
Сдача экзамена
Лог-шансы Шансы Вероятность
1 −2,57 0,076 ≈ 1: 13,1 0,07
2 −1,07 0,34 ≈ 1: 2,91 0,26
3 0,44 1,55 0,61
4 1,94 6,96 0,87
5 3,45 31,4 0,97

Результат анализа логистической регрессии дает p-значение , которое основано на z-балле Вальда. Вместо метода Вальда для расчета p-значения для логистической регрессии рекомендуется использовать критерий отношения правдоподобия (LRT), который дает для этих данных .

Обсуждение

Логистическая регрессия может быть биномиальной, порядковой или полиномиальной. Биномиальная или двоичная логистическая регрессия имеет дело с ситуациями, в которых наблюдаемый результат для зависимой переменной может иметь только два возможных типа: «0» и «1» (которые могут представлять, например, «прошел» или «не прошел» или «выиграл». "vs." потеря "). Полиномиальная логистическая регрессия имеет дело с ситуациями, в которых результат может иметь три или более возможных типа (например, «болезнь A» против «болезни B» против «болезни C»), которые не упорядочены. Порядковая логистическая регрессия имеет дело с упорядоченными зависимыми переменными.

В бинарной логистической регрессии результат обычно кодируется как «0» или «1», поскольку это приводит к наиболее простой интерпретации. Если конкретный наблюдаемый результат для зависимой переменной является заслуживающим внимания возможным результатом (называемым «успехом», «экземпляром» или «случаем»), он обычно кодируется как «1», а противоположный результат (называемый «сбой», «неэкземпляр» или «неслучай») как «0». Бинарная логистическая регрессия используется для прогнозирования вероятности возникновения случая на основе значений независимых переменных (предикторов). Шансы определяются как вероятность того, что конкретный исход является случаем, деленный на вероятность того, что это не случай.

Как и другие формы регрессионного анализа , логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть непрерывными или категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают принадлежность к одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат испытания Бернулли ), а не для непрерывного результата. Учитывая эту разницу, предположения о линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для двоичной зависимой переменной. Что необходимо, так это способ преобразования двоичной переменной в непрерывную, которая может принимать любое реальное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет вероятность того, что событие произойдет для разных уровней каждой независимой переменной, а затем использует логарифм для создания непрерывного критерия в виде преобразованной версии зависимой переменной. Логарифм шансов - это логит вероятности, логит определяется следующим образом:

Хотя зависимой переменной в логистической регрессии является Бернулли, логит имеет неограниченный масштаб. Функция logit - это функция связи в такой обобщенной линейной модели, т. Е.

Y - переменная отклика, распределенная по Бернулли, а x - переменная-предиктор; в & beta ; значения являются линейными параметрами.

Затем логит вероятности успеха подгоняется к предикторам. Прогнозируемое значение логита преобразуется обратно в прогнозируемые шансы с помощью функции, обратной натуральному логарифму - экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии является переменной 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях все, что нужно, - это ставки. В других случаях требуется конкретный прогноз типа «да» или «нет» для определения того, является ли зависимая переменная «успешной»; это категориальное предсказание может быть основано на вычисленных шансах на успех, причем предсказанные шансы выше некоторого выбранного значения отсечения переводятся в предсказание успеха.

Предположение о линейных предсказательных эффектах можно легко ослабить с помощью таких методов, как сплайн-функции .

Логистическая регрессия против других подходов

Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной и одной или несколькими независимыми переменными путем оценки вероятностей с помощью логистической функции , которая является кумулятивной функцией распределения логистического распределения . Таким образом, он обрабатывает тот же набор проблем, что и пробит-регрессия, с использованием аналогичных методов, причем последний использует вместо этого кумулятивную кривую нормального распределения. Точно так же в интерпретациях скрытых переменных этих двух методов первый предполагает стандартное логистическое распределение ошибок, а второй - стандартное нормальное распределение ошибок.

Логистическую регрессию можно рассматривать как частный случай обобщенной линейной модели и, следовательно, аналог линейной регрессии . Однако модель логистической регрессии основана на совершенно иных предположениях (о взаимосвязи между зависимыми и независимыми переменными) от предположений линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение является распределением Бернулли, а не распределением Гаусса , поскольку зависимая переменная является двоичной. Во-вторых, прогнозируемые значения являются вероятностями и поэтому ограничиваются (0,1) с помощью функции логистического распределения, поскольку логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.

Логистическая регрессия является альтернативой методу Фишера 1936 года, линейному дискриминантному анализу . Если допущения линейного дискриминантного анализа верны, обусловленность может быть отменена для получения логистической регрессии. Однако обратное неверно, потому что логистическая регрессия не требует многомерного нормального допущения дискриминантного анализа.

Скрытая интерпретация переменных

Логистическую регрессию можно понять просто как нахождение наиболее подходящих параметров:

где - ошибка, распределенная стандартным логистическим распределением . (Если вместо этого используется стандартное нормальное распределение, это пробит-модель .)

Связанная скрытая переменная . Член ошибки не наблюдается, поэтому он также является ненаблюдаемым, поэтому называется «скрытым» (наблюдаемые данные являются значениями и ). В отличие от обычной регрессии, однако, параметры не могут быть выражены с помощью какой - либо прямой формулой из и значений в наблюдаемых данных. Вместо этого они должны быть найдены с помощью итеративного процесса поиска, обычно реализуемого программой, которая находит максимум сложного «выражения вероятности», которое является функцией всех наблюдаемых и значений. Подход к оценке объясняется ниже.

Логистическая функция, шансы, отношение шансов и логит

Рисунок 1. Стандартная логистическая функция ; обратите внимание, что для всех .

Определение логистической функции

Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция - это сигмоидальная функция , которая принимает любой реальный ввод и выводит значение от нуля до единицы. Для логита это интерпретируется как получение входных логарифмических шансов и вероятность выхода . Стандартная логистическая функция определяется следующим образом :

График логистической функции на t- интервале (−6,6) показан на рисунке 1.

Предположим, что это линейная функция одной независимой переменной (случай, когда является линейной комбинацией нескольких независимых переменных, рассматривается аналогично). Тогда мы можем выразить это следующим образом:

А общую логистическую функцию теперь можно записать как:

В логистической модели интерпретируется как вероятность того, что зависимая переменная будет равна успеху / случаю, а не неудаче / отсутствию случая. Понятно, что переменные ответа не распределены одинаково: различаются от одной точки данных к другой, хотя они независимы с учетом матрицы проектирования и общих параметров .

Определение обратной логистической функции

Теперь мы можем определить функцию logit (логарифм шансов) как обратную стандартной логистической функции. Легко видеть, что он удовлетворяет:

и то же самое, после возведения в степень обе стороны, у нас есть шансы:

Толкование этих терминов

В приведенных выше уравнениях используются следующие члены:

  • это функция логита. Уравнение для показывает, что логит (т. Е. Логарифм шансов или натуральный логарифм шансов) эквивалентен выражению линейной регрессии.
  • обозначает натуральный логарифм .
  • - это вероятность того, что зависимая переменная соответствует случаю при некоторой линейной комбинации предикторов. Формула для показывает, что вероятность того, что зависимая переменная приравнивается к случаю, равна значению логистической функции выражения линейной регрессии. Это важно, поскольку показывает, что значение выражения линейной регрессии может изменяться от отрицательной до положительной бесконечности, и все же после преобразования результирующее выражение для вероятности находится в диапазоне от 0 до 1.
  • является отрезком от уравнения линейной регрессии (значение критерия, когда предиктор равен нулю).
  • - коэффициент регрессии, умноженный на некоторое значение предиктора.
  • база обозначает экспоненциальную функцию.

Определение шансов

Шансы зависимой переменной, равной случаю (при некоторой линейной комбинации предикторов), эквивалентны экспоненциальной функции выражения линейной регрессии. Это показывает, как логит служит связующей функцией между вероятностью и выражением линейной регрессии. Учитывая, что логит находится в диапазоне от отрицательной до положительной бесконечности, он обеспечивает адекватный критерий для проведения линейной регрессии, а логит легко конвертируется обратно в шансы.

Итак, мы определяем шансы зависимой переменной, равной случаю (при некоторой линейной комбинации предикторов), следующим образом:

Отношение шансов

Для непрерывной независимой переменной отношение шансов можно определить как:

Эта экспоненциальная зависимость дает интерпретацию : Шансы умножаются на каждую единицу увеличения x.

Для двоичной независимой переменной отношение шансов определяется как где a , b , c и d - ячейки в таблице непредвиденных обстоятельств 2 × 2 .

Множественные независимые переменные

Если имеется несколько независимых переменных, приведенное выше выражение можно изменить на . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m пояснителями; все параметры для всех j = 0, 1, 2, ..., m оцениваются.

Опять же, более традиционные уравнения:

а также

где обычно .

Подгонка модели

Логистическая регрессия - важный алгоритм машинного обучения . Цель состоит в том, чтобы смоделировать вероятность того, что случайная величина будет равна 0 или 1 с учетом экспериментальных данных.

Рассмотрим обобщенную линейную модельную функцию, параметризованную следующим образом :

Следовательно,

и поскольку мы видим, что это дается формулой. Теперь вычисляем функцию правдоподобия, предполагая, что все наблюдения в выборке независимо распределены по Бернулли,

Как правило, логарифмическая вероятность максимальна,

который максимизируется с помощью методов оптимизации, таких как градиентный спуск .

Если предположить, что пары равномерно взяты из основного распределения, то в пределе большого  N ,

где это условная энтропия и является Кульбак-Либлер дивергенции . Это приводит к интуиции, что, максимизируя логарифмическую вероятность модели, вы минимизируете отклонение KL вашей модели от максимального распределения энтропии. Интуитивный поиск модели, которая делает наименьшее количество предположений в своих параметрах.

«Правило десяти»

Широко используемое эмпирическое правило, « правило одного из десяти », гласит, что модели логистической регрессии дают стабильные значения для независимых переменных, если они основаны как минимум на примерно 10 событиях на объясняющую переменную (EPV); где событие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Таким образом, исследование, предназначенное для использования объясняющих переменных для события (например, инфаркта миокарда ), которое, как ожидается, произойдет у части участников исследования, потребует всего участников. Однако есть серьезные споры о надежности этого правила, которое основано на исследованиях моделирования и не имеет надежного теоретического обоснования. По мнению некоторых авторов, в некоторых обстоятельствах это правило является чрезмерно консервативным, причем авторы заявляют: «Если мы (несколько субъективно) считаем охват доверительного интервала менее 93 процентов, ошибку типа I более 7 процентов или относительную систематическую ошибку более 15 процентов как проблематично, наши результаты показывают, что проблемы довольно часты с 2–4 EPV, редко - с 5–9 EPV и все еще наблюдаются с 10–16 EPV. Наихудшие случаи каждой проблемы не были серьезными с 5–9 EPV и обычно сравнимы с с 10–16 EPV ».

Другие получили результаты, которые не согласуются с вышеизложенным, с использованием других критериев. Полезный критерий заключается в том, будет ли подобранная модель, как ожидается, достигнуть той же прогностической дискриминации в новой выборке, которую она, по-видимому, достигла в выборке для разработки модели. Для этого критерия может потребоваться 20 событий для каждой переменной-кандидата. Кроме того, можно утверждать, что 96 наблюдений необходимы только для оценки точки пересечения модели с достаточной точностью, чтобы предел ошибки в предсказанных вероятностях составлял ± 0,1 при уровне достоверности 0,95.

Оценка максимального правдоподобия (MLE)

Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия . В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого следует использовать итерационный процесс; например метод Ньютона . Этот процесс начинается с предварительного решения, его немного изменяют, чтобы посмотреть, можно ли его улучшить, и повторяют это изменение до тех пор, пока улучшения не прекратятся, после чего процесс считается сходимым.

В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, потому что итерационный процесс не смог найти подходящие решения. Неспособность сойтись может произойти по ряду причин: большое отношение предикторов к случаям, мультиколлинеарность , разреженность или полное разделение .

  • Наличие большого отношения переменных к наблюдениям приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости. Регуляризованная логистическая регрессия специально предназначена для использования в этой ситуации.
  • Мультиколлинеарность означает недопустимо высокие корреляции между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но увеличиваются стандартные ошибки и уменьшается вероятность сходимости модели. Чтобы обнаружить мультиколлинеарность среди предикторов, можно провести линейный регрессионный анализ с интересующими предикторами с единственной целью - изучить статистику толерантности, используемую для оценки того, является ли мультиколлинеарность неприемлемо высокой.
  • Редкость данных означает наличие большой доли пустых ячеек (ячеек с нулевым счетчиком). Нулевое количество ячеек особенно проблематично с категориальными предикторами. С непрерывными предикторами модель может вывести значения для нулевого числа ячеек, но это не относится к категориальным предикторам. Модель не будет сходиться с нулевым количеством ячеек для категориальных предикторов, потому что натуральный логарифм нуля является неопределенным значением, поэтому окончательное решение модели не может быть достигнуто. Чтобы решить эту проблему, исследователи могут свернуть категории теоретически значимым образом или добавить константу ко всем ячейкам.
  • Другой числовой проблемой, которая может привести к отсутствию сходимости, является полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий - все случаи точно классифицируются. В таких случаях следует повторно проверить данные, поскольку, вероятно, есть какая-то ошибка.
  • Можно также использовать полупараметрический или непараметрический подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают предположений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит).

Функция потери кросс-энтропии

В приложениях машинного обучения, где для двоичной классификации используется логистическая регрессия, MLE минимизирует функцию перекрестных потерь энтропии .

Метод наименьших квадратов с итеративным перевесом (IRLS)

Двоичный логистической регрессии ( или ) может, например, быть рассчитаны с использованием итеративного reweighted наименьших квадратов (IRLS), что эквивалентно максимизации журнала правдоподобия в виде распределенного Бернулли процесса с использованием метода Ньютона . Если задача записана в форме векторной матрицы с параметрами , независимыми переменными и математическим ожиданием распределения Бернулли , параметры можно найти с помощью следующего итерационного алгоритма:

где - диагональная матрица весов, вектор ожидаемых значений,

Матрица регрессора и вектор переменных отклика. Более подробную информацию можно найти в литературе.

Оценка степени соответствия

Степень соответствия в моделях линейной регрессии обычно измеряется с помощью R 2 . Поскольку у этого нет прямого аналога в логистической регрессии, вместо него можно использовать различные методы, включая следующие.

Тесты на отклонение и отношение правдоподобия

В линейном регрессионном анализе речь идет о разделении дисперсии посредством вычислений суммы квадратов - дисперсия в критерии по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В логистическом регрессионном анализе отклонение используется вместо вычисления суммы квадратов. Отклонение аналогично вычислению суммы квадратов в линейной регрессии и является мерой отсутствия соответствия данным в модели логистической регрессии. Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение рассчитывается путем сравнения данной модели с насыщенной моделью. Это вычисление дает тест отношения правдоподобия :

В приведенном выше уравнении D представляет отклонение, а ln представляет собой натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, следовательно, потребуется отрицательный знак. Можно показать, что D следует приблизительному распределению хи-квадрат . Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, таким образом, хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная величина дисперсии необъяснима.

Когда насыщенная модель недоступна (общий случай), отклонение рассчитывается просто как −2 · (логарифмическая вероятность подобранной модели), и ссылка на логарифмическую вероятность насыщенной модели может быть удалена из всего, что следует, без вреда.

В логистической регрессии особенно важны два показателя отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения (что означает «без предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью с хотя бы одним предиктором и насыщенной моделью. В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Учитывая, что отклонение является мерой разницы между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу на распределении хи-квадрат со степенями свободы, равными разнице в количестве оцениваемых параметров.

Позволять

Тогда разница обоих:

Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшают соответствие модели. Это аналогично F- критерию, используемому в линейном регрессионном анализе для оценки значимости прогноза.

Псевдо-R-квадрат

В линейной регрессии квадрата множественная корреляция, R ² используется для оценить степень согласия , поскольку он представляет долю дисперсии в критерии , что объясняется предсказателями. В логистическом регрессионном анализе нет согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет ограничения.

На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:

  • Отношение правдоподобия R ² L
  • Кокс и Снелл R ² CS
  • Nagelkerke R ² N
  • Макфэдден R ² McF
  • Тюр Р ² Т

R ² L дан Коэном:

Это наиболее аналогичный показатель квадрату множественных корреляций в линейной регрессии. Он представляет собой пропорциональное уменьшение отклонения, при этом отклонение рассматривается как мера отклонения, аналогичная, но не идентичная дисперсии в линейном регрессионном анализе. Одно ограничение отношения правдоподобия R ² является то , что она не монотонно связана с отношением шансов, что означает , что она не обязательно возрастает по мере увеличения отношения шансов и не обязательно уменьшается по мере шансы соотношение уменьшается.

R ² CS является альтернативным показателем СОГЛАСИЯ , связанным с ¨R ² значения от линейной регрессии. Выдается:

где L M и L 0 - вероятности для аппроксимируемой модели и нулевой модели соответственно. Индекс Кокса и Снелла проблематичен из-за его максимального значения . Максимальное значение этого верхнего предела может составлять 0,75, но оно может легко достигать 0,48, когда предельная доля случаев мала.

R ² N обеспечивает поправку к R ² Кокса и Снеллиуса, так что максимальное значение равно 1. Тем не менее, отношения Кокса и Снеллиуса и отношение правдоподобия R ²s показывают большее соответствие друг с другом, чем любой из них с R ² Нагелькерке . Конечно, это может быть не так для значений, превышающих 0,75, поскольку индекс Кокса и Снелла ограничен этим значением. Отношение правдоподобия R ² часто предпочитают альтернативы , как это наиболее аналогично R ² в линейной регрессии , не зависит от базовой скорости (как Кокс и Снелл и Nagelkerke R ²s увеличение как доля случаев увеличится от 0 до 0,5) и варьируется от 0 до 1.

R ² McF определяется как

и предпочтительнее , чем R ² CS по Allison. Тогда два выражения R ² McF и R ² CS связаны соответственно соотношением

Тем не менее, в настоящее время Эллисон предпочитает R ² Т , которая является относительно новой мерой , разработанная Tjur. Его можно рассчитать в два этапа:

  1. Для каждого уровня зависимой переменной найдите среднее значение прогнозируемых вероятностей события.
  2. Возьмите абсолютное значение разницы между этими средними значениями.

Слово предостережения в порядке при интерпретации псев- R ² статистики. Причина этих индексы приступа называют псевдо R ² является то , что они не представляют собой снижение пропорционального по ошибке как R ² в линейной регрессия делает. Линейная регрессия предполагает гомоскедастичность , что дисперсия ошибки одинакова для всех значений критерия. Логистическая регрессия всегда будет гетероскедастической - дисперсия ошибок различается для каждого значения прогнозируемой оценки. Для каждого значения прогнозируемой оценки будет свое значение пропорционального уменьшения ошибки. Поэтому нецелесообразно думать о R ² как пропорциональное уменьшение ошибки в универсальном смысле , в логистической регрессии.

Тест Хосмера – Лемешоу

В тесте Хосмера – Лемешоу используется тестовая статистика, которая асимптотически следует распределению, чтобы оценить, совпадают ли наблюдаемые частоты событий с ожидаемыми частотами событий в подгруппах модельной популяции. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного объединения предсказанных вероятностей и относительно низкой мощности.

Коэффициенты

После подбора модели вполне вероятно, что исследователи захотят изучить вклад отдельных предикторов. Для этого они захотят изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют изменение критерия для каждого изменения единицы в предикторе. Однако в логистической регрессии коэффициенты регрессии представляют изменение логита для каждого изменения единицы в предикторе. Учитывая, что логит не является интуитивно понятным, исследователи, вероятно, сосредоточат внимание на влиянии предсказателя на экспоненциальную функцию коэффициента регрессии - отношения шансов (см. Определение ). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления t- критерия. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в первую очередь тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия

Рассмотренный выше тест отношения правдоподобия для оценки соответствия модели также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель. В случае модели с одним предиктором, просто сравнивается отклонение модели предиктора с отклонением нулевой модели по распределению хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (ср. Хи-квадрат с использованием разницы в степенях свободы двух моделей), то можно сделать вывод, что существует значительная связь между "предиктором" и результатом. Хотя некоторые общие статистические пакеты (например, SPSS) действительно предоставляют статистику теста отношения правдоподобия, без этого требовательного к вычислениям теста было бы труднее оценить вклад отдельных предикторов в случае множественной логистической регрессии. Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. Статистики спорят о целесообразности так называемых «пошаговых» процедур. Есть опасения, что они могут не сохранить номинальные статистические характеристики и ввести в заблуждение.

Статистика Вальда

В качестве альтернативы, при оценке вклада отдельных предикторов в данную модель, можно исследовать значимость статистики Вальда . Статистика Вальда, аналогичная t- критерию линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат.

Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки типа II . Статистика Вальда также имеет тенденцию быть необъективной, когда данные скудны.

Выборка случай-контроль

Допустим, случаи редкие. Тогда мы могли бы пожелать отбирать их чаще, чем их распространенность в популяции. Например, предположим, что есть болезнь, которой страдает 1 человек из 10 000, и для сбора данных нам необходимо провести полное обследование. Проведение тысяч медицинских осмотров здоровых людей для получения данных только по нескольким больным может оказаться слишком дорогостоящим. Таким образом, мы можем оценить большее количество больных, возможно, все редкие исходы. Это также ретроспективная выборка или, что то же самое, несбалансированные данные. Как показывает опыт, выборка элементов управления, в пять раз превышающих количество наблюдений, дает достаточные данные управления.

Логистическая регрессия уникальна тем, что ее можно оценивать на несбалансированных данных, а не на случайно выбранных данных, и все же давать правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы сформируем логистическую модель из таких данных, если модель верна в генеральной совокупности, все параметры верны, за исключением . Мы можем исправить это, если знаем истинную распространенность следующим образом:

где - истинная распространенность, а - распространенность в выборке.

Формальная математическая спецификация

Существуют различные эквивалентные спецификации логистической регрессии, которые подходят для различных типов более общих моделей. Эти разные спецификации позволяют делать разные полезные обобщения.

Настраивать

Базовая настройка логистической регрессии выглядит следующим образом. Нам дан набор данных, содержащий N точек. Каждая точка i состоит из набора из m входных переменных x 1, i ... x m, i (также называемых независимыми переменными , переменными-предикторами, функциями или атрибутами) и двоичной выходной переменной Y i (также известной как зависимая переменная). переменная , переменная ответа, выходная переменная или класс), то есть он может принимать только два возможных значения: 0 (часто означает «нет» или «сбой») или 1 (часто означает «да» или «успех»). Цель логистической регрессии - использовать набор данных для создания прогнозной модели переменной результата.

Как и в линейной регрессии, предполагается , что переменные результата Y i зависят от объясняющих переменных x 1, i ... x m, i .

Объясняющие переменные

Объясняющие переменные могут быть любого типа : действительные , двоичные , категориальные и т. Д. Основное различие заключается между непрерывными и дискретными переменными .

(Дискретные переменные, относящиеся к более чем двум возможным вариантам выбора, обычно кодируются с использованием фиктивных переменных (или индикаторных переменных ), то есть отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значения дискретной переменной со значением 1 " переменная имеет заданное значение », а 0 означает, что« переменная не имеет этого значения ».)

Переменные результата

Формально результаты Y i описываются как данные, распределенные по Бернулли , где каждый результат определяется ненаблюдаемой вероятностью p i, которая специфична для данного результата, но связана с независимыми переменными. Это может быть выражено в любой из следующих эквивалентных форм:

Значения этих четырех строк:

  1. Первая строка выражает распределение вероятностей каждого Y i : при условии независимых переменных, оно следует распределению Бернулли с параметрами p i , вероятностью результата 1 для испытания i . Как отмечалось выше, каждое отдельное испытание имеет свою вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха p i не наблюдается, только результат отдельного испытания Бернулли с использованием этой вероятности.
  2. Вторая строка выражает тот факт, что ожидаемое значение каждого Y i равно вероятности успеха p i , что является общим свойством распределения Бернулли. Другими словами, если мы проведем большое количество испытаний Бернулли с одинаковой вероятностью успеха p i , а затем возьмем среднее значение для всех исходов 1 и 0, то результат будет близок к p i . Это связано с тем, что при вычислении среднего таким образом просто вычисляется доля увиденных успехов, которые, как мы ожидаем, сойдутся с основной вероятностью успеха.
  3. В третьей строке записана функция массы вероятности распределения Бернулли с указанием вероятности увидеть каждый из двух возможных результатов.
  4. Четвертая строка - это еще один способ записи функции массы вероятности, который позволяет избежать написания отдельных случаев и более удобен для определенных типов вычислений. Это основано на том факте, что Y i может принимать только значение 0 или 1. В каждом случае один из показателей будет равен 1, «выбирая» значение под ним, а другой - 0, «отменяя» значение под Это. Следовательно, результат будет либо p i, либо 1 -  p i , как в предыдущей строке.
Линейная функция предиктора

Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейной регрессии, путем моделирования вероятности p i с использованием функции линейного предиктора , то есть линейной комбинации объясняющих переменных и набора коэффициентов регрессии , специфичных для данной модели. но то же самое для всех испытаний. Функция линейного предсказания для конкретной точки данных i записывается как:

где - коэффициенты регрессии, указывающие относительное влияние конкретной объясняющей переменной на результат.

Модель обычно оформляют в более компактном виде:

  • Коэффициенты регрессии β 0 , β 1 , ..., β m сгруппированы в один вектор β размера m  + 1.
  • Для каждой точки данных I , дополнительный пояснительный псевдо-переменную х 0, я добавляется, с фиксированным значением 1, что соответствует перехватывают коэффициента & beta ; 0 .
  • Результирующие объясняющие переменные x 0, i , x 1, i , ..., x m, i затем группируются в один вектор X i размера m  + 1.

Это позволяет записать функцию линейного предсказания следующим образом:

используя обозначение для скалярного произведения между двумя векторами.

Как обобщенная линейная модель

Конкретная модель, используемая логистической регрессией, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемых для бинарных результатов, - это способ, которым вероятность конкретного результата связана с функцией линейного предиктора:

Написано с использованием более компактных обозначений, описанных выше, это:

Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели , которая предсказывает переменные с различными типами распределений вероятностей путем подгонки линейной функции-предиктора вышеуказанной формы к некоторому произвольному преобразованию ожидаемого значения переменной.

Интуиция для преобразования с использованием функции логита (натуральный логарифм шансов) была объяснена выше. Это также имеет практический эффект преобразования вероятности (которая ограничена между 0 и 1) в переменную, которая находится в пределах диапазона, тем самым согласовывая потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

Обратите внимание, что и вероятности p i, и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются с помощью какой-либо процедуры оптимизации, например, оценки максимального правдоподобия , которая находит значения, которые лучше всего соответствуют наблюдаемым данным (т. Е. Дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом условий регуляризации, которые стремятся исключить маловероятные данные. значения, например чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно максимальной апостериорной оценке (MAP), расширению максимального правдоподобия. (Регуляризация чаще всего выполняется с помощью возведенной в квадрат регуляризующей функции , что эквивалентно помещению гауссовского априорного распределения с нулевым средним для коэффициентов, но также возможны другие регуляризаторы.) Независимо от того, используется ли регуляризация, обычно невозможно найти решение в закрытом виде; вместо этого необходимо использовать итеративный численный метод, такой как метод наименьших квадратов с итеративным пересмотром взвешенных значений (IRLS) или, что чаще в наши дни, квазиньютоновский метод, такой как метод L-BFGS .

Интерпретация оценок параметра β j заключается в аддитивном влиянии на логарифм шансов для единичного изменения объясняющей переменной j . В случае дихотомической объясняющей переменной, например, пол - это оценка шансов получить результат, скажем, для мужчин по сравнению с женщинами.

Эквивалентная формула использует функцию, обратную логит-функции, которая является логистической функцией , то есть:

Формулу также можно записать как распределение вероятностей (в частности, с использованием функции массы вероятности ):

Как модель со скрытыми переменными

Вышеупомянутая модель имеет эквивалентную формулировку как модель со скрытыми переменными . Эта формулировка является общей в теории моделей дискретного выбора и упрощает ее распространение на некоторые более сложные модели с множественными коррелированными вариантами выбора, а также сравнение логистической регрессии с тесно связанной пробит-моделью .

Представьте, что для каждого испытания i существует непрерывная скрытая переменная Y i * (т. Е. Ненаблюдаемая случайная величина ), которая распределяется следующим образом:

куда

т.е. скрытая переменная может быть записана непосредственно в терминах функции линейного предсказания и переменной случайной аддитивной ошибки, которая распределяется согласно стандартному логистическому распределению .

Тогда Y i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Выбор моделирования переменной ошибки специально со стандартным логистическим распределением, а не с общим логистическим распределением с местоположением и масштабом, установленными на произвольные значения, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, распределение переменных логистической ошибки с ненулевым параметром местоположения μ (который устанавливает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ добавлен к коэффициенту пересечения. Обе ситуации дают одно и то же значение для Y i * независимо от настроек независимых переменных. Точно так же произвольный параметр масштаба s эквивалентен установке параметра масштаба на 1 и последующему делению всех коэффициентов регрессии на s . В последнем случае результирующее значение Y i * будет в s раз меньше, чем в первом случае, для всех наборов объясняющих переменных, но, что важно, оно всегда будет оставаться на той же стороне от 0 и, следовательно, приведет к к тому же Y я выбор.

(Обратите внимание, что это предсказывает, что нерелевантность параметра масштаба не может быть перенесена на более сложные модели, где доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированная в терминах обобщенной линейной модели и без каких-либо скрытых переменных . Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения является логистической функцией , которая является обратной функцией логита , т. Е.

Потом:

Эта формулировка - стандартная для моделей дискретного выбора - проясняет взаимосвязь между логистической регрессией («логит-модель») и пробит-моделью , в которой вместо стандартного логистического распределения используется переменная ошибки, распределенная согласно стандартному нормальному распределению. Как логистическое, так и нормальное распределения симметричны базовой унимодальной форме «колоколообразной кривой». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты , что означает, что оно менее чувствительно к внешним данным (и, следовательно, несколько более устойчиво к моделированию неверных спецификаций или ошибочных данных).

Двусторонняя модель со скрытыми переменными

Еще одна формулировка использует две отдельные скрытые переменные:

куда

где EV 1 (0,1) - стандартное распределение экстремальных значений типа 1 : т.е.

потом

Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина такого разделения заключается в том, что это позволяет легко расширить логистическую регрессию на многозначные категориальные переменные, как в полиномиальной логит- модели. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также можно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность, связанную с соответствующим выбором, и таким образом мотивировать логистическую регрессию с точки зрения теории полезности . (С точки зрения теории полезности, рациональный субъект всегда выбирает вариант с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора , поскольку он обеспечивает теоретически прочную основу и облегчает интуитивное понимание модели, что в свою очередь, упрощает рассмотрение различных видов расширений. (См. Пример ниже.)

Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он заставляет математику работать, и его использование может быть оправдано с помощью теории рационального выбора .

Оказывается, эта модель эквивалентна предыдущей, хотя это кажется неочевидным, поскольку теперь существует два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют другое распределение. Фактически, эта модель непосредственно сводится к предыдущей со следующими заменами:

Интуиция для этого исходит из того факта, что, поскольку мы выбираем на основе максимального из двух значений, имеет значение только их разница, а не точные значения - и это эффективно устраняет одну степень свободы . Другой важный факт заключается в том, что разница двух переменных с распределением экстремальных значений типа 1 является логистическим распределением, т.е. мы можем продемонстрировать эквивалент следующим образом:

Пример

В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Parti Québécois , которая требует отделения Квебека от Канады ). Затем мы использовали бы три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности , мы можем интерпретировать скрытые переменные как выражающие полезность , возникающую в результате принятия каждого из вариантов выбора. Мы также можем интерпретировать коэффициенты регрессии как показывающие силу, которую связанный фактор (т. Е. Объясняющая переменная) имеет в содействии полезности, или, точнее, величину, на которую изменение единицы в объясняющей переменной изменяет полезность данного выбора. Избиратель мог ожидать, что правоцентристская партия снизит налоги, особенно для богатых. Это не дало бы людям с низкими доходами никакой выгоды, то есть никаких изменений в полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (т. е. несколько больше денег или умеренное повышение полезности) для людей со средним уровнем дохода; принесет значительные выгоды людям с высоким доходом. С другой стороны, от левоцентристской партии можно ожидать повышения налогов и компенсации их повышением благосостояния и другой помощи нижнему и среднему классам. Это принесет значительную положительную пользу людям с низким доходом, возможно, слабую пользу людям со средним доходом и значительную отрицательную пользу людям с высокими доходами. Наконец, сепаратистская партия не будет предпринимать прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытков, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будут владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.

Эти интуиции можно выразить следующим образом:

Расчетная сила коэффициента регрессии для различных результатов (выбор стороны) и различных значений независимых переменных
Центр-право Левоцентристский Сепаратист
Высокий доход сильный + сильный - сильный -
Средний доход умеренный + слабый + никто
Низкий уровень дохода никто сильный + никто

Это ясно показывает, что

  1. Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. С точки зрения полезности это можно увидеть очень легко. Различные варианты по-разному влияют на чистую полезность; кроме того, эффекты различаются сложным образом, что зависит от характеристик каждого человека, поэтому должны быть отдельные наборы коэффициентов для каждой характеристики, а не просто одна дополнительная характеристика для каждого выбора.
  2. Несмотря на то, что доход является непрерывной переменной, его влияние на полезность слишком сложно, чтобы его можно было рассматривать как единственную переменную. Либо его необходимо напрямую разделить на диапазоны, либо нужно добавить более высокие степени дохода, чтобы эффективно выполнить полиномиальную регрессию дохода.

Как "лог-линейная" модель

Еще одна формулировка сочетает описанную выше формулировку двусторонних скрытых переменных с исходной формулировкой выше без скрытых переменных и в процессе обеспечивает связь с одной из стандартных формулировок полиномиального логита .

Здесь, вместо того, чтобы записывать логит вероятностей p i в качестве линейного предиктора, мы разделяем линейный предиктор на два, по одному для каждого из двух результатов:

Обратите внимание, что были введены два отдельных набора коэффициентов регрессии, как и в модели с двусторонней скрытой переменной, и эти два уравнения представляют собой форму, которая записывает логарифм связанной вероятности в качестве линейного предиктора с дополнительным членом в конце . Этот член, как оказалось, служит нормирующим фактором, гарантирующим, что результат является распределением. Это можно увидеть, возведя в степень обе стороны:

В этой форме ясно, что цель Z - гарантировать, что результирующее распределение по Y i на самом деле является распределением вероятностей , т. Е. Суммируется с 1. Это означает, что Z - это просто сумма всех ненормированных вероятностей, и путем деления каждой вероятности на Z , вероятности становятся « нормализованными ». То есть:

и результирующие уравнения

Или вообще:

Это ясно показывает, как обобщить эту формулировку более чем на два результата, как в полиномиальном логите . Обратите внимание, что эта общая формулировка является в точности функцией softmax, как в

Чтобы доказать, что это эквивалентно предыдущей модели, обратите внимание, что указанная выше модель является завышенной и не может быть определена независимо: скорее, знание одной автоматически определяет другую. В результате модель не идентифицируема , поскольку несколько комбинаций β 0 и β 1 будут давать одинаковые вероятности для всех возможных независимых переменных. Фактически, можно увидеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

В результате мы можем упростить ситуацию и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы выбираем установить Затем,

так что

что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке двусторонней скрытой переменной, любые настройки, при которых будут давать эквивалентные результаты.)

Обратите внимание, что большинство трактовок полиномиальной логит- модели начинается либо с расширения «лог-линейной» формулировки, представленной здесь, либо с формулировки двусторонней скрытой переменной, представленной выше, поскольку оба ясно показывают способ, которым модель может быть расширена до многофакторной результаты. В общем, представление со скрытыми переменными более распространено в эконометрике и политологии , где господствуют модели дискретного выбора и теория полезности , тогда как «лог-линейная» формулировка здесь более распространена в информатике , например, в машинном обучении и обработке естественного языка .

Как однослойный перцептрон

Модель имеет эквивалентную формулировку

Эта функциональная форма обычно называется однослойным персептроном или однослойной искусственной нейронной сетью . Однослойная нейронная сеть вычисляет непрерывный результат вместо пошаговой функции . Производная p i по X  = ( x 1 , ..., x k ) вычисляется из общей формы:

где F ( X ) является аналитической функцией в X . При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее для обратного распространения ошибки . Эта функция также является предпочтительной, потому что ее производная легко вычисляется:

С точки зрения биномиальных данных

Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n i независимыми одинаково распределенными испытаниями, где наблюдение Y i - это количество наблюдаемых успехов (сумма отдельных случайных величин, распределенных по Бернулли), и отсюда следует биномиальное распределение :

Примером такого распределения является доля семян ( p i ), прорастающих после посадки n i .

С точки зрения ожидаемых значений эта модель выражается следующим образом:

так что

Или, что эквивалентно:

Эта модель может быть адаптирована с использованием тех же методов, что и описанная выше более базовая модель.

Байесовский

Сравнение логистической функции с масштабированной обратной функцией пробиты (т.е. CDF от нормального распределения ), по сравнению VS. , что делает склоны и то же в начале координат. Это показывает более тяжелые хвосты логистического распределения.

В контексте байесовской статистики априорные распределения обычно помещаются на коэффициенты регрессии, обычно в форме гауссовых распределений . В логистической регрессии нет сопряженного априорного значения функции правдоподобия . Когда байесовский вывод выполнялся аналитически, это затрудняло вычисление апостериорного распределения, за исключением очень малых измерений. Однако теперь автоматическое программное обеспечение, такое как OpenBUGS , JAGS , PyMC3 , Stan или Turing.jl, позволяет вычислять эти апостериорные данные с помощью моделирования, поэтому отсутствие сопряжения не вызывает беспокойства. Однако, когда размер выборки или количество параметров велико, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и математическое ожидание .

История

Подробная история логистической регрессии приведена в Cramer (2002) . Логистическая функция была разработана как модель роста населения и названа «логистической» Пьером Франсуа Ферхюльстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; подробности см. в разделе « Логистическая функция» § История . В своей самой ранней статье (1838 г.) Ферхюльст не уточнил, как он подгоняет кривые к данным. В своей более подробной статье (1845 г.) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы.

Логистическая функция была независимо разработана в химии как модель автокатализа ( Wilhelm Ostwald , 1883). Автокаталитическая реакция - это реакция, в которой один из продуктов сам по себе является катализатором той же реакции, в то время как подача одного из реагентов является фиксированной. Это естественным образом порождает логистическое уравнение по той же причине, что и рост населения: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо заново открыта как модель роста населения в 1920 году Раймондом Перлом и Лоуэллом Ридом , опубликованная как Pearl & Reed (1920) , что привело к ее использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, предположительно, узнали о ней от Л. Гюстава дю Паскье , но они не поверили ему и не приняли его терминологию. Приоритет Verhulst был признан, и термин «логистика» был возрожден Udny Yule в 1925 году и с тех пор используется. Перл и Рид сначала применили модель к населению Соединенных Штатов, а также сначала подогнали кривую, проведя ее через три точки; как и в случае с Verhulst, это снова дало плохие результаты.

В 1930 году модель пробит была разработана и систематизирована Честер Итнер Блисс , который ввел термин «пробит» в Bliss (1934) , и Джон Гаддум в Gaddum (1933) , а модель подходит по оценке максимального правдоподобия по Рональда A Фишер у Фишера (1935) как приложение к работе Блисс. Пробит-модель в основном использовалась в биотестах , и ей предшествовали более ранние работы, датированные 1860 годом; см. Пробит модель § История . Пробит-модель повлияла на последующее развитие логит-модели, и эти модели конкурировали друг с другом.

Логистическая модель, вероятно, впервые была использована в качестве альтернативы пробит-модели в биопробах Эдвином Бидвеллом Уилсоном и его ученицей Джейн Вустер в Wilson & Worcester (1943) . Однако разработка логистической модели как общей альтернативы пробит-модели была в основном связана с работой Джозефа Берксона на протяжении многих десятилетий, начиная с Берксона (1944) , где он придумал «логит» по аналогии с «пробит», и продолжаясь через Berkson (1951) и последующие годы. Логит-модель изначально отвергалась как уступающая пробит-модели, но «постепенно достигла равенства с логит-моделью», особенно в период с 1960 по 1970 гг. К 1970 году логит-модель достигла паритета с пробит-моделью, используемой в статистических журналах, а затем превзошел его. Эта относительная популярность была обусловлена ​​принятием логита за пределами биотеста, а не заменой пробита в биотесте, и его неформальным использованием на практике; Популярность логита объясняется вычислительной простотой, математическими свойствами и универсальностью модели логита, что позволяет использовать ее в различных областях.

За это время были внесены различные уточнения, в частности, Дэвид Кокс , например, Кокс (1958) .

Полиномиальная логит-модель была независимо представлена Коксом (1966) и Тилем (1969) , что значительно увеличило область применения и популярность логит-модели. В 1973 году Дэниел Макфадден связал полиномиальный логит с теорией дискретного выбора , в частности с аксиомой выбора Люса , показав, что полиномиальный логит следует из предположения о независимости нерелевантных альтернатив и интерпретации шансов альтернатив как относительных предпочтений; это дало теоретическую основу логистической регрессии.

Расширения

Есть большое количество расширений:

Программное обеспечение

Большинство статистических программ может выполнять бинарную логистическую регрессию.

Примечательно, что пакет расширения статистики Microsoft Excel не включает его.

Смотрите также

использованная литература

дальнейшее чтение

  • Кокс, Дэвид Р. (1958). «Регрессионный анализ двоичных последовательностей (с обсуждением)». JR Stat Soc Б . 20 (2): 215–242. JSTOR  2983890 .
  • Кокс, Дэвид Р. (1966). «Некоторые процедуры, связанные с логистической качественной кривой ответа». В FN David (1966) (ред.). Исследования по вероятности и статистике (Festschrift для Дж. Неймана) . Лондон: Вайли. С. 55–71.
  • Крамер, JS (2002). Истоки логистической регрессии (PDF) (Технический отчет). 119 . Институт Тинбергена. С. 167–178. DOI : 10.2139 / ssrn.360300 .
    • Опубликовано в: Cramer, JS (2004). «Ранние истоки логит-модели». Исследования по истории и философии науки Часть C: Исследования по истории и философии биологических и биомедицинских наук . 35 (4): 613–626. DOI : 10.1016 / j.shpsc.2004.09.003 .
  • Тиль, Анри (1969). «Мультиномиальное расширение линейной логитовой модели». Международное экономическое обозрение . 10 (3): 251–59. DOI : 10.2307 / 2525642 . JSTOR  2525642 .
  • Агрести, Алан. (2002). Категориальный анализ данных . Нью-Йорк: Wiley-Interscience. ISBN 978-0-471-36093-3.
  • Амемия, Такеши (1985). «Модели качественного ответа» . Продвинутая эконометрика . Оксфорд: Бэзил Блэквелл. С. 267–359. ISBN 978-0-631-13345-2.
  • Балакришнан, Н. (1991). Справочник по логистической дистрибуции . Марсель Деккер, Inc. ISBN 978-0-8247-8587-1.
  • Гурье, Кристиан (2000). «Простая дихотомия» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. С. 6–37. ISBN 978-0-521-58985-7.
  • Грин, Уильям Х. (2003). Эконометрический анализ, пятое издание . Прентис Холл. ISBN 978-0-13-066189-0.
  • Хильбе, Джозеф М. (2009). Модели логистической регрессии . Чепмен и Холл / CRC Press. ISBN 978-1-4200-7575-5.
  • Хосмер, Дэвид (2013). Прикладная логистическая регрессия . Хобокен, Нью-Джерси: Wiley. ISBN 978-0470582473.
  • Хауэлл, Дэвид С. (2010). Статистические методы психологии, 7-е изд . Бельмонт, Калифорния; Томсон Уодсворт. ISBN 978-0-495-59786-5.
  • Peduzzi, P .; Дж. Конкато; Э. Кемпер; Т. Р. Холфорд; А. Р. Файнштейн (1996). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–1379. DOI : 10.1016 / s0895-4356 (96) 00236-3 . PMID  8970487 .
  • Берри, Майкл JA; Линофф, Гордон (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Вайли.

внешние ссылки