Надежная регрессия и обнаружение выбросов -Robust Regression and Outlier Detection

«Робастная регрессия и обнаружение выбросов» - это книга по надежной статистике , в которой особое внимание уделяется точкам разбиения методов надежной регрессии . Он был написан Питером Руссеу и Анник М. Лерой и опубликован в 1987 году компанией Wiley.

Задний план

Диаграмма Герцшпрунга-Рассела звезд построены по яркости и цвету. Надежные методы регрессии позволяют подобрать кривую к главной последовательности , центральной кривой на этой диаграмме, без сильного влияния групп звезд, далеких от главной последовательности.

Линейная регрессия - это проблема вывода линейной функциональной связи между зависимой переменной и одной или несколькими независимыми переменными из наборов данных, в которых эта связь была скрыта шумом. Обычный метод наименьших квадратов предполагает, что все данные лежат рядом с подходящей линией или плоскостью, но отклоняются от нее путем добавления нормально распределенных остаточных значений. Напротив, надежные методы регрессии работают, даже когда некоторые точки данных являются выбросами , не имеющими отношения к подходящей линии или плоскости, возможно, потому, что данные получены из смеси источников или, возможно, потому что злоумышленник пытается повредить данные, чтобы приводят к тому, что метод регрессии дает неточный результат. Типичное приложение, обсуждаемое в книге, включает диаграмму типов звезд Герцшпрунга – Рассела , в которой нужно провести кривую через главную последовательность звезд, не допуская отклонения от внешних гигантских звезд и белых карликов . Точка разбивки надежного метода регрессии - это доля внешних данных, которую он может выдержать, оставаясь точным. Для этого стиля анализа лучше использовать более высокие точки разбивки. Точка разбивки для обычных наименьших квадратов близка к нулю (один выброс может привести к тому, что подгонка станет произвольно далеко от оставшихся неповрежденных данных), в то время как некоторые другие методы имеют точки разбивки до 50%. Хотя эти методы требуют немногочисленных предположений о данных и хорошо работают для данных, шум которых не совсем понятен, они могут иметь несколько более низкую эффективность, чем обычные методы наименьших квадратов (требующие большего количества данных для заданной точности подбора), и их реализация может быть сложной и медленный.

Темы

В книге семь глав. Первый вводный; в нем описывается простая линейная регрессия (в которой есть только одна независимая переменная), обсуждается возможность выбросов, которые искажают зависимую или независимую переменную, приводятся примеры, в которых выбросы приводят к неверным результатам, определяется точка разбиения и кратко представлены несколько методов. для надежной простой регрессии, включая повторную медианную регрессию . Во второй и третьей главах более подробно анализируется метод наименьшей медианы квадратов для регрессии (в котором ищут соответствие, которое минимизирует медианное значение квадратов остатков ) и метод наименьших усеченных квадратов (в котором стремятся минимизировать сумму квадратов остатков ). квадраты остатков ниже медианы). Оба этих метода имеют точку разрыва 50% и могут применяться как для простой регрессии (глава 2), так и для многомерной регрессии (глава 3). Хотя наименьшая медиана имеет привлекательное геометрическое описание (например, нахождение полосы минимальной высоты, содержащей половину данных), ее низкая эффективность приводит к рекомендации использовать вместо нее наименее обрезанные квадраты; Метод наименьших усеченных квадратов также можно интерпретировать как использование метода наименьшей медианы для поиска и устранения выбросов, а затем использование простой регрессии для оставшихся данных и приближение к простой регрессии по своей эффективности. Помимо описания этих методов и анализа их статистических свойств, в этих главах также описывается, как использовать программное обеспечение авторов для реализации этих методов. Третья глава также включает описания некоторых альтернативных оценок с высокими точками разбивки.

В четвертой главе описывается одномерная оценка параметра местоположения или центральной тенденции и ее программная реализация, а в пятой главе более подробно рассматриваются алгоритмы, используемые программным обеспечением для эффективного вычисления этих оценок. Шестая глава касается обнаружения выбросов , сравнения методов определения точек данных как выбросов на основе надежной статистики с другими широко используемыми методами, а последняя глава посвящена проблемам определения местоположения более высокой размерности, а также анализу временных рядов и проблемам подбора эллипсоида или ковариации. матрица к данным. Помимо использования точки разбивки для сравнения статистических методов, в книге также рассматривается их эквивалентность : для каких семейств преобразований данных соответствие для преобразованных данных совпадает с преобразованной версией соответствия исходным данным?

В соответствии с фокусом книги на приложениях, в ней представлено множество примеров анализа, выполненного с использованием надежных методов, где полученные оценки сравниваются с оценками, полученными стандартными ненадежными методами. Теоретический материал включен, но отложен в сторону, чтобы его могли легко пропустить читатели, менее склонные к теории. Авторы придерживаются позиции, что робастные методы могут использоваться как для проверки применимости обычной регрессии (когда результаты обоих методов совпадают), так и для замены их в случаях, когда результаты не совпадают.

Аудитория и прием

Книга предназначена для прикладных статистиков с целью убедить их использовать надежные методы, которые она описывает. В отличие от предыдущей работы в области надежной статистики, он делает надежные методы понятными и (через соответствующее программное обеспечение) доступными для практиков. Никаких предварительных знаний о надежной статистике не требуется, хотя предполагается некоторый опыт в основных статистических методах. Книгу также можно было бы использовать в качестве учебника, хотя рецензент П. Дж. Лэйкок называет возможность такого использования «смелой и прогрессивной», а рецензенты Сехулт и Грин указывают, что такой курс вряд ли впишется в британские статистические учебные программы.

Рецензенты Сеулт и Грин жалуются, что слишком большая часть книги действует как руководство пользователя к авторскому программному обеспечению, и ее следовало урезать. Однако рецензент Грегори Ф. Пипель пишет, что «презентация очень хороша», и рекомендует книгу любому пользователю статистических методов. И, предлагая переупорядочить некоторые материалы, Карен Кафадар настоятельно рекомендует книгу как учебник для аспирантов и справочник для профессионалов. Рецензент А.С. Аткинсон кратко резюмирует книгу как «интересную и важную».

Связанные книги

Было выпущено несколько предыдущих книг по надежной регрессии и обнаружению выбросов, в том числе:

  • Идентификация выбросов Д.М. Хокинса (1980)
  • Прочные Статистика по Peter J. Huber (1981)
  • Введение в робастные и квазиустойчивые статистические методы , WJJ Rey (1983)
  • Понимание надежного и исследовательского анализа данных Дэвида К. Хоглина, Фредерика Мостеллера и Джона Тьюки (1983)
  • Надежная статистика Хэмпеля, Рончетти, Руссеу и Стахела (1986)

Для сравнения, робастная регрессия и обнаружение выбросов сочетают в себе надежность и обнаружение выбросов. Он менее теоретический, больше ориентирован на данные и программное обеспечение и больше ориентирован на точку отказа, чем на другие меры надежности. Кроме того, он первым подчеркивает важность «рычага» - явления, когда выборки с выпадающими значениями независимой переменной могут иметь более сильное влияние на соответствие, чем выборки, в которых независимая переменная имеет центральное значение.

Ссылки