Многомерная статистика - Multivariate statistics
Многомерная статистика - это подраздел статистики, охватывающий одновременное наблюдение и анализ более чем одной переменной результата . Многомерная статистика касается понимания различных целей и основы каждой из различных форм многомерного анализа, а также того, как они соотносятся друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять взаимосвязь между переменными и их отношение к изучаемой проблеме.
Кроме того, многомерная статистика связана с многомерными распределениями вероятностей с точки зрения как
- как их можно использовать для представления распределения наблюдаемых данных;
- как их можно использовать как часть статистического вывода , особенно когда несколько разных величин представляют интерес для одного и того же анализа.
Определенные типы проблем, связанных с многомерными данными, например простая линейная регрессия и множественная регрессия , обычно не считаются частными случаями многомерной статистики, потому что анализ проводится путем рассмотрения (одномерного) условного распределения одной переменной результата с учетом другой переменной. переменные.
Многомерный анализ
Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется для решения ситуаций, когда на каждой экспериментальной установке выполняется несколько измерений и важны отношения между этими измерениями и их структурами. Современная частично совпадающая категоризация MVA включает:
- Нормальные и общие многомерные модели и теория распределения
- Изучение и измерение отношений
- Вычисления вероятностей многомерных областей
- Исследование структур данных и шаблонов
Многомерный анализ может быть осложнен желанием включить анализ на основе физики для расчета эффектов переменных для иерархической «системы систем». Часто исследования, которые хотят использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти опасения часто снимаются за счет использования суррогатных моделей , высокоточных приближений кода, основанного на физике. Поскольку суррогатные модели имеют форму уравнения, их можно очень быстро оценить. Это становится инструментом для крупномасштабных исследований MVA: хотя моделирование методом Монте-Карло в пространстве проектирования затруднительно с кодами, основанными на физике, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .
Виды анализа
Существует множество различных моделей, каждая из которых имеет свой тип анализа:
- Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ для охвата случаев, когда одновременно необходимо анализировать более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
- Многомерная регрессия пытается определить формулу, которая может описывать, как элементы в векторе переменных одновременно реагируют на изменения в других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно в разных областях науки.
- Анализ главных компонентов (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, чтобы они суммировали уменьшающиеся пропорции вариации.
- Факторный анализ аналогичен PCA, но позволяет пользователю извлечь указанное количество синтетических переменных, меньшее, чем исходный набор, оставляя оставшуюся необъяснимую вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; Предполагается, что каждая из них учитывает ковариацию в группе наблюдаемых переменных.
- Канонический корреляционный анализ обнаруживает линейные отношения между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной корреляции.
- Анализ избыточности (RDA) аналогичен каноническому корреляционному анализу, но позволяет пользователю получить указанное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно большую дисперсию в другом (независимом) наборе. Это многомерный аналог регрессии .
- Анализ соответствия (CA) или взаимное усреднение находит (как и PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает несходство хи-квадрат среди записей (наблюдений).
- Канонический (или «ограниченный») анализ соответствия (CCA) для суммирования совместной вариации в двух наборах переменных (например, анализ избыточности); сочетание анализа соответствия и многомерного регрессионного анализа. Базовая модель предполагает несходство хи-квадрат среди записей (наблюдений).
- Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые наилучшим образом представляют попарные расстояния между записями. Первоначальный метод - анализ главных координат (PCoA; на основе PCA).
- Дискриминантный анализ , или канонический вариативный анализ, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
- Линейный дискриминантный анализ (LDA) вычисляет линейный предиктор из двух наборов нормально распределенных данных, чтобы обеспечить классификацию новых наблюдений.
- Системы кластеризации распределяют объекты по группам (называемым кластерами), чтобы объекты (случаи) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
- Рекурсивное разделение создает дерево решений, которое пытается правильно классифицировать членов совокупности на основе дихотомической зависимой переменной.
- Искусственные нейронные сети расширяют методы регрессии и кластеризации на нелинейные многомерные модели.
- Статистические графики, такие как туры, графики с параллельными координатами , матрицы точечной диаграммы, могут использоваться для исследования многомерных данных.
- Модели одновременных уравнений включают более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми вместе.
- Векторная авторегрессия включает одновременную регрессию отдельных переменных временных рядов и значений с запаздыванием друг друга.
- Анализ основных кривых отклика (PRC) - это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени.
- Иконография корреляций состоит в замене корреляционной матрицы диаграммой, где «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).
Важные распределения вероятностей
Существует набор распределений вероятностей, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, которые используются в одномерном анализе, когда нормальное распределение соответствует набору данных. Вот эти многомерные распределения:
Распределение Inverse-Wishart важно для байесовского вывода , например, для байесовской многомерной линейной регрессии . Кроме того, распределение Т-квадрата Хотеллинга является многомерным распределением, обобщающим t-распределение Стьюдента , которое используется при многомерной проверке гипотез .
История
Учебник Андерсона 1958 года «Введение в многомерный статистический анализ» обучил целое поколение теоретиков и прикладных статистиков; В книге Андерсона особое внимание уделяется проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , беспристрастности и монотонности .
Когда-то MVA использовалась исключительно в области статистической теории из-за размера, сложности базового набора данных и большого объема вычислений. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и находит широкое применение в областях OMICS .
Приложения
- Многовариантная проверка гипотез
- Снижение размерности
- Открытие скрытой структуры
- Кластеризация
- Многомерный регрессионный анализ
- Классификация и дискриминационный анализ
- Выбор переменных
- Многомерное масштабирование
- Сбор данных
Программное обеспечение и инструменты
Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:
- JMP (статистическое программное обеспечение)
- MiniTab
- Calc
- PSPP
- р
- SAS (программное обеспечение)
- SciPy для Python
- SPSS
- Stata
- СТАТИСТИКА
- Расшифровщик
- WarpPLS
- SmartPLS
- MATLAB
- Eviews
- NCSS (статистическое программное обеспечение) включает многомерный анализ.
- Unscrambler® X - инструмент многовариантного анализа.
- SIMCA
Смотрите также
- Оценка ковариационных матриц
- Важные публикации по многомерному анализу
- Многовариантное тестирование в маркетинге
- Анализ структурированных данных (статистика)
- Структурное моделирование уравнение
- Коэффициент RV
- Двумерный анализ
- Дизайн экспериментов (DoE)
- Размерный анализ
- Исследовательский анализ данных
- OLS
- Частичная регрессия наименьших квадратов
- Распознавание образов
- Анализ главных компонентов (PCA)
- Регрессионный анализ
- Мягкое независимое моделирование аналогий классов (SIMCA)
- Статистическая интерференция
- Одномерный анализ
Рекомендации
- ^ а б Олькин, И .; Sampson, AR (2001-01-01), «Многомерный анализ: обзор» , в Smelser, Neil J .; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Пергамон, стр. 10240–10247, ISBN 9780080430768 , получено 2019-09-02
- ^ Идальго, B; Гудман, М. (2013). "Многомерная или многомерная регрессия?" . Am J Public Health . 103 : 39–40. DOI : 10,2105 / AJPH.2012.300897 . PMC 3518362 . PMID 23153131 .
- ^ Несложные аналитики двумерный гауссовых проблем могут найти полезный сырой но точный метод точного затворения вероятности, просто взяв сумму S из N квадратов невязок, вычитая сумму Sm , как минимум, разделив эту разницу, Sm , умножение результата на ( N - 2) и взяв обратное анти-ln половины этого произведения.
- ^ Тер Браак, Кахо Дж. Ф. и Шмилауэр, Петр (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для ординации (версия 5.0) , стр. 292. Microcomputer Power, Итака, штат Нью-Йорк.
- ^ TW Андерсон (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN 0471026409 ; 2e (1984) ISBN 0471889873 ; 3e (2003 г.) ISBN 0471360910
- ^ Сен, Пранаб Кумар ; Андерсон, TW; Арнольд, Сан-Франциско; Eaton, ML; Гири, Северная Каролина; Gnanadesikan, R .; Кендалл, MG; Кширсагар, AM; и другие. (Июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. DOI : 10.2307 / 2289251 . ISSN 0162-1459 . JSTOR 2289251 . (Страницы 560–561)
- ^ Schervish, Mark J. (ноябрь 1987). «Обзор многомерного анализа» . Статистическая наука . 2 (4): 396–413. DOI : 10,1214 / сс / 1177013111 . ISSN 0883-4237 . JSTOR 2245530 .
- ^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.
дальнейшее чтение
- Джонсон, Ричард А .; Уичерн, Дин В. (2007). Прикладной многомерный статистический анализ (шестое изд.). Прентис Холл. ISBN 978-0-13-187715-3 .
- КВ Мардиа ; Дж. Т. Кент; Дж. М. Бибби (1979). Многомерный анализ . Академическая пресса. ISBN 0-12-471252-5 .
- А. Сен, М. Сривастава, Регрессионный анализ - теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
- Кук, Суэйн (2007). Интерактивная графика для анализа данных .
- Малакути, Б. (2013). Операционные и производственные системы с множеством целей. Джон Вили и сыновья.
- Т.В. Андерсон, Введение в многомерный статистический анализ , Вили, Нью-Йорк, 1958.
- КВ Мардиа; Дж. Т. Кент и Дж. М. Бибби (1979). Многомерный анализ. Академическая пресса . ISBN 978-0124712522 . (Подход "правдоподобия" уровня MA)
- Файнштейн, А.Р. (1996) Многопараметрический анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
- Hair, JF Jr. (1995) Анализ многомерных данных с чтениями , 4-е изд. Прентис-Холл.
- Джонсон, Ричард А .; Уичерн, Дин В. (2007). Прикладной многомерный статистический анализ (шестое изд.). Прентис Холл. ISBN 978-0-13-187715-3 .
- Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . CRC Press. (Передовой)
- Шарма, С. (1996) Прикладные многомерные методы . Вайли. (Неофициальный, прикладной)
- Изенман, Алан Дж. (2008). Современные методы многомерной статистики: регрессия, классификация и обучение многообразию. Тексты Springer в статистике. Нью-Йорк: Springer-Verlag. ISBN 9780387781884 .
- "Справочник прикладной многомерной статистики и математического моделирования | ScienceDirect". Проверено 3 сентября 2019.