Срок действия (статистика) - Validity (statistics)

Валидность - это основная степень, в которой концепция , вывод или измерение хорошо обоснованы и, вероятно, точно соответствуют реальному миру. Слово «действительный» происходит от латинского «validus», что означает «сильный». Достоверность инструмента измерения (например, теста в образовании) - это степень, в которой инструмент измеряет то, что, по его утверждению, измеряется. Валидность основана на силе совокупности различных типов доказательств (например, фактическая валидность, конструктивная валидность и т. Д.), Более подробно описанных ниже.

В психометрии валидность имеет особое приложение, известное как валидность теста : «степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов» («в результате предлагаемого использования тестов»).

Общепринято, что концепция научной достоверности обращается к природе реальности с точки зрения статистических мер и как таковая является эпистемологической и философской проблемой, а также вопросом измерения . Использование этого термина в логике более узкое, оно касается отношения между предпосылками и заключением аргумента. В логике обоснованность относится к свойству аргумента, согласно которому, если посылки истинны, истинность заключения следует из необходимости. Заключение аргумента верно, если аргумент верен, то есть, если аргумент действителен и его предпосылки верны. Напротив, «научная или статистическая достоверность» - это не дедуктивное утверждение, которое обязательно сохраняет истину, а индуктивное утверждение, которое остается истинным или ложным в неопределенной манере. Вот почему «научная или статистическая достоверность» - это утверждение, которое квалифицируется как сильное или слабое по своей природе, оно никогда не является необходимым и определенно истинным. Это приводит к тому, что заявления о «научной или статистической достоверности» открываются для интерпретации того, что на самом деле означают факты.

Валидность важна, потому что она может помочь определить, какие типы тестов использовать, и поможет убедиться, что исследователи используют методы, которые не только этичны и рентабельны, но и являются методом, который действительно измеряет рассматриваемую идею или конструкции.

Срок действия теста

Действительность (точность)

Достоверность оценки - это степень, в которой она измеряет то, что предполагается измерять. Это не то же самое, что надежность , то есть степень, в которой измерение дает очень согласованные результаты. В пределах действительности измерение не всегда должно быть одинаковым, как в случае надежности. Однако только потому, что мера надежна, она не обязательно действительна. Например, шкала с отклонением в 5 фунтов надежна, но недействительна. Тест не может быть действительным, если он не является надежным. Действительность также зависит от измерения того, для чего оно было разработано, а не от чего-то другого. Валидность (как и надежность) - понятие относительное; обоснованность - это не идея по принципу «все или ничего». Есть много разных типов действительности.

Построить валидность

Валидность конструкции относится к степени, в которой операционализация конструкции (например, практические тесты, разработанные на основе теории) измеряют конструкт, как это определено теорией. Он включает в себя все другие типы действительности. Например, степень, в которой тест измеряет интеллект, является вопросом конструктивной валидности. Мера интеллекта предполагает, среди прочего, что мера связана с вещами, с которыми она должна быть связана ( конвергентная валидность ), а не с вещами, с которыми она не должна ассоциироваться ( дискриминантная валидность ).

Доказательства достоверности конструкции включают в себя эмпирическую и теоретическую поддержку интерпретации конструкции. Такие доказательства включают статистический анализ внутренней структуры теста, включая взаимосвязь между ответами на различные вопросы теста. Они также включают отношения между тестом и показателями других конструкций. В настоящее время понимается, что валидность конструкта не отличается от поддержки основной теории конструкта, для измерения которого предназначен тест. Таким образом, эксперименты, предназначенные для выявления аспектов причинной роли конструкции, также способствуют построению достоверных доказательств.

Содержание действия

Валидность контента - это нестатистический тип валидности, который включает «систематическое изучение контента теста, чтобы определить, охватывает ли он репрезентативную выборку исследуемой области поведения» (Anastasi & Urbina, 1997, стр. 114). Например, есть ли в анкете IQ вопросы, охватывающие все области интеллекта, обсуждаемые в научной литературе?

Доказательство достоверности контента включает в себя степень, в которой контент теста соответствует домену контента, связанному с конструкцией. Например, тест на умение складывать два числа должен включать диапазон комбинаций цифр. Тест только с однозначными числами или только с четными числами не обеспечит хорошего охвата предметной области. Свидетельства, относящиеся к содержанию, обычно включают в себя эксперта по предметной области (SME), оценивающего элементы тестирования в соответствии со спецификациями тестирования. Перед тем, как перейти к окончательному заполнению вопросников, исследователь должен проверить достоверность пунктов по отношению к каждой из конструктов или переменных и, соответственно, изменить инструменты измерения на основе мнения SME.

В тест встроена валидность содержания путем тщательного выбора элементов для включения (Anastasi & Urbina, 1997). Пункты выбираются таким образом, чтобы они соответствовали спецификации теста, составленной путем тщательного изучения предметной области. Foxcroft, Paterson, le Roux & Herbst (2004, стр. 49) отмечают, что использование группы экспертов для анализа спецификаций теста и выбора элементов позволяет повысить достоверность содержания теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли они репрезентативный образец области поведения.

Действительность лица

Фактическая валидность - это оценка того, соответствует ли тест определенному критерию; это не гарантирует, что тест действительно измеряет явления в этой области. Меры могут иметь высокую достоверность, но когда кажется, что тест не измеряет то, что это такое, он имеет низкую достоверность. Действительно, когда тест подвергается подделке (симуляции), низкая достоверность может сделать тест более достоверным. Принимая во внимание, что можно получить более честные ответы с более низкой достоверностью, иногда важно создать впечатление, что при применении мер существует низкая достоверность.

Действительность лица очень тесно связана с достоверностью контента. В то время как валидность содержания зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка дополнительных навыков в достаточной мере математические навыки? Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметических навыков математические навыки включают:) фактическая валидность связана с тем, является ли тест хорошей мерой или нет. Это суждение выносится на основе теста, поэтому оно может быть оценено и любителем.

Фактическая достоверность - это отправная точка, но никогда не следует предполагать, что она, вероятно, действительна для какой-либо конкретной цели, поскольку «эксперты» ошибались и раньше - Malleus Malificarum (Молот ведьм) не поддерживал своих выводов, кроме самооценки. воображаемая компетентность двух «экспертов» в «обнаружении колдовства», но это использовалось как «испытание», чтобы осудить и сжечь на костре десятки тысяч мужчин и женщин как «ведьм».

Критерий валидности

Свидетельство достоверности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкции. Другими словами, он сравнивает тест с другими показателями или результатами (критериями), уже признанными действительными. Например, тесты отбора сотрудников часто проверяются по показателям производительности труда (критерий), а тесты IQ часто проверяются по показателям академической успеваемости (критерий).

Если данные теста и данные критерия собираются одновременно, это называется свидетельством одновременной достоверности. Если сначала собираются тестовые данные, чтобы предсказать данные критериев, собранные в более поздний момент времени, то это называется доказательством достоверности прогноза.

Параллельная валидность

Параллельная валидность относится к степени, в которой операционализация коррелирует с другими показателями той же конструкции, которые измеряются в то же время. Когда показатель сравнивается с другим показателем того же типа, они будут связаны (или коррелированы). Возвращаясь к примеру выборочного теста, это будет означать, что тесты проводятся для текущих сотрудников, а затем коррелируются с их оценками в обзорах производительности.

Прогнозная достоверность

Прогностическая валидность относится к степени, в которой операционализация может предсказывать (или коррелировать с) другие показатели той же конструкции, которые будут измеряться в какой-то момент в будущем. Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для соискателей, все кандидаты принимаются на работу, их результаты проверяются позже, а затем их баллы по двум показателям сопоставляются.

Это также когда измерение предсказывает взаимосвязь между тем, что измеряется, и чем-то еще; предсказание того, произойдет ли что-то еще в будущем. Высокая корреляция между прогнозируемыми ожидаемыми и фактическими исходами является самым убедительным доказательством их достоверности.

Экспериментальная достоверность

Обоснованность дизайна экспериментальных исследований является фундаментальной частью научного метода и проблемой этики исследования . Без обоснованного дизайна нельзя сделать достоверные научные выводы.

Достоверность статистического заключения

Достоверность статистического заключения - это степень, в которой выводы о взаимосвязи между переменными, основанные на данных, являются правильными или «разумными». Сначала это было связано исключительно с тем, было ли статистическое заключение о взаимосвязи переменных правильным, но теперь наблюдается движение к «разумным» выводам, в которых используются: количественные, статистические и качественные данные.

Достоверность статистического заключения включает обеспечение использования адекватных процедур выборки, соответствующих статистических тестов и надежных процедур измерения. Поскольку этот тип достоверности касается исключительно отношения, которое обнаруживается между переменными, взаимосвязь может быть исключительно корреляцией.

Внутренняя валидность

Внутренняя валидность - это индуктивная оценка степени, в которой могут быть сделаны выводы о причинно-следственных связях (например, причина и следствие) на основе используемых мер, условий исследования и всего плана исследования. Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую переменную изучается в строго контролируемых условиях, обычно допускают более высокую степень внутренней достоверности, чем, например, планы для одного случая.

Восемь видов путая переменный могут помешать внутренней валидности (т.е. с попыткой изолировать причинно - следственные связи):

  1. История , конкретные события, произошедшие между первым и вторым измерениями, в дополнение к экспериментальным переменным.
  2. Созревание - процессы внутри участников в зависимости от течения времени (не относящиеся к конкретным событиям), например, взросление, голод, усталость и т. Д.
  3. Тестирование , влияние прохождения теста на результаты второго тестирования.
  4. Инструменты , изменения в калибровке средства измерения или смена наблюдателей или счетчиков могут привести к изменениям в полученных измерениях.
  5. Статистическая регрессия , работающая, когда группы отбираются на основе их крайних баллов.
  6. Отбор , систематические ошибки, возникающие в результате дифференциального отбора респондентов для групп сравнения.
  7. Экспериментальная смертность , или дифференциальная потеря респондентов из групп сравнения.
  8. Взаимодействие отбор-созревание и т. Д., Например, в квазиэкспериментальных планах с несколькими группами.

Внешняя валидность

Внешняя валидность касается степени, в которой (внутренне валидные) результаты исследования могут считаться верными для других случаев, например, для разных людей, мест или времени. Другими словами, вопрос в том, можно ли обоснованно обобщить результаты. Если бы такое же исследование было проведено в этих других случаях, дало бы оно те же результаты?

Основным фактором при этом является то, является ли выборка исследования (например, участники исследования) репрезентативной для населения в целом по соответствующим параметрам. Другими факторами, ставящими под угрозу внешнюю валидность, являются:

  1. Реактивный или интерактивный эффект тестирования , предварительный тест может увеличить баллы на посттесте.
  2. Эффекты взаимодействия смещения выборки и экспериментальной переменной .
  3. Реактивные эффекты экспериментальных схем , которые препятствовали бы обобщению о влиянии экспериментальной переменной на людей, подвергающихся ее воздействию в неэкспериментальных условиях.
  4. Вмешательство при многократном лечении , когда эффекты ранее проведенного лечения невозможно стереть.

Экологическая ценность

Экологическая валидность - это степень, в которой результаты исследования могут быть применены к реальным ситуациям за пределами исследовательских условий. Этот вопрос тесно связан с внешней достоверностью, но охватывает вопрос о том, в какой степени экспериментальные данные отражают то, что можно наблюдать в реальном мире (экология = наука о взаимодействии между организмом и окружающей его средой). Чтобы быть экологически обоснованными, методы, материалы и условия исследования должны приближаться к реальной ситуации, в которой проводится расследование.

Экологическая обоснованность частично связана с проблемой эксперимента по сравнению с наблюдением. Обычно в науке существует две области исследования: наблюдательная (пассивная) и экспериментальная (активная). Цель экспериментальных планов - проверить причинно-следственную связь, чтобы вы могли сделать вывод о причинах А или В причинах А. Но иногда этические и / или метологические ограничения не позволяют вам провести эксперимент (например, как изоляция влияет на когнитивные функции ребенка?) . Тогда вы все еще можете проводить исследования, но они не причинно-следственные, а корреляционные. Можно только сделать вывод, что A встречается вместе с B. Обе техники имеют свои сильные и слабые стороны.

Отношение к внутренней действительности

На первый взгляд кажется, что внутренняя и внешняя достоверность противоречат друг другу - чтобы получить экспериментальный план, вы должны контролировать все мешающие переменные. Вот почему вы часто проводите свой эксперимент в лабораторных условиях. Обретая внутреннюю достоверность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую или внешнюю достоверность, потому что вы создаете искусственную лабораторную среду. С другой стороны, с помощью наблюдательных исследований вы не можете контролировать мешающие переменные (низкая внутренняя достоверность), но вы можете проводить измерения в естественной (экологической) среде, в том месте, где обычно происходит поведение. Однако поступая так, вы жертвуете внутренней обоснованностью.

Однако кажущееся противоречие между внутренней и внешней достоверностью является лишь поверхностным. Вопрос о том, распространяются ли результаты конкретного исследования на других людей, места или времена, возникает только тогда, когда человек следует стратегии индуктивистского исследования . Если целью исследования является дедуктивная проверка теории, его интересуют только факторы, которые могут подорвать строгость исследования, то есть угрозы внутренней достоверности. Другими словами, актуальность внешней и внутренней валидности для исследования зависит от целей исследования. Более того, объединение исследовательских целей с проблемами достоверности может привести к проблеме взаимной-внутренней достоверности, когда теории способны объяснить только явления в искусственных лабораторных условиях, но не реальный мир.

Диагностическая достоверность

В психиатрии есть особая проблема с оценкой достоверности самих диагностических категорий . В контексте:

  • достоверность содержания может относиться к симптомам и диагностическим критериям;
  • одновременная достоверность может определяться различными корреляторами или маркерами, а также, возможно, ответом на лечение;
  • прогностическая достоверность может относиться в основном к диагностической стабильности во времени;
  • дискриминантная валидность может включать отграничение от других расстройств.

Робинс и Гузе предложили в 1970 году то, что должно было стать влиятельными формальными критериями для установления достоверности психиатрических диагнозов. Они перечислили пять критериев:

  • четкое клиническое описание (включая профили симптомов, демографические характеристики и типичные факторы)
  • лабораторные исследования (включая психологические тесты, радиологию и патологоанатомические исследования)
  • отграничение от других расстройств (с помощью критериев исключения)
  • последующие исследования, показывающие характерное течение (включая доказательства диагностической стабильности)
  • семейные исследования, показывающие семейную кластеризацию

Они были включены в критерии Файнера и диагностические критерии исследования , которые с тех пор легли в основу систем классификации DSM и ICD.

Кендлер в 1980 году различал:

  • предшествующие валидаторы (семейная агрегация, преморбидная личность и провоцирующие факторы)
  • параллельные валидаторы (включая психологические тесты)
  • прогностические валидаторы (согласованность диагностики с течением времени, частота рецидивов и выздоровления, а также реакция на лечение)

Нэнси Андреасен (1995) перечислила несколько дополнительных валидаторов - молекулярная генетика и молекулярная биология , нейрохимия , нейроанатомия , нейрофизиология и когнитивная нейробиология - все они потенциально способны связывать симптомы и диагнозы с их нервными субстратами .

Kendell и Jablinsky (2003) подчеркнули важность различения между валидностью и полезностью и утверждали, что диагностические категории, определяемые их синдромами, следует рассматривать как валидные только в том случае, если было показано, что они являются дискретными объектами с естественными границами, которые отделяют их от других расстройств.

Кендлер (2006) подчеркнул, что для того, чтобы быть полезным, критерий валидации должен быть достаточно чувствительным, чтобы подтвердить большинство синдромов, которые являются истинными расстройствами, а также быть достаточно специфичным, чтобы сделать недействительными большинство синдромов, не являющихся настоящими расстройствами. Исходя из этого, он утверждает, что критерий Робинса и Гузе «бега в семье» неадекватно конкретен, потому что большинство человеческих психологических и физических качеств могут быть квалифицированы - например, произвольный синдром, включающий смесь «рост более 6 футов, рыжие волосы» , и большой нос »будет обнаружен« семейным »и« наследственным », но это не следует рассматривать как свидетельство того, что это расстройство. Кендлер также предположил, что « эссенциалистские » генные модели психических расстройств и надежда на то, что мы сможем подтвердить категориальные психиатрические диагнозы, «вырезая природу на ее стыках» исключительно в результате открытия генов, неправдоподобны.

В Федеральной судебной системе США обоснованность и надежность доказательств оценивается с использованием стандарта Дауберта: см. « Дауберт против Merrell Dow Pharmaceuticals» . Перри и Лихтенвальд (2010) предоставляют отправную точку для обсуждения широкого круга тем, касающихся надежности и обоснованности, в своем анализе обвинительного приговора в неправомерном убийстве.

Смотрите также

использованная литература

  1. ^ Мозги, Willnat, Manheim, Rich 2011. Эмпирический политический анализ, 8-е издание. Бостон, Массачусетс: Longman p. 105
  2. ^ Кэмпбелл, Дональд Т. (1957). «Факторы, имеющие отношение к действительности экспериментов в социальных условиях» . Психологический бюллетень . 54 (4): 297–312. DOI : 10.1037 / h0040950 . ISSN  1939-1455 . PMID  13465924 .
  3. ^ Келли, Трумэн Ли (1927). Интерпретация образовательных измерений . Йонкерс-он-Гудзон, штат Нью-Йорк: Всемирная книжная компания. п. 14. Проблема достоверности заключается в том, действительно ли тест измеряет то, что он предназначен для измерения ...
  4. ^ Американская ассоциация образовательных исследований, Психологическая ассоциация и Национальный совет по измерениям в образовании. (1999). Стандарты педагогического и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
  5. ^ Национальный совет по измерениям в образовании. http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorV
  6. ^ Крамер, Джеффри П., Дуглас А. Бернштейн и Вики Фарес. Введение в клиническую психологию. 7-е изд. Река Аппер Сэдл, Нью-Джерси: Pearson Prentice Hall, 2009. Печать.
  7. ^ а б Кронбах, Ли Дж .; Мил, Пол Э. (1955). «Построить валидность в психологических тестах» . Психологический бюллетень . 52 (4): 281–302. DOI : 10.1037 / h0040957 . ЛВП : 11299/184279 . ISSN  0033-2909 . PMID  13245896 . S2CID  5312179 .
  8. ^ Foxcroft, С. Патерсон, Х., Ле Ру, Н., & Herbst, D. Гуманитарные науки Научноисследовательский совет (2004). «Психологическая оценка в Южной Африке: анализ потребностей: модели использования тестов и потребности практикующих психологов: итоговый отчет: июль . Получено с веб-сайта: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf
  9. ^ Наиболее распространенные оценки - от 40 000 до 60 000 смертей. Брайан Левак ( «Охота на ведьм в Европе раннего Нового времени» ) умножил количество известных европейских судебных процессов над ведьмами на средний уровень осуждения и казни, чтобы получить цифру около 60 000 смертей. Энн Левеллин Барстоу ( Witchcraze ) скорректировала оценку Левака с учетом утерянных записей, оценив 100000 смертей. Рональд Хаттон (« Триумф луны» ) утверждает, что оценка Левака уже была скорректирована с учетом этих данных, и пересматривает цифру примерно до 40 000 человек.
  10. ^ Кэмпбелл, Дональд Т. (1957). «Факторы, имеющие отношение к действительности экспериментов в социальных условиях» . Психологический бюллетень . 54 (4): 297–312. DOI : 10.1037 / h0040950 . ISSN  1939-1455 . PMID  13465924 .
  11. ^ Козби, Пол С. Методы поведенческих исследований. 10-е изд. Бостон: Высшее образование Макгроу-Хилла, 2009. Печать.
  12. Джонатан Джавид (6 ноября 2015 г.). «Достоверность и надежность измерений» . slideshare.net . Проверено 23 марта 2018 года .
  13. ^ Лин, Хауз; Werner, Kaitlyn M .; Инзлихт, Майкл (2021-02-16). «Обещания и опасности экспериментов: проблема взаимной внутренней действительности» . Перспективы психологической науки . 16 (4): 854–863. DOI : 10.1177 / 1745691620974773 . ISSN  1745-6916 . PMID  33593177 . S2CID  231877717 .
  14. ^ Шрам, Артур (2005-06-01). «Искусственность: противоречие между внутренней и внешней достоверностью в экономических экспериментах» . Журнал экономической методологии . 12 (2): 225–237. DOI : 10.1080 / 13501780500086081 . ISSN  1350-178X . S2CID  145588503 .
  15. ^ а б в г д Кенделл, Р; Ябленский, А (2003). «Как различать достоверность и полезность психиатрических диагнозов». Американский журнал психиатрии . 160 (1): 4–12. DOI : 10.1176 / appi.ajp.160.1.4 . PMID  12505793 .
  16. ^ Kendler, KS (2006). «Размышления о взаимосвязи психиатрической генетики и психиатрической нозологии». Американский журнал психиатрии . 163 (7): 1138–46. DOI : 10,1176 / appi.ajp.163.7.1138 . PMID  16816216 .
  17. ^ Перри, ФС; Лихтенвальд, Т.Г. (2010). «Неосторожное использование судебной психологии в качестве доказательства: дело Тимоти Мастерс» (PDF) . Журнал Champion (июль): 34–45.

дальнейшее чтение