Профилирование (информатика) - Profiling (information science)

В информатике , профилирование относится к процессу строительства и применения пользовательских профилей , полученных с помощью компьютерного анализа данных .

Это использование алгоритмов или других математических методов, которые позволяют обнаруживать закономерности или корреляции в больших объемах данных, агрегированных в базах данных . Когда эти шаблоны или корреляции используются для идентификации или представления людей, их можно назвать профилями . Помимо обсуждения профилирующих технологий или профилирования населения , понятие профилирования в этом смысле не только о строительстве профилей, но также относится к применению в групповых профилях физических лиц, е. g., в случаях кредитного скоринга , ценовой дискриминации или выявления рисков безопасности ( Hildebrandt & Gutwirth 2008 ) ( Elmer 2004 ).

Профилирование используется для предотвращения мошенничества , анализа окружающей среды и потребительской аналитики . Статистические методы профилирования включают обнаружение знаний в базах данных (KDD).

Процесс профилирования

Технический процесс профилирования можно разделить на несколько этапов:

  • Предварительное обоснование: процесс профилирования начинается с определения применимой проблемной области и определения целей анализа.
  • Сбор данных : целевой набор данных или база данных для анализа формируется путем выбора соответствующих данных в свете существующих знаний в предметной области и понимания данных.
  • Подготовка данных : данные предварительно обрабатываются для устранения шума и уменьшения сложности за счет устранения атрибутов.
  • Интеллектуальный анализ данных : данные анализируются с помощью алгоритма или эвристики, разработанного для соответствия данным, модели и целям.
  • Интерпретация: найденные шаблоны оцениваются на предмет их релевантности и достоверности специалистами и / или профессионалами в прикладной области (например, исключая ложные корреляции).
  • Применение: построенные профили применяются, например, к категориям лиц для тестирования и точной настройки алгоритмов.
  • Институциональное решение: учреждение решает, какие действия или политики применять к группам или отдельным лицам, данные которых соответствуют соответствующему профилю.

Сбор, подготовка и анализ данных относятся к этапу построения профиля. Однако профилирование также относится к применению профилей, то есть к использованию профилей для идентификации или категоризации групп или отдельных лиц. Как видно на шестом шаге (приложение), процесс является циклическим. Между созданием и применением профилей существует обратная связь. Интерпретация профилей может привести к повторяющейся - возможно, в реальном времени - точной настройке определенных предыдущих шагов в процессе профилирования. Применение профилей к людям, чьи данные не использовались для построения профиля, основано на сопоставлении данных, которое предоставляет новые данные, которые позволяют вносить дальнейшие корректировки. Процесс профилирования является одновременно динамичным и адаптивным. Хорошей иллюстрацией динамического и адаптивного характера профилирования является межотраслевой стандартный процесс интеллектуального анализа данных ( CRISP-DM ).

Типы практик профилирования

Чтобы прояснить природу технологий профилирования, необходимо провести некоторые важные различия между различными типами методов профилирования, помимо различия между конструкцией и применением профилей. Основные различия заключаются в различиях между профилированием снизу вверх и сверху вниз (или контролируемым и неконтролируемым обучением), а также между индивидуальным и групповым профилями.

Обучение с учителем и без учителя

Профили можно классифицировать по способу их создания ( Fayyad, Piatetsky-Shapiro & Smyth 1996 ) ( Zarsky & 2002-3 ) . С одной стороны, профили могут быть созданы путем проверки предполагаемой корреляции. Это называется профилированием сверху вниз или обучением с учителем . Это похоже на методологию традиционных научных исследований в том, что они начинаются с гипотезы и заключаются в проверке ее достоверности. Результатом такого типа профилирования является проверка или опровержение гипотезы. Можно также говорить о дедуктивном профилировании. С другой стороны, профили могут быть сгенерированы путем изучения базы данных с использованием процесса интеллектуального анализа данных для обнаружения шаблонов в базе данных, которые ранее не предполагались. В некотором смысле это вопрос генерации гипотезы: нахождение корреляций, которых вы не ожидали или даже не думали. Как только образцы будут добыты, они войдут в цикл, описанный выше, и будут протестированы с использованием новых данных. Это называется обучением без учителя .

В отношении этого различия важны две вещи. Во-первых, алгоритмы обучения без учителя, по-видимому, позволяют конструировать новый тип знаний, основанный не на гипотезе, разработанной исследователем, и не на причинно-следственных или мотивационных отношениях, а исключительно на основе стохастических корреляций. Во-вторых, алгоритмы обучения без учителя, таким образом, допускают индуктивный тип конструирования знаний, не требующий теоретического обоснования или причинного объяснения ( Custers 2004 ).

Некоторые авторы утверждают, что если применение профилей на основе компьютеризированного стохастического распознавания образов «работает», т.е. позволяет надежно предсказывать будущее поведение, теоретическое или причинное объяснение этих моделей больше не имеет значения ( Anderson 2008 ). Однако идея о том, что «слепые» алгоритмы предоставляют надежную информацию, не означает, что информация нейтральна. В процессе сбора и агрегирования данных в базу данных (первые три шага процесса построения профиля) выполняются переводы реальных событий в машиночитаемые данные . Затем эти данные подготавливаются и очищаются для обеспечения начальной вычислимости. В этих точках, а также в выборе разрабатываемых алгоритмов необходимо будет обнаружить потенциальную предвзятость. Невозможно найти в базе данных все возможные линейные и нелинейные корреляции, а это означает, что математические методы, разработанные для поиска шаблонов, будут определять шаблоны, которые можно найти. В случае машинного профилирования потенциальная предвзятость обусловлена ​​не предрассудками здравого смысла или тем, что психологи называют стереотипами, а компьютерными методами, используемыми на начальных этапах процесса. Эти методы в основном невидимы для тех, к кому применяются профили (потому что их данные совпадают с соответствующими профилями групп).

Индивидуальные и групповые профили

Профили также необходимо классифицировать по предмету, к которому они относятся. Этот субъект может быть отдельным лицом или группой людей. Когда профиль создается на основе данных одного человека, это называется индивидуальным профилированием ( Jaquet-Chiffelle 2008 ). Этот вид профилирования используется для выявления конкретных характеристик определенного человека, чтобы обеспечить уникальную идентификацию или предоставление персонализированных услуг. Однако персонализированное обслуживание чаще всего также основывается на групповом профилировании, которое позволяет отнести человека к определенному типу лиц на основании того факта, что его профиль совпадает с профилем, созданным на основе огромных объемов данных о огромное количество других людей. Профиль группы может относиться к результату интеллектуального анализа данных в наборах данных, которые относятся к существующему сообществу, которое считает себя таковым, например, религиозной группе, теннисному клубу, университету, политической партии и т. Д. В этом случае он может описать ранее неизвестные модели поведения или другие характеристики такой группы (сообщества). Профиль группы может также относиться к категории людей, которые не образуют сообщества, но, как было обнаружено, разделяют ранее неизвестные модели поведения или другие характеристики ( Custers 2004 ). В этом случае профиль группы описывает конкретное поведение или другие характеристики категории людей, таких как, например, женщины с голубыми глазами и рыжими волосами или взрослые с относительно короткими руками и ногами. Эти категории могут коррелировать с рисками для здоровья, заработной платой, уровнем смертности, кредитными рисками и т. Д.

Если индивидуальный профиль применяется к человеку, от которого он был добыт, то это прямое индивидуальное профилирование. Если профиль группы применяется к человеку, данные которого совпадают с профилем, то это косвенное индивидуальное профилирование, поскольку профиль был создан с использованием данных других людей. Точно так же, если профиль группы применяется к группе, из которой он был добыт, то это прямое профилирование группы ( Jaquet-Chiffelle 2008 ). Однако, поскольку применение профиля группы к группе подразумевает применение профиля группы к отдельным членам группы, имеет смысл говорить о косвенном профилировании группы, особенно если профиль группы не является распределительным.

Распределительное и недистрибутивное профилирование

Профили групп также можно разделить по их распределительному характеру ( Vedder 1999 ). Профиль группы является распределительным, когда его свойства в равной степени применимы ко всем членам его группы: все холостяки не состоят в браке или все люди с определенным геном имеют 80% шанс заразиться определенным заболеванием. Профиль не является распределительным, если профиль не обязательно применим ко всем членам группы: группа лиц с определенным почтовым индексом имеет средний доход XX, или категория лиц с голубыми глазами имеет средний шанс 37%, чтобы заразиться определенным заболеванием. Обратите внимание, что в этом случае вероятность того, что человек будет иметь определенную заработную плату или заразиться конкретным заболеванием, будет зависеть от других факторов, например, пола, возраста, происхождения родителей, предыдущего состояния здоровья, образования. Должно быть очевидно, что, за исключением тавтологических профилей, таких как профили бакалавров, большинство групповых профилей, созданных с помощью компьютерных технологий, не являются распределительными. Это имеет далеко идущие последствия для точности косвенного индивидуального профилирования, основанного на сопоставлении данных с недистрибутивными профилями групп. Помимо того факта, что использование точных профилей может быть несправедливым или вызывать чрезмерную стигматизацию, большинство групповых профилей не будут точными.

Приложения

В финансовом секторе учреждения используют технологии профилирования для предотвращения мошенничества и кредитного скоринга . Банки хотят минимизировать риски при кредитовании своих клиентов. На основе обширной группы профилирующим клиентам присваивается определенная оценка, которая указывает на их кредитоспособность. Финансовые учреждения, такие как банки и страховые компании, также используют профилирование групп для выявления мошенничества или отмывания денег . Базы данных с транзакциями просматриваются с помощью алгоритмов, чтобы найти поведение, которое отклоняется от стандарта, что указывает на потенциально подозрительные транзакции.

В контексте занятости профили могут использоваться для отслеживания сотрудников путем отслеживания их поведения в сети , для обнаружения ими мошенничества и для развертывания человеческих ресурсов путем объединения и ранжирования их навыков. ( Леопольд и Мейнтс, 2008 г. )

Профилирование также можно использовать для поддержки людей на работе, а также для обучения, вмешиваясь в разработку адаптивных гипермедийных систем, персонализирующих взаимодействие. Например, это может быть полезно для поддержки управления вниманием ( Nabeth 2008 ).

В судебной медицине существует возможность связать разные базы данных о делах и подозреваемых и выявить из них общие закономерности. Это может быть использовано для раскрытия существующих дел или с целью установления профилей риска потенциальных подозреваемых ( Geradts & Sommer 2008 ) ( Harcourt 2006 ).

Профилирование потребителей

Профилирование потребителей - это форма клиентской аналитики , при которой данные о клиентах используются для принятия решений по продвижению продуктов , ценообразованию продуктов, а также для персонализированной рекламы . Когда цель состоит в том, чтобы найти наиболее прибыльный сегмент клиентов, потребительская аналитика опирается на демографические данные , данные о поведении потребителей , данные о приобретенных продуктах, способах оплаты и опросах для создания профилей потребителей. Для установления прогнозных моделей на основе существующих баз данных , то обнаружение знаний в базах данных (KDD) статистический метод. KDD группирует похожие данные о клиентах, чтобы предсказать их поведение в будущем. Другие методы прогнозирования поведения потребителей - это корреляция и распознавание образов . Профили потребителей описывают клиентов на основе набора атрибутов, и обычно потребители группируются по доходу , уровню жизни , возрасту и местоположению. Профили потребителей могут также включать поведенческие атрибуты, которые оценивают мотивацию клиента в процессе принятия решения о покупателе . Хорошо известные примеры потребительских профилей являются Experian «s Mosaic геодемографических классификации домохозяйств, CACI » s Acorn и Acxiom Personicx «s.

Окружающий интеллект

В искусственной среде с окружающим интеллектом повседневные объекты имеют встроенные датчики и встроенные системы, которые позволяют объектам распознавать присутствие и потребности людей и реагировать на них. Окружающий интеллект опирается на автоматизированное профилирование и схемы взаимодействия человека с компьютером . Датчики отслеживают действия и поведение человека, тем самым генерируя, собирая, анализируя, обрабатывая и сохраняя личные данные . Ранние примеры бытовой электроники с окружающим интеллектом включают мобильные приложения , дополненную реальность и сервисы на основе определения местоположения .

Риски и проблемы

Технологии профилирования подняли множество этических, юридических и других вопросов, включая конфиденциальность , равенство , надлежащую правовую процедуру , безопасность и ответственность . Многие авторы предостерегают от возможностей новой технологической инфраструктуры, которая может возникнуть на основе технологий полуавтономного профилирования ( Lessig 2006 ) ( Solove 2004 ) ( Schwartz 2000 ).

Конфиденциальность - одна из основных поднятых проблем. Технологии профилирования делают возможным всесторонний мониторинг поведения и предпочтений человека. Профили могут раскрывать личную или частную информацию о людях, о которых они даже не подозревают ( Hildebrandt & Gutwirth 2008 ).

Технологии профилирования по самой своей природе являются дискриминационными инструментами. Они допускают беспрецедентные виды социальной сортировки и сегментации, которые могут иметь несправедливые последствия. Профилируемым людям, возможно, придется платить более высокие цены, они могут упустить важные предложения или возможности и могут подвергнуться повышенному риску, поскольку удовлетворение их потребностей менее прибыльно ( Lyon 2003 ). В большинстве случаев они не будут знать об этом, поскольку методы профилирования в основном невидимы, а сами профили часто защищены интеллектуальной собственностью или коммерческой тайной. Это создает угрозу равенству и солидарности граждан. В более широком масштабе это может вызвать сегментацию общества.

Одна из проблем, лежащих в основе потенциальных нарушений конфиденциальности и недискриминации, заключается в том, что процесс профилирования чаще всего незаметен для тех, кого профилируют. Это создает трудности, поскольку становится трудно, а то и невозможно оспорить заявку на конкретный профиль группы. Это нарушает принципы надлежащей правовой процедуры: если человек не имеет доступа к информации, на основании которой ему отказывают в льготах или приписывают определенные риски, он не может оспаривать то, как с ним обращаются ( Steinbock 2005 ).

Профили могут использоваться против людей, когда они попадают в руки людей, не имеющих права доступа к информации или ее использования. Важной проблемой, связанной с этими нарушениями безопасности, является кража личных данных .

Когда применение профилей причиняет вред, необходимо определить ответственность за этот ущерб, кто должен быть привлечен к ответственности. Следует ли привлекать к ответственности программиста, поставщика услуг профилирования или профилированного пользователя? Этот вопрос ответственности особенно сложен в случае, если приложение и решения по профилям также стали автоматизированными, как в автономных вычислениях или решениях окружающего интеллекта автоматизированных решений, основанных на профилировании.

Смотрите также

использованная литература

  • Андерсон, Крис (2008). «Конец теории: поток данных делает научный метод устаревшим» . Проводной журнал . 16 (7).
  • Кастерс, BHM (2004). «Сила познания». Тилбург: Издательство Wolf Legal Publishers. Цитировать журнал требует |journal=( помощь )
  • Элмер, Г. (2004). «Профилирующие машины. Картирование персональной информационной экономики». MIT Press. Цитировать журнал требует |journal=( помощь )
  • Файяд, УМ; Пятецкий-Шапиро, Г .; Смит, П. (1996). «От интеллектуального анализа данных к открытию знаний в базах данных» (PDF) . Журнал AI . 17 (3): 37–54. Архивировано из оригинального (PDF) 16 декабря 2009 года . Проверено 9 февраля 2009 .
  • Герадц, Зенон; Соммер, Питер (2008). «D6.7c: Криминалистическое профилирование» (PDF) . Результаты FIDIS . 6 (7в).
  • Харкорт, BE (2006). «Против прогнозов. Профилирование, полицейская деятельность и наказание в актуарную эпоху». Издательство Чикагского университета, Чикаго и Лондон. Цитировать журнал требует |journal=( помощь )
  • Хильдебрандт, Мирей; Гутвирт, Серж (2008). Профиль гражданина Европы. Междисциплинарные перспективы . Спрингер, Дордрехт. DOI : 10.1007 / 978-1-4020-6914-7 . ISBN 978-1-4020-6913-0.
  • Jaquet-Chiffelle, Давид-Оливье (2008). «Ответ: Прямое и косвенное профилирование в свете виртуальных личностей. Кому: Определение профилирования: новый тип знаний?». В Хильдебрандте, Мирей; Гутвирт, Серж (ред.). Профиль гражданина Европы . Springer Нидерланды. С. 17–45. DOI : 10.1007 / 978-1-4020-6914-7_2 .
  • Kephart, JO; Шахматы, DM (2003). «Видение автономных вычислений» (PDF) . Компьютер . 36 (1 января): 96–104. CiteSeerX  10.1.1.70.613 . DOI : 10,1109 / MC.2003.1160055 . Архивировано из оригинального (PDF) 10 августа 2014 года.
  • Леопольд, Н .; Мейнц, М. (2008). «Профилирование при приеме на работу (мошенничество)». В Хильдебрандте, Мирей; Гутвирт, Серж (ред.). Профиль гражданина Европы . Springer Нидерланды. С. 217–237. DOI : 10.1007 / 978-1-4020-6914-7_12 .
  • Лессиг, Л. (2006). «Код 2.0». Основные книги, Нью-Йорк. Цитировать журнал требует |journal=( помощь )
  • Лион, Д. (2003). «Наблюдение как социальная сортировка: конфиденциальность, риск и цифровая дискриминация». Рутледж. Цитировать журнал требует |journal=( помощь )
  • Набет, Тьерри (2008). «Профилирование пользователей для поддержки внимания в школе и на работе». В Хильдебрандте, Мирей; Гутвирт, Серж (ред.). Профиль гражданина Европы . Springer Нидерланды. С. 185–200. DOI : 10.1007 / 978-1-4020-6914-7_10 .
  • Шварц, П. (2000). «Кодекс Beyond Lessig для конфиденциальности в Интернете: фильтры киберпространства, контроль конфиденциальности и добросовестные методы обращения с информацией». Обзор закона штата Висконсин . 743 : 743–788.
  • Соловье, DJ (2004). Цифровой человек. Технологии и конфиденциальность в информационную эпоху . Нью-Йорк, Издательство Нью-Йоркского университета.
  • Стейнбок, Д. (2005). «Сопоставление данных, интеллектуальный анализ данных и надлежащая правовая процедура». Обзор законодательства Грузии . 40 (1): 1–84.
  • Веддер А. (1999). «KDD: вызов индивидуализму». Этика и информационные технологии . 1 (4): 275–281. DOI : 10,1023 / A: 1010016102284 . S2CID  10377988 .
  • Вайзер, М. (1991). «Компьютер XXI века». Scientific American . 265 (3): 94–104. DOI : 10.1038 / Scientificamerican0991-94 .
  • Зарский, Т. (2002). « » Mine свой собственный бизнес! «: Аргументы в пользу Последствия этого интеллектуального анализа данных или личной информации в форуме общественного мнения». Йельский журнал права и технологий . 5 (4): 17–47.

Примечания и другие ссылки