Объяснимый искусственный интеллект - Explainable artificial intelligence

Объясняемый AI ( XAI ) - это искусственный интеллект (AI), в котором результаты решения могут быть поняты людям. Это контрастирует с концепцией « черного ящика » в машинном обучении, где даже его дизайнеры не могут объяснить, почему ИИ принял конкретное решение. XAI может быть реализацией социального права на объяснение . XAI актуален, даже если нет никаких юридических прав или нормативных требований - например, XAI может улучшить пользовательский опыт продукта или услуги, помогая конечным пользователям поверить в то, что ИИ принимает правильные решения. Таким образом, цель XAI - объяснить, что было сделано, что делается прямо сейчас, что будет сделано дальше, и раскрыть информацию, на которой основаны действия. Эти характеристики позволяют (i) подтвердить существующие знания, (ii) оспорить существующие знания и (iii) создать новые предположения.

Алгоритмы, используемые в AI, можно разделить на алгоритмы машинного обучения (ML) белого и черного ящиков. Модели белого ящика - это модели машинного обучения, которые обеспечивают результаты, понятные специалистам в данной области. С другой стороны, модели черного ящика чрезвычайно трудно объяснить, и их трудно понять даже специалистам в данной области. Считается, что алгоритмы XAI следуют трем принципам прозрачности, интерпретируемости и объяснимости. Прозрачность обеспечивается, «если процессы, которые извлекают параметры модели из обучающих данных и генерируют метки из данных тестирования, могут быть описаны и мотивированы разработчиком подхода». Интерпретируемость описывает возможность понять модель машинного обучения и представить основу для принятия решений в понятной для людей форме. Объяснимость - это концепция, которая признана важной, но общего определения пока нет. Предполагается, что объяснимость в ML можно рассматривать как «набор характеристик интерпретируемой области, которые способствовали определенному примеру для принятия решения (например, классификации или регрессии)». Если алгоритмы соответствуют этим требованиям, они обеспечивают основу для обоснования решений, отслеживания и, таким образом, их проверки, улучшения алгоритмов и изучения новых фактов.

Иногда также возможно достичь результата с высокой точностью с помощью алгоритма машинного обучения белого ящика, который интерпретируется сам по себе. Это особенно важно в таких областях, как медицина, оборона, финансы и право, где важно понимать решения и укреплять доверие к алгоритмам.

Системы искусственного интеллекта оптимизируют поведение, чтобы удовлетворить математически заданную целевую систему, выбранную разработчиками системы, например команду «максимизировать точность оценки положительных отзывов о фильмах в тестовом наборе данных». ИИ может узнать полезные общие правила из набора тестов, такие как «отзывы, содержащие слово« ужасно », скорее всего, будут отрицательными». Однако он может также узнать о неприемлемых правилах, таких как «отзывы, содержащие« Дэниела Дэй-Льюиса », обычно положительны»; такие правила могут быть нежелательными, если считается, что они не могут быть обобщены за пределами набора тестов, или если люди считают правило «обманом» или «несправедливым». Человек может проверять правила в XAI, чтобы понять, насколько вероятно, что система будет обобщать будущие реальные данные за пределами набора тестов. Это особенно важно для инструментов искусственного интеллекта, разработанных для медицинских приложений, поскольку цена неверных прогнозов обычно высока. XAI может повысить надежность алгоритмов, а также повысить доверие врачей.

Цели

Сотрудничество между агентами , в данном случае алгоритмами и людьми, зависит от доверия. Если люди должны принимать алгоритмические предписания, они должны им доверять. Неполнота формализации критериев доверия является препятствием для простых подходов к оптимизации. По этой причине интерпретируемость и объяснимость позиционируются как промежуточные цели для проверки других критериев.

Системы искусственного интеллекта иногда изучают нежелательные уловки, которые выполняют оптимальную работу по удовлетворению явных заранее запрограммированных целей на данных обучения, но которые не отражают сложных неявных желаний разработчиков человеческих систем. Например, система 2017 года, которой было поручено распознавание изображений, научилась «жульничать», ища метку авторского права, которая была связана с изображениями лошадей, вместо того, чтобы узнавать, как определить, была ли лошадь на самом деле изображена. В другой системе 2017 года управляемый обучающийся ИИ, которому поручено захватывать предметы в виртуальном мире, научился жульничать, помещая свой манипулятор между объектом и зрителем таким образом, чтобы он ложно казался захватывающим объект.

Один из проектов прозрачности, программа DARPA XAI, направлен на создание моделей «стеклянных ящиков», которые можно объяснить «человеку в цикле» без значительного ущерба для производительности ИИ. Пользователи-люди должны быть в состоянии понять познание ИИ (как в режиме реального времени, так и постфактум) и должны уметь определять, когда следует доверять ИИ, а когда - не доверять. Другие применения XAI - это извлечение знаний из моделей черного ящика и сравнение моделей. Термин «стеклянный ящик» также использовался для систем, которые отслеживают входы и выходы системы с целью проверки приверженности системы этическим и социально-правовым ценностям и, следовательно, предоставления объяснений, основанных на ценностях. Более того, этим же термином был назван голосовой помощник, который в качестве объяснения производит контрфактические утверждения.

История и методы

В период с 1970-х по 1990-е годы были исследованы системы символического мышления, такие как MYCIN , GUIDON, SOPHIE и PROTOS, которые могли представлять, рассуждать и объяснять свои рассуждения в диагностических, учебных целях или целях машинного обучения (обучения на основе объяснений). MYCIN, разработанный в начале 1970 - х годов в качестве исследовательского прототипа для диагностики бактериемии инфекций кровотока, может объяснить , какие из его рук кодировкой правил способствовало диагностике в конкретном случае. Исследования интеллектуальных систем обучения позволили разработать такие системы, как SOPHIE, которые могли бы действовать как «эксперт по формулировке», объясняя стратегию решения проблем на уровне, понятном учащемуся, чтобы они знали, какие действия предпринять дальше. Например, SOPHIE смогла объяснить качественные причины устранения неисправностей электроники, даже если в конечном итоге полагалась на симулятор схем SPICE . Точно так же GUIDON добавил учебные правила, чтобы дополнить правила уровня домена MYCIN, чтобы он мог объяснить стратегию медицинской диагностики. Символические подходы к машинному обучению, особенно те, которые основаны на обучении на основе объяснений, такие как PROTOS, явно полагались на представления объяснений, как для объяснения своих действий, так и для получения новых знаний.

В 1980-х - начале 1990-х годов были разработаны системы поддержания истины (TMS), чтобы расширить возможности причинно-следственных, основанных на правилах и логических систем вывода. TMS действует для явного отслеживания альтернативных линий рассуждений, обоснований выводов и линий рассуждений, которые приводят к противоречиям, позволяя будущим рассуждениям избегать этих тупиков. Чтобы предоставить объяснение, они прослеживают рассуждения от выводов до предположений с помощью операций правил или логических выводов, позволяя генерировать объяснения на основе следов рассуждений. В качестве примера рассмотрим основанного на правилах решателя проблем с несколькими правилами о Сократе, который приходит к выводу, что он умер от яда:

Просто проследив структуру зависимостей, решатель проблемы может построить следующее объяснение: «Сократ умер, потому что он был смертным и пил яд, и все смертные умирают, когда пьют яд. Сократ был смертным, потому что он был человеком, а все люди смертны. Сократ пил яд, потому что он придерживался диссидентских убеждений, правительство было консервативным, а те, кто придерживался консервативных диссидентских убеждений при консервативных правительствах, должны пить яд ».

К 1990-м годам исследователи также начали изучать возможность значимого извлечения правил, не кодируемых вручную, генерируемых непрозрачными обученными нейронными сетями. Исследователи клинических экспертных систем, создающие поддержку принятия решений на основе нейронных сетей для врачей, стремились разработать динамические объяснения, которые позволят этим технологиям стать более надежными и заслуживающими доверия на практике. В 2010-е годы общественные опасения по поводу расовой и иной предвзятости в использовании ИИ для вынесения решений по уголовным наказаниям и выяснения кредитоспособности, возможно, привели к увеличению спроса на прозрачный искусственный интеллект. В результате многие ученые и организации разрабатывают инструменты, помогающие обнаруживать предвзятость в своих системах.

Марвин Мински и др. поднял вопрос о том, что ИИ может функционировать как форма наблюдения, с предвзятостью, присущей слежке, предлагая HI (гуманистический интеллект) как способ создания более справедливого и сбалансированного искусственного интеллекта, работающего по принципу «человек в контуре».

Современные сложные методы искусственного интеллекта, такие как глубокое обучение и генетические алгоритмы, по своей природе непрозрачны. Для решения этой проблемы было разработано множество новых методов, позволяющих сделать новые модели более объяснимыми и интерпретируемыми. Это включает в себя множество методов, таких как послойное распространение релевантности (LRP), метод определения того, какие функции в конкретном входном векторе вносят наибольший вклад в выходные данные нейронной сети. Для объяснения одного конкретного прогноза, сделанного с помощью (нелинейной) модели черного ящика, были разработаны другие методы, цель которых называется «локальной интерпретируемостью». Стоит отметить, что простое перенесение концепций локальной интерпретируемости в удаленный контекст (где модель черного ящика выполняется третьей стороной) в настоящее время находится под пристальным вниманием.

Кроме того, была проведена работа над деревьями решений, ансамблями деревьев и байесовскими сетями, которые более прозрачны для проверки. В 2018 году была организована междисциплинарная конференция под названием FAT * (справедливость, подотчетность и прозрачность) для изучения прозрачности и объяснимости в контексте социотехнических систем, многие из которых включают искусственный интеллект.

Некоторые методы позволяют визуализировать входные данные, на которые отдельные нейроны реагируют наиболее сильно. Несколько групп обнаружили, что нейроны могут быть объединены в цепи, которые выполняют понятные человеку функции, некоторые из которых надежно возникают в разных сетях, обучаемых независимо.

На более высоком уровне существуют различные методы извлечения сжатых представлений характеристик заданных входных данных, которые затем могут быть проанализированы стандартными методами кластеризации. В качестве альтернативы сети можно обучить выводить лингвистические объяснения своего поведения, которые затем могут быть интерпретированы человеком. Поведение модели также можно объяснить со ссылкой на обучающие данные, например, путем оценки того, какие обучающие входные данные больше всего повлияли на данное поведение.

Регулирование

Поскольку регулирующие органы, официальные органы и обычные пользователи становятся зависимыми от динамических систем на основе ИИ, для процессов принятия решений потребуется более четкая подотчетность, чтобы обеспечить доверие и прозрачность. Свидетельство того, что это требование набирает обороты, можно увидеть с запуском первой глобальной конференции, посвященной исключительно этой развивающейся дисциплине, Международной совместной конференции по искусственному интеллекту: семинар по объяснимому искусственному интеллекту (XAI).

Европейский Союз ввел право на объяснение в Общем праве на защиту данных (GDPR) как попытку справиться с потенциальными проблемами, вытекающими из растущей важности алгоритмов. Внедрение постановления началось в 2018 году. Однако право на объяснение в GDPR распространяется только на местный аспект интерпретируемости. В Соединенных Штатах страховые компании должны быть в состоянии объяснить свои решения о ставках и покрытии.

Секторов

XAI был исследован во многих секторах, в том числе:

использованная литература

внешние ссылки