Идеальное байесовское равновесие - Perfect Bayesian equilibrium

Идеальное байесовское равновесие
Концепции решения в теории игр
Отношение
Подмножество Байесовское равновесие по Нэшу
Значение
Предложено Чо и Крепс
Используется для Динамические байесовские игры
Пример сигнальная игра

В теории игр , Идеальное байесовское Равновесие (РОВ) является равновесным понятием актуально для динамичных игр с неполной информацией (последовательная байесовская игрой ). Это уточнение байесовского равновесия по Нэшу (BNE). Идеальное байесовское равновесие состоит из двух компонентов - стратегии и убеждений :

  • Стратегия игрока в данном информационном наборе определяет его выбор действий в этой информации множество, которое может зависеть от истории (о мерах , принятых ранее в игре). Это похоже на последовательную игру .
  • Вера игрока в данном информационном множестве определяет , какой узел в этой информационной наборе он считает , что игра достигла. Убеждение может быть распределением вероятностей по узлам в информационном наборе и обычно является распределением вероятностей по возможным типам других игроков. Формально система убеждений - это присвоение вероятностей каждому узлу в игре, так что сумма вероятностей в любом информационном наборе равна 1.

Стратегии и убеждения должны удовлетворять следующим условиям:

  • Последовательная рациональность : каждая стратегия должна быть оптимальной в ожидании с учетом убеждений.
  • Последовательность : каждое убеждение должно обновляться в соответствии со стратегиями равновесия, наблюдаемыми действиями и правилом Байеса на каждом пути, достигнутом в равновесии с положительной вероятностью. На путях с нулевой вероятностью, известных как пути вне равновесия , убеждения должны быть указаны, но могут быть произвольными.

Совершенное байесовское равновесие всегда есть равновесие по Нэшу.

Примеры идеального байесовского равновесия

Подарочная игра 1

Рассмотрим следующую игру:

  • У отправителя есть два возможных типа: либо «друг» (с вероятностью ), либо «враг» (с вероятностью ). У каждого типа есть две стратегии: либо дарить, либо не дарить.
  • У получателя есть только один тип и две стратегии: либо принять подарок, либо отклонить его.
  • Полезность отправителя равна 1, если его подарок принят, -1, если его подарок отклонен, и 0, если он не дарит никаких подарков.
  • Полезность получателя зависит от того, кто дарит подарок:
    • Если отправитель - друг, то полезность получателя равна 1 (если он принимает) или 0 (если он отклоняет).
    • Если отправитель - враг, то полезность получателя равна -1 (если он принимает) или 0 (если он отклоняет).

Для любого значения Равновесия 1 существует равновесие объединения, в котором оба типа отправителя выбирают одно и то же действие:

Равновесие 1. Отправитель: Не давать , будь то тип друга или тип врага. Получатель: Не принимать , полагая, что Prob (Friend | Not Give) = p и Prob (Friend | Give) = x, выбирая значение

Отправитель предпочитает выплату 0, а не выплату -1 при отправке и отказе от приема. Таким образом, Give имеет нулевую вероятность в равновесии, а правило Байеса вообще не ограничивает веру Prob (Friend | Give) . Это убеждение должно быть достаточно пессимистичным, чтобы получатель предпочел выплату 0 от отклонения подарка ожидаемой выплате от принятия, поэтому требование, чтобы стратегия получателя максимизировала его ожидаемую выплату с учетом его убеждений, требует, чтобы Prob (Friend | Give) On the С другой стороны, Prob (Friend | Not give) = p требуется правилом Байеса, поскольку оба типа выполняют это действие, и оно не информативно о типе отправителя.

Если существует второе равновесие объединения, а также равновесие 1, основанное на различных убеждениях:

Равновесие 2. Отправитель: Не давайте , будь то тип друга или тип врага. Получатель: Принять, полагая, что Prob (Friend | Give) = p и Prob (Friend | Not give) = x , выбирая любое значение для

Отправитель предпочитает выплату 1 вместо выплаты вознаграждению 0 от отказа, ожидая, что его подарок будет принят. В равновесии правило Байеса требует, чтобы получатель имел веру Prob (Friend | Give) = p , поскольку оба типа предпринимают это действие, и это не информативно о типе отправителя в этом равновесии. Неравновесное убеждение не имеет значения, поскольку отправитель не хотел бы отклоняться от положения « Не давать» независимо от того, какой ответ будет у получателя.

Равновесие 1 является извращенным, если в игре может быть так, что отправитель, скорее всего, является другом, но получатель все равно откажется от любого подарка, потому что он думает, что враги с гораздо большей вероятностью, чем друзья, дадут подарки. Это показывает, как пессимистические убеждения могут привести к ухудшению равновесия для обоих игроков, которое не является эффективным по Парето . Однако эти убеждения кажутся нереалистичными, и теоретики игр часто готовы отвергнуть некоторые идеальные байесовские равновесия как неправдоподобные.

Равновесия 1 и 2 являются единственными равновесиями, которые могут существовать, но мы также можем проверить два потенциальных разделяющих равновесия , в которых два типа отправителя выбирают разные действия, и понять, почему они не существуют как идеальные байесовские равновесия:

  1. Предположим, что стратегия отправителя такова: давать другу, не давать врагу. Убеждения получателя соответственно обновляются: если он получает подарок, он считает, что отправитель - друг; в противном случае он считает, что отправитель - враг. Таким образом, получатель ответит « Принять» . Однако, если получатель выбирает « Принять» , противник-отправитель отклоняется в сторону «   Раздать» , чтобы увеличить свой выигрыш с 0 до 1, так что это не может быть равновесием.
  2. Предположим, что стратегия отправителя такова: не отдавать, если друг, давать, если враг. Убеждения получателя обновляются соответственно: если он получает подарок, он считает, что отправитель является врагом; в противном случае он считает, что отправитель - друг. Стратегия наилучшего ответа получателя - " Отклонить". Однако, если получатель выбирает « Отклонить» , противник-отправитель отклоняется в сторону «   Не давать» , чтобы увеличить свой выигрыш с -1 до 0, так что это не может быть равновесием.

Делаем вывод, что в этой игре нет разделяющего равновесия.

Подарочная игра 2

В следующем примере набор PBE строго меньше, чем набор SPE и BNE. Это вариант вышеупомянутой подарочной игры со следующими изменениями в утилите получателя:

  • Если отправитель - друг, то полезность получателя равна 1 (если они принимают) или 0 (если они отклоняют).
  • Если отправитель является врагом, то полезность получателя равна 0 (если они принимают) или -1 (если они отклоняют).

Обратите внимание, что в этом варианте принятие является слабо доминирующей стратегией для получателя.

Как и в примере 1, разделяющего равновесия нет. Давайте посмотрим на следующие потенциальные равновесия объединения:

  1. Стратегия отправителя: всегда отдавать. Убеждения получателя не обновляются: они по-прежнему верят в априорную вероятность, что отправитель - друг с вероятностью и враг с вероятностью . Их выигрыш от принятия всегда выше, чем от отказа, поэтому они соглашаются (независимо от значения ). Это PBE - это лучший ответ как для отправителя, так и для получателя.
  2. Стратегия отправителя: никогда не отдавать. Предположим, что при получении подарка получатель верит в то, что отправитель - друг с вероятностью , где любое число в . Независимо от того, оптимальная стратегия получателя: принять. Это НЕ PBE, так как отправитель может улучшить свою выплату с 0 до 1, сделав подарок.
  3. Стратегия отправителя: никогда не отдавать, а стратегия получателя: отвергать. Это НЕ PBE, поскольку для любого мнения получателя отказ не является лучшим ответом.

Обратите внимание, что вариант 3 - это равновесие по Нэшу! Если мы игнорируем убеждения, то отказ может считаться лучшим ответом для получателя, поскольку он не влияет на их выигрыш (поскольку в любом случае нет подарка). Более того, вариант 3 - это даже SPE, поскольку здесь единственная вспомогательная игра - это вся игра! Такие неправдоподобные равновесия могут возникнуть и в играх с полной информацией, но их можно устранить, применив совершенное равновесие по Нэшу в подиграх . Однако байесовские игры часто содержат не одноэлементные информационные наборы, и поскольку под- игры должны содержать полные информационные наборы, иногда существует только одна под-игра - вся игра, и поэтому каждое равновесие по Нэшу тривиально является совершенным под-игрой. Даже если игра имеет более одной вспомогательной игры, неспособность совершенствования вспомогательной игры прорезать информационные наборы может привести к тому, что неправдоподобные равновесия не будут устранены.

Подводя итог: в этом варианте подарочной игры есть два SPE: либо отправитель всегда дает, а получатель всегда принимает, либо отправитель всегда не дает, а получатель всегда отклоняет. Из них только первый - PBE; другой не является PBE, поскольку он не может поддерживаться какой-либо системой убеждений.

Еще примеры

Дополнительные примеры см. В разделе « Сигнальная игра # Примеры» . См. Также другие примеры.

PBE в многоступенчатых играх

Многоступенчатая игра представляет собой последовательность одновременных игр играла одну за другими. Эти игры могут быть одинаковыми (как в повторяющихся играх ) или разными.

Повторяющаяся общественно-полезная игра

Строить Не надо
Строить 1-C1, 1-C2 1-C1, 1
Не надо 1, 1-С2 0,0
Общественная хорошая игра

Следующая игра является простым представлением проблемы безбилетника . Есть два игрока, каждый из которых может либо строить общественное благо, либо не строить. Каждый игрок получает 1, если общественное благо построено, и 0, если нет; кроме того, если игрок строит общественное благо, он должен заплатить стоимость . Стоимость - это личная информация - каждый игрок знает свою цену, но не знает цену другого. Известно только, что каждая стоимость выбирается независимо, случайным образом из некоторого распределения вероятностей. Это делает эту игру байесовской .

В одноэтапной игре каждый игрок строит, если и только если их стоимость меньше, чем их ожидаемый выигрыш от строительства. Ожидаемый выигрыш от строительства ровно в 1 раз превышает вероятность того, что другой игрок НЕ будет строить. В равновесии для каждого игрока существует пороговая стоимость , так что игрок вносит свой вклад тогда и только тогда, когда его стоимость меньше, чем . Эта пороговая стоимость может быть рассчитана на основе распределения вероятностей затрат игроков. Например, если затраты распределены равномерно , то существует симметричное равновесие, в котором пороговые затраты обоих игроков составляют 2/3. Это означает, что игрок, стоимость которого составляет от 2/3 до 1, не будет вносить свой вклад, даже если его стоимость ниже выгоды, из-за возможности того, что другой игрок внесет свой вклад.

Теперь предположим, что эта игра повторяется два раза. Эти две пьесы независимы, то есть каждый день игроки одновременно решают, строить ли общественное благо в этот день, получить выплату 1, если благо построено в этот день, и оплатить свою стоимость, если они построили в этот день. Единственная связь между играми заключается в том, что, играя в первый день, игроки могут раскрыть некоторую информацию о своих расходах, и эта информация может повлиять на игру во второй день.

Ищем симметричный PBE. Обозначьте пороговой стоимостью обоих игроков в день 1 (так, в день 1 каждый игрок строит, если и только если их стоимость не больше ). Для расчета мы работаем в обратном направлении и анализируем действия игроков во второй день. Их действия зависят от истории (= два действия в день 1), и есть три варианта:

  1. В день 1 ни одного игрока не построили. Итак, теперь оба игрока знают, что цена их оппонента выше . Они соответствующим образом обновляют свои убеждения и приходят к выводу, что вероятность того, что их противник построит в день 2, меньше. Следовательно, они увеличивают свою пороговую стоимость, а пороговая стоимость во второй день равна .
  2. В день 1 оба игрока построили. Итак, теперь оба игрока знают, что цена их оппонента ниже . Они соответствующим образом обновляют свои убеждения и приходят к выводу, что существует большая вероятность того, что их противник построит в день 2. Следовательно, они уменьшают свою пороговую стоимость, а пороговая стоимость во второй день равна .
  3. В день 1 построился ровно один игрок; предположим, что это игрок 1. Итак, теперь известно, что стоимость игрока 1 ниже, а стоимость игрока 2 выше . Существует равновесие, в котором действия в день 2 идентичны действиям в день 1 - игрок 1 строит, а игрок 2 не строит.

Можно рассчитать ожидаемый выигрыш «порогового игрока» (игрока с точной стоимостью ) в каждой из этих ситуаций. Поскольку пороговый игрок должен быть безразличен между внесением вклада и отказом от него, можно рассчитать пороговую стоимость дня 1 . Оказывается, что этот порог ниже , чем - порог в одномоментной игре. Это означает, что в двухэтапной игре игроки менее охотно строят, чем в одноэтапной. Интуитивно причина в том, что, когда игрок не вносит взнос в первый день, он заставляет другого игрока поверить, что его цена высока, и это заставляет другого игрока более охотно вносить вклад во второй день.

Прыжковые торги

На открытом аукционе на английском языке участники торгов могут повышать текущую цену небольшими шагами (например, каждый раз на 1 доллар). Однако часто бывает скачок ставок - некоторые участники торгов повышают текущую цену намного больше, чем минимальный шаг. Одно из объяснений этого состоит в том, что это служит сигналом для других участников торгов. Существует PBE, в котором каждый участник торгов прыгает, если и только если их значение превышает определенный порог. См. Jump bidding # signaling .

Смотрите также

использованная литература