Идеальное байесовское равновесие - Perfect Bayesian equilibrium

Идеальное байесовское равновесие
Идеальное байесовское равновесие
Концепции решения в теории игр
Отношение
Подмножество	Байесовское равновесие по Нэшу
Значение
Предложено	Чо и Крепс
Используется для	Динамические байесовские игры
Пример	сигнальная игра

В теории игр , Идеальное байесовское Равновесие (РОВ) является равновесным понятием актуально для динамичных игр с неполной информацией (последовательная байесовская игрой ). Это уточнение байесовского равновесия по Нэшу (BNE). Идеальное байесовское равновесие состоит из двух компонентов - стратегии и убеждений :

Стратегия игрока в данном информационном наборе определяет его выбор действий в этой информации множество, которое может зависеть от истории (о мерах , принятых ранее в игре). Это похоже на последовательную игру .
Вера игрока в данном информационном множестве определяет , какой узел в этой информационной наборе он считает , что игра достигла. Убеждение может быть распределением вероятностей по узлам в информационном наборе и обычно является распределением вероятностей по возможным типам других игроков. Формально система убеждений - это присвоение вероятностей каждому узлу в игре, так что сумма вероятностей в любом информационном наборе равна 1.

Стратегии и убеждения должны удовлетворять следующим условиям:

Последовательная рациональность : каждая стратегия должна быть оптимальной в ожидании с учетом убеждений.
Последовательность : каждое убеждение должно обновляться в соответствии со стратегиями равновесия, наблюдаемыми действиями и правилом Байеса на каждом пути, достигнутом в равновесии с положительной вероятностью. На путях с нулевой вероятностью, известных как пути вне равновесия , убеждения должны быть указаны, но могут быть произвольными.

Совершенное байесовское равновесие всегда есть равновесие по Нэшу.

Примеры идеального байесовского равновесия

Подарочная игра 1

Рассмотрим следующую игру:

У отправителя есть два возможных типа: либо «друг» (с вероятностью ), либо «враг» (с вероятностью ). У каждого типа есть две стратегии: либо дарить, либо не дарить. ${\ displaystyle p}$ ${\ displaystyle 1-p}$
У получателя есть только один тип и две стратегии: либо принять подарок, либо отклонить его.
Полезность отправителя равна 1, если его подарок принят, -1, если его подарок отклонен, и 0, если он не дарит никаких подарков.
Полезность получателя зависит от того, кто дарит подарок:
- Если отправитель - друг, то полезность получателя равна 1 (если он принимает) или 0 (если он отклоняет).
- Если отправитель - враг, то полезность получателя равна -1 (если он принимает) или 0 (если он отклоняет).

Для любого значения Равновесия 1 существует равновесие объединения, в котором оба типа отправителя выбирают одно и то же действие: ${\ displaystyle p,}$

Равновесие 1. Отправитель: Не давать , будь то тип друга или тип врага. Получатель: Не принимать , полагая, что Prob (Friend | Not Give) = p и Prob (Friend | Give) = x, выбирая значение

{\ Displaystyle х \ leq .5.}

Отправитель предпочитает выплату 0, а не выплату -1 при отправке и отказе от приема. Таким образом, Give имеет нулевую вероятность в равновесии, а правило Байеса вообще не ограничивает веру Prob (Friend | Give) . Это убеждение должно быть достаточно пессимистичным, чтобы получатель предпочел выплату 0 от отклонения подарка ожидаемой выплате от принятия, поэтому требование, чтобы стратегия получателя максимизировала его ожидаемую выплату с учетом его убеждений, требует, чтобы Prob (Friend | Give) On the С другой стороны, Prob (Friend | Not give) = p требуется правилом Байеса, поскольку оба типа выполняют это действие, и оно не информативно о типе отправителя. ${\ Displaystyle х (1) + (1-х) (- 1) = 2x-1,}$ ${\ displaystyle \ leq .5.}$

Если существует второе равновесие объединения, а также равновесие 1, основанное на различных убеждениях: ${\ displaystyle p \ geq 1/2}$

Равновесие 2. Отправитель: Не давайте , будь то тип друга или тип врага. Получатель: Принять, полагая, что Prob (Friend | Give) = p и Prob (Friend | Not give) = x , выбирая любое значение для

{\ displaystyle x.}

Отправитель предпочитает выплату 1 вместо выплаты вознаграждению 0 от отказа, ожидая, что его подарок будет принят. В равновесии правило Байеса требует, чтобы получатель имел веру Prob (Friend | Give) = p , поскольку оба типа предпринимают это действие, и это не информативно о типе отправителя в этом равновесии. Неравновесное убеждение не имеет значения, поскольку отправитель не хотел бы отклоняться от положения « Не давать» независимо от того, какой ответ будет у получателя.

Равновесие 1 является извращенным, если в игре может быть так, что отправитель, скорее всего, является другом, но получатель все равно откажется от любого подарка, потому что он думает, что враги с гораздо большей вероятностью, чем друзья, дадут подарки. Это показывает, как пессимистические убеждения могут привести к ухудшению равновесия для обоих игроков, которое не является эффективным по Парето . Однако эти убеждения кажутся нереалистичными, и теоретики игр часто готовы отвергнуть некоторые идеальные байесовские равновесия как неправдоподобные. ${\ displaystyle p \ geq .5.}$ ${\ displaystyle p = 0,99,}$

Равновесия 1 и 2 являются единственными равновесиями, которые могут существовать, но мы также можем проверить два потенциальных разделяющих равновесия , в которых два типа отправителя выбирают разные действия, и понять, почему они не существуют как идеальные байесовские равновесия:

Предположим, что стратегия отправителя такова: давать другу, не давать врагу. Убеждения получателя соответственно обновляются: если он получает подарок, он считает, что отправитель - друг; в противном случае он считает, что отправитель - враг. Таким образом, получатель ответит « Принять» . Однако, если получатель выбирает « Принять» , противник-отправитель отклоняется в сторону « Раздать» , чтобы увеличить свой выигрыш с 0 до 1, так что это не может быть равновесием.
Предположим, что стратегия отправителя такова: не отдавать, если друг, давать, если враг. Убеждения получателя обновляются соответственно: если он получает подарок, он считает, что отправитель является врагом; в противном случае он считает, что отправитель - друг. Стратегия наилучшего ответа получателя - " Отклонить". Однако, если получатель выбирает « Отклонить» , противник-отправитель отклоняется в сторону « Не давать» , чтобы увеличить свой выигрыш с -1 до 0, так что это не может быть равновесием.

Делаем вывод, что в этой игре нет разделяющего равновесия.

Подарочная игра 2

В следующем примере набор PBE строго меньше, чем набор SPE и BNE. Это вариант вышеупомянутой подарочной игры со следующими изменениями в утилите получателя:

Если отправитель - друг, то полезность получателя равна 1 (если они принимают) или 0 (если они отклоняют).
Если отправитель является врагом, то полезность получателя равна 0 (если они принимают) или -1 (если они отклоняют).

Обратите внимание, что в этом варианте принятие является слабо доминирующей стратегией для получателя.

Как и в примере 1, разделяющего равновесия нет. Давайте посмотрим на следующие потенциальные равновесия объединения:

Стратегия отправителя: всегда отдавать. Убеждения получателя не обновляются: они по-прежнему верят в априорную вероятность, что отправитель - друг с вероятностью и враг с вероятностью . Их выигрыш от принятия всегда выше, чем от отказа, поэтому они соглашаются (независимо от значения ). Это PBE - это лучший ответ как для отправителя, так и для получателя. ${\ displaystyle p}$ ${\ displaystyle 1-p}$ ${\ displaystyle p}$
Стратегия отправителя: никогда не отдавать. Предположим, что при получении подарка получатель верит в то, что отправитель - друг с вероятностью , где любое число в . Независимо от того, оптимальная стратегия получателя: принять. Это НЕ PBE, так как отправитель может улучшить свою выплату с 0 до 1, сделав подарок. ${\ displaystyle q}$ ${\ displaystyle q}$ ${\ displaystyle [0,1]}$ ${\ displaystyle q}$
Стратегия отправителя: никогда не отдавать, а стратегия получателя: отвергать. Это НЕ PBE, поскольку для любого мнения получателя отказ не является лучшим ответом.

Обратите внимание, что вариант 3 - это равновесие по Нэшу! Если мы игнорируем убеждения, то отказ может считаться лучшим ответом для получателя, поскольку он не влияет на их выигрыш (поскольку в любом случае нет подарка). Более того, вариант 3 - это даже SPE, поскольку здесь единственная вспомогательная игра - это вся игра! Такие неправдоподобные равновесия могут возникнуть и в играх с полной информацией, но их можно устранить, применив совершенное равновесие по Нэшу в подиграх . Однако байесовские игры часто содержат не одноэлементные информационные наборы, и поскольку под- игры должны содержать полные информационные наборы, иногда существует только одна под-игра - вся игра, и поэтому каждое равновесие по Нэшу тривиально является совершенным под-игрой. Даже если игра имеет более одной вспомогательной игры, неспособность совершенствования вспомогательной игры прорезать информационные наборы может привести к тому, что неправдоподобные равновесия не будут устранены.

Подводя итог: в этом варианте подарочной игры есть два SPE: либо отправитель всегда дает, а получатель всегда принимает, либо отправитель всегда не дает, а получатель всегда отклоняет. Из них только первый - PBE; другой не является PBE, поскольку он не может поддерживаться какой-либо системой убеждений.

Еще примеры

Дополнительные примеры см. В разделе « Сигнальная игра # Примеры» . См. Также другие примеры.

PBE в многоступенчатых играх

Многоступенчатая игра представляет собой последовательность одновременных игр играла одну за другими. Эти игры могут быть одинаковыми (как в повторяющихся играх ) или разными.

Повторяющаяся общественно-полезная игра

	Строить	Не надо
Строить	1-C1, 1-C2	1-C1, 1
Не надо	1, 1-С2	0,0
Общественная хорошая игра

Следующая игра является простым представлением проблемы безбилетника . Есть два игрока, каждый из которых может либо строить общественное благо, либо не строить. Каждый игрок получает 1, если общественное благо построено, и 0, если нет; кроме того, если игрок строит общественное благо, он должен заплатить стоимость . Стоимость - это личная информация - каждый игрок знает свою цену, но не знает цену другого. Известно только, что каждая стоимость выбирается независимо, случайным образом из некоторого распределения вероятностей. Это делает эту игру байесовской . ${\ displaystyle i}$ ${\ displaystyle C_ {i}}$

В одноэтапной игре каждый игрок строит, если и только если их стоимость меньше, чем их ожидаемый выигрыш от строительства. Ожидаемый выигрыш от строительства ровно в 1 раз превышает вероятность того, что другой игрок НЕ будет строить. В равновесии для каждого игрока существует пороговая стоимость , так что игрок вносит свой вклад тогда и только тогда, когда его стоимость меньше, чем . Эта пороговая стоимость может быть рассчитана на основе распределения вероятностей затрат игроков. Например, если затраты распределены равномерно , то существует симметричное равновесие, в котором пороговые затраты обоих игроков составляют 2/3. Это означает, что игрок, стоимость которого составляет от 2/3 до 1, не будет вносить свой вклад, даже если его стоимость ниже выгоды, из-за возможности того, что другой игрок внесет свой вклад. ${\ displaystyle i}$ ${\ displaystyle C_ {i} ^ {*}}$ ${\ displaystyle C_ {i} ^ {*}}$ ${\ displaystyle [0,2]}$

Теперь предположим, что эта игра повторяется два раза. Эти две пьесы независимы, то есть каждый день игроки одновременно решают, строить ли общественное благо в этот день, получить выплату 1, если благо построено в этот день, и оплатить свою стоимость, если они построили в этот день. Единственная связь между играми заключается в том, что, играя в первый день, игроки могут раскрыть некоторую информацию о своих расходах, и эта информация может повлиять на игру во второй день.

Ищем симметричный PBE. Обозначьте пороговой стоимостью обоих игроков в день 1 (так, в день 1 каждый игрок строит, если и только если их стоимость не больше ). Для расчета мы работаем в обратном направлении и анализируем действия игроков во второй день. Их действия зависят от истории (= два действия в день 1), и есть три варианта: ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle {\ hat {c}}}$

В день 1 ни одного игрока не построили. Итак, теперь оба игрока знают, что цена их оппонента выше . Они соответствующим образом обновляют свои убеждения и приходят к выводу, что вероятность того, что их противник построит в день 2, меньше. Следовательно, они увеличивают свою пороговую стоимость, а пороговая стоимость во второй день равна . ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle c ^ {00}> {\ hat {c}}}$
В день 1 оба игрока построили. Итак, теперь оба игрока знают, что цена их оппонента ниже . Они соответствующим образом обновляют свои убеждения и приходят к выводу, что существует большая вероятность того, что их противник построит в день 2. Следовательно, они уменьшают свою пороговую стоимость, а пороговая стоимость во второй день равна . ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle c ^ {11} <{\ hat {c}}}$
В день 1 построился ровно один игрок; предположим, что это игрок 1. Итак, теперь известно, что стоимость игрока 1 ниже, а стоимость игрока 2 выше . Существует равновесие, в котором действия в день 2 идентичны действиям в день 1 - игрок 1 строит, а игрок 2 не строит. ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle {\ hat {c}}}$

Можно рассчитать ожидаемый выигрыш «порогового игрока» (игрока с точной стоимостью ) в каждой из этих ситуаций. Поскольку пороговый игрок должен быть безразличен между внесением вклада и отказом от него, можно рассчитать пороговую стоимость дня 1 . Оказывается, что этот порог ниже , чем - порог в одномоментной игре. Это означает, что в двухэтапной игре игроки менее охотно строят, чем в одноэтапной. Интуитивно причина в том, что, когда игрок не вносит взнос в первый день, он заставляет другого игрока поверить, что его цена высока, и это заставляет другого игрока более охотно вносить вклад во второй день. ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle {\ hat {c}}}$ ${\ displaystyle c ^ {*}}$

Прыжковые торги

На открытом аукционе на английском языке участники торгов могут повышать текущую цену небольшими шагами (например, каждый раз на 1 доллар). Однако часто бывает скачок ставок - некоторые участники торгов повышают текущую цену намного больше, чем минимальный шаг. Одно из объяснений этого состоит в том, что это служит сигналом для других участников торгов. Существует PBE, в котором каждый участник торгов прыгает, если и только если их значение превышает определенный порог. См. Jump bidding # signaling .

Смотрите также

Последовательное равновесие - уточнение PBE, которое ограничивает убеждения, которые могут быть отнесены к наборам информации, находящейся вне равновесия, «разумными».
Интуитивный критерий и Божественное равновесие - другие усовершенствования PBE, характерные для сигнальных игр .

Languages

In other projects