贝叶斯博弈

更新时间:2024-05-28 02:34

博弈论中,贝叶斯博弈是指博弈参与者对于对手的类型没有掌握完全信息的博弈。因此,贝叶斯博弈也被称为不完全信息(incomplete information)博弈。贝叶斯博弈的主要分析方法是由美国经济学家约翰·海萨尼提出的 Harsanyi 变换,再用概率论的方法使博弈参与者的期望收益最大化。

变换方法

约翰·海萨尼 (John Harsanyi) 的研究框架下,我们可以将自然 (nature) 作为一个参与者引入到贝叶斯博弈中。自然将一个随机变量赋予每个参与者。这个随机变量决定了该参与者的类型 (type)。这个过程类似于在纸牌游戏中,每人先抽取一张 “身份牌”,自己能看到,但别的游戏者看不到,只能根据抽牌过程中的概率分布和每个玩家的行为来猜测别人的身份。

贝叶斯博弈可以分为静态贝叶斯博弈和动态贝叶斯博弈,单次博弈和重复博弈等。静态博弈要求所有博弈者同时采取行动,而动态博弈中的博弈者则是按照一定顺序依次采取行动。在单次静态博弈中,其他对手的身份只能通过概率分布去推测。而在动态博弈和重复博弈中,博弈者还会面临短期收益的最大化和保密身份之间的权衡取舍。

Harsanyi 变换方法将博弈开始之前的未知信息(身份或底牌)转化为博弈开始之后的随机结果(自然抽签),使不完全信息的问题可以用概率论的方法来求解。这一思想与罗尔斯的模糊面纱原则有些相似。

单次静态博弈

举一个鹰鸽博弈的例子。这里假设鹰和鸽子与另一只鸟同时发现食物时,并不知道对方是鹰还是鸽子,可以选择与对方争夺食物或者逃走。假设鸟群中的鹰和鸽子的数目各 50%。以下三种遭遇下,双方的收益矩阵为:

表 1: 鹰鸽贝叶斯博弈的三种遭遇下的支付矩阵

按照 Harsanyi 变换的思路,一只鹰决定自己的夺食概率 a 时会考虑下表的四种情况。若选择夺食,对方是鹰的概率为 0.5,夺食或逃走的概率为 a 和 1-a,己方期望收益为 -2a + 2(1-a) = 2-4a。对方是鸽子的概率为 0.5,不论对方夺食还是逃走,己方收益均为 2。故己方总收益 0.5 x (2-4a) + 0.5 x 2 = 2-2a。若选择逃走,则己方收益固定为 -1(挨饿)。

表 2:鹰的贝叶斯博弈思考过程

同样,一只鸽子决定自己的夺食概率 b 时也会考虑下表的四种情况。若选择夺食,对方是鹰的概率为 0.5,己方期望收益仍为 2-4a。对方是鸽子的概率为 0.5,夺食或逃走的概率为 b 和 1-b,己方期望收益为 b + 2(1-b) = 2-b。故己方总收益 0.5 x (2-4a) + 0.5 x (2-b) = 2-2a-0.5b。若选择逃走,则己方收益固定为 0。这里假设鸽子的体力消耗比鹰小,故忽略不计。

表 3:鸽子的贝叶斯博弈思考过程

综上,我们有鹰的期望收益 πh = a(2-2a) – (1-a) = -2a2 + 3a-1,最大值在 a = 3/4 处取到,为 πh = 1/8。鸽子的期望收益 πd = b(2-2a-0.5b) = -0.5b2 + 0.5b,最大值在 b = 1/2 处取到,为 πd = 1/8。贝叶斯博弈的均衡策略是鹰的夺食概率为 a = 3/4,鸽子的夺食概率为 b = 1/2。显然这个均衡依赖双方遭遇时的收益矩阵,以及种群中的鹰鸽数目比。在二者数目比为 1:1 时,鹰和鸽子的收益 πh = πd 相等。称鹰鸽数目比 1:1 为表 1 所设支付矩阵下的鹰和鸽子的进化稳定策略

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}