• 参考资料:华中科技大学-熊硕《游戏学导论》(系列课程)
  • 本系列博客中,未标注“思考”、“便签”的部分,多摘引、校饰自熊硕老师的课件原文。
本篇博客包含大量博弈论相关知识,在文章下半页笔者省略了大量用于阐释名词或概念的便签,需要读者自行查阅————将内容喂给AI不失为一种很好的理解笔者意图的方式。

九、游戏策划·规则的制定者,博弈

冯诺依曼的思考:

冯诺依曼的夫人做的馅饼很受家里人欢迎,他的两个女儿尤其喜欢母亲做的馅饼,但问题来了,每次分馅饼总会有一个女儿不满意————这无关数学角度的切割分配,有时只是女儿们的无理取闹。

对此,冯诺依曼的对策是,让女儿们自己切分馅饼:如果是大女儿切的馅饼,那就让小女儿先选,如果是小女儿切的馅饼,就让大女儿先选。

这一方法立竿见影地解决了馅饼难题。往后分馅饼时,女儿们再无怨言。

老冯的这一馅饼轶事,就是博弈论与人工智能的雏形。

游戏里的巴巴博弈

游戏与博弈论

  • If a game has no GAME(博弈) , that is not a game(游戏).
  • 为什么游戏策划一定要学习博弈论?
    • 博弈(game)是游戏(game)存在的基础。
    • 设计游戏时,博弈论是系统策划制定规则的基本保障。
    • 博弈论是游戏人工智能的基础之一。
    • 作为玩家,博弈论可以迅速引领找到解的核心。
    • 博弈是一种思维方式,除了游戏设计,还可以运用于生活学习的方方面面(经济 、 管理 、 宫斗),以至于引申到社会规则的设立与执行。
  • 不熟悉博弈论会导致系统中存在大量可被执行的漏洞。
  • 不熟悉博弈论会导致设计者的预期与实际结果产生偏差。

博弈论运用于游戏设计的反例

以《三国杀》为例:《三国杀》最初的定位是一款类似于狼人杀、引入三国IP的阵营身份对战桌游,其中一个非常核心的设计是参考狼人杀的阵营(信息不对称的身份),诱导类似于狼人杀尔虞我诈的玩法涌现。但实际结果上,尽管《三国杀》不失为一款出色的桌游(“出色”的定义域仅限于实体桌游的《三国杀》——《三国杀》网游凭借其超前的运营能力与优秀的平衡设计,喜提Steam好评如潮,不在此讨论范围) ,但由于纳什均衡的调教欠缺,其实际体验更倾向于玩家跳出身份后进行卡牌对决,而非身份博弈。

回忆下游戏受众的四大特征

  • 游戏用户的数量巨大。
  • 游戏用户分散。
  • 游戏用户成分复杂。
  • 用户相对于游戏设计师是隐匿的。

从上述事实,可以引申出下面的几个定理

定理1:

如果一个系统(游戏)存在规则乃至机制上的漏洞,那么必定会有用户(玩家)利用该规则或机制的漏洞为自己攫取最大利益。

博弈论的前提

  • 博弈论需要考虑人性的逐利
  • 博弈论中所有的利益参与者,全部属于个体绝对理性角色:
    • 所有角色需要以满足自己长远利益最大化为优先策略。
    • 如果需要以伤害他人为利益最大化的前置条件,那么理想化的模型参与者就会损人利己。
    • 一旦博弈规则里存在对参与者有利的漏洞,那么当样本数量充裕时,一定有参与者会利用此漏洞,或者说,知情的参与者一定会利用此漏洞。
    • 实际中,当一个社会群体样本足够大的情况下,一定存在无法被道德束缚的人性本恶个体;甚至是无法被法律束缚的恶性个体。

博弈论的定义与历史

  • 博弈论最早作为运筹学的一个分支,作为传统微观经济学的一个补充存在。
  • 定义:研究当两个或多个决策主体之间存在相互作用,任何一方的决策策略(Strategy)都不能完全独立于其他各方策略时,各方的决策过程以及均衡问题。
  • 历史发展:
    • 1944年数学家冯诺依曼(Von Neumann)与经济学家摩根斯坦(Morgenstein)合著的《博弈论与经济行为》。
    • 1950年,塔克(Tucker)最先提出并研究了“囚徒困境”。
    • 1950年,纳什(Nash)发表了《N人博弈中的均衡点》,被认为是博弈论的奠基与核心。
    • 20世纪后半页,博弈论蓬勃发展,许多诺贝尔经济学奖都和博弈论相关
  • 为什么博弈论会和经济扯在一起?因为经济行为就是第一节课提到的日常游戏,而且是少有的可以SL的游戏。除经济外,博弈论还广泛运用于政治、军事、统计、管理、生物,以及当然,游戏设计中。

纳什均衡(Nash Equilibrium)

  • 约翰 · 纳什,美国天才经济学家,博弈论创始人,《美丽心灵》的原型。
  • 纳什患有妄想型精神分裂症,他孤僻怪异的性格以及与精神分裂症的斗争,反而让纳什完善了整个博弈论的理论与架构。
  • 纳什在20世纪50年代提出的“纳什均衡”给博弈论发展做出了开创性的贡献。
    • 纳什均衡的定义:在一个包含n 个参与者的博弈中,给定其他所有参与者的策略组合,每个参与者都选择了自己的最优策略,此时没有任何一个参与者有动机单方面改变自己的策略。这种稳定的策略组合状态,就是纳什均衡。
    • 稳定性: 一旦达到纳什均衡,博弈会自动维持在这个状态,外力不干预则不会改变。
    • 非最优性: 纳什均衡不一定是帕累托最优(即不一定对所有人都最好),这是它最反直觉的地方。
    • 普遍性: 几乎所有非合作博弈都存在至少一个纳什均衡(纯策略或混合策略)。
    • 自我实施: 不需要外部强制力,参与者会自愿遵守均衡策略
    • 纳什均衡的重要性: 任何“合理”的结果都要满足的条件——当某一理性参与者发现其进行任何单方面改变战略可以获取更多时,他会毫不犹豫地改变自己的战略,博弈自然就没有达到均衡。
  • 纳什均衡可以被分类为纯策略纳什均衡混合策略纳什均衡
    • 纯策略:对于理性参与者,为他输入场上其他参与者的决策或者环境信息,这一理性参与者将100% 确定地选择某一个策略。

    • 混合策略:对于理性参与者,为他输入场上其他参与者的决策或者环境信息,这一理性参与者将以一定的概率分布,随机选择多个纯策略。

    • 占优策略:对于理性参与者,不论场上局势如何,或其他参与者如何决策,这一理性参与者都将100% 确定地选择某一个策略。

    • 需要注意:混合策略纳什均衡的重要存在前提,是理性参与者随机选择的所有策略,给其带来的期望收益必须完全相等。 否则,混合策略纳什均衡将会立刻倒向纯策略纳什均衡。

      · 要判断一个决策组合是否达到纳什均衡,核心必须紧扣纳什均衡最本质的 “无单方面有利偏离” 的定义,整个验证过程需要先将这个决策组合中,除了当前待验证的参与者之外,其他所有博弈参与者的决策完全固定,不做任何调整,再单独审视这名待验证的参与者,在对手决策完全不变的前提下,他如果单方面将自己的决策更换为这场博弈中他可选的任何其他决策,他的最终收益是否会出现提升,哪怕只是微小的收益提升,都意味着这名参与者存在明确的动机去改变自己的决策,这个决策组合就不具备纳什均衡要求的稳定性,自然无法达到纳什均衡,就像我们熟悉的 MOBA 抢位博弈中,双方都选 Carry 的决策组合,固定其中一方选 Carry 的前提下,另一方单方面换成辅助就能从负收益转为正收益,因此这个组合根本无法通过基础的验证,自然不可能是纳什均衡。
      
      · 我们需要将这场博弈中的每一位参与者,都按照这个逻辑完成完整的逐一验证,只有当所有参与者都通过了验证,也就是在其他所有人的决策都保持固定的前提下,没有任何一位参与者能够通过单方面更换自己的决策来获得更高的收益,哪怕是更换决策后只能保持原有收益、无法实现收益提升的情况,也满足无有利偏离的要求,此时才能判定这个决策组合达到了纳什均衡。
      
      · 这个核心验证逻辑对纯策略纳什均衡和混合策略纳什均衡都完全通用,纯策略场景中我们固定的是对手的单一确定决策,验证的是更换其他单一决策的收益变化,而混合策略场景中我们固定的是对手选择不同决策的概率分布,验证的是更换其他概率分布后的期望收益变化;同时我们也能通过这个验证过程区分严格纳什均衡与弱纳什均衡,前者要求参与者单方面更换决策后收益必然下降,后者则允许更换决策后收益与原有水平持平,二者都符合纳什均衡的定义,只是严格纳什均衡的稳定性更强,在现实的游戏对局、商业博弈等场景中,被理性参与者选择的概率也更高。

定理2:

如果一种游戏系统的规则以及机制安排要发生效力,该游戏系统就必须能达到纳什均衡,否则,这种安排就没有效力。

完全信息的静态博弈

完全信息静态博弈

  • 定义:博弈各方同时行动,且对博弈相关信息完全了解。
  • 该模型常常用于设计即时类游戏。
  • 囚徒博弈
  • 智猪博弈
  • 性别博弈
  • 斗鸡博弈
  • 混合战略纳什均衡

便签-9.1

静态博弈与动态博弈

这是博弈论按信息与行动时序的另一大分类,与“协调/反协调”正交(任何协调/反协调博弈都可以是静态或动态的,关于协调/反协调博弈,参见后文)。

静态博弈(Static Game):

  • 定义:所有参与者同时行动(或在不知道对方行动的情况下独立决策),决策时无法观察到其他人的选择。

  • 数学表示:通常用标准型(Normal Form),即收益矩阵。

  • 特征:

    • 信息完全或不完全,但行动是“一锤子买卖”。
    • 均衡概念:纳什均衡(纯/混合策略)。
    • 典型例子:囚徒困境、性别博弈、智猪博弈、斗鸡博弈(如果双方同时决定)。
  • 囚徒困境、智猪、性别、斗鸡等博弈模型全部属于静态博弈。

  • 游戏设计应用:即时策略(如同时出招的卡牌对战)、MOBA选英雄阶段(BP同时进行)。

动态博弈(Dynamic Game):

  • 定义:参与者序贯行动(sequential move),后行动者能观察到先行动者的选择(或部分信息)。

  • 数学表示:通常用扩展型(Extensive Form),即博弈树 + 信息集。

  • 特征:

    • 存在子博弈完美纳什均衡(subgame perfect Nash equilibrium),要求在每一个子博弈中都达到纳什均衡(排除不可信威胁)。
    • 可引入先动优势、可信威胁、信号传递。
    • 常见扩展:重复博弈(同一博弈多次进行,未来有机会报复)。
  • 游戏设计应用:回合制游戏、MOBA的实际对线阶段(看到对方走位后再决定技能)、RPG的剧情分支选择。

囚徒困境(Prisoner’s Dilemma)

1950 年由兰德公司的梅里尔・弗勒德和梅尔文・德雷希尔提出,后由阿尔伯特・塔克正式命名为 “囚徒困境”:

两个嫌疑人 A 和 B 因共同犯罪被捕,警方将他们隔离审讯,无法串供。警方给出如下条件:

· 若两人都抵赖,各判 1 年(由于证据不足)
· 若一人坦白,一人抵赖,坦白者立即释放,抵赖者判 10 年
· 若两人都坦白,各判 8 年
乙抵赖(合作) 乙坦白(背叛)
甲抵赖(合作) ( -1 , -1 ) ( -10 , 0 )
甲坦白(背叛) ( 0 , -10 ) ( -8 , -8 )

均衡推导:

站在 A 的角度,则

· 如果 B 抵赖:坦白(0 年)比抵赖(1 年)好
· 如果 B 坦白:坦白(8 年)比抵赖(10 年)好

同理,站在 B 的角度,无论 A 选什么,坦白都是最优策略。

最终结果:理性人最终的选择在达到纳什均衡时一定是两人都选择坦白,各判 8 年。

核心内涵: * 个人理性导致集体非理性。 * 对集体而言,最优解是 “都抵赖”(各判 1 年) * 但对每个个体而言,最优解是 “坦白” 其内涵为,个体追求自身利益最大化的理性行为,最终导致了集体的最坏结果。 换句话说就是,个体从利己角度出发,达成的结果却是损人不利己的。

成立的三个必要前提: * 非合作博弈:参与者之间无法达成有约束力的协议(或者说就算有协议也无可信保障确保协议执行)。 * 完全理性:每个参与者都是自私的,只追求自身利益最大化,出离于个人感情。 * 单次博弈:博弈只进行一次,没有未来的报复或合作机会。

纳什均衡与囚徒困境的关系: 1. 囚徒困境是纳什均衡的一个特例。 * 而且是占优策略均衡(占优策略:无论对方选什么,这个策略都是最优的)。 * 占优策略均衡一定是纳什均衡,但纳什均衡不一定是占优策略均衡。 2. 囚徒困境揭示了纳什均衡的另一面。 * 传统经济学认为 “看不见的手” 会引导个人理性走向集体最优。 * 囚徒困境证明:在某些情况下,个人理性与集体理性存在不可调和的冲突。 * 是对传统经济学的重大修正。 3. 纳什均衡为解决囚徒困境提供了理论框架。 * 改变博弈规则(如引入外部惩罚、建立合作机制)。 * 将单次博弈变为重复博弈。 * 可以打破 “坏的纳什均衡”,走向合作的 “好的纳衡什均”。

囚徒博弈的现实应用

  • 为什么有的老师带过的所有课程,如果涉及到报告,都会对报告做出字数上限限制,以及报告纸张数限制?

    任何存在无上限内卷可能的博弈,都会引发囚徒博弈下的困境,使得总和收益为负,或达成同样的收益需要更多的代价。

定理3:

在游戏规则的制定中,利用纳什均衡能保证系统和谐稳定。如果鼓励玩家合作,则需要避免囚徒博弈,并修改规则使之倾向于猎鹿博弈。反之,若游戏不鼓励合作则需尽可能设置囚徒博弈。

囚徒困境的避免:MOBA机制的演化

  • 远古时代的3C:玩家全都倾向于选择高数值的爽英雄(从利己角度出发,玩家希望使用C位英雄打出好看的数据,从设计角度出发,选择特定的高数值英雄几乎是固定解),最后演变成大哥对打,而辅助角色无人问津,游戏变得枯燥。其速推、刷钱、买活机制更是高度固定,纳什均衡导向纯粹的固定套路
  • DOTA:逐渐从大哥对打变成Carry、Mid、Offlane、Ganker、Supporter。
  • 再到英雄联盟的上单、中单、打野、辅助等。
  • 最后演变成风暴英雄:若不按照设计者设计的纳什均衡进行游戏,团队就无法取得胜利(几乎灭杀了玩家的利己主义心理,而这种心理本应当是玩家体验游戏的一种驱动力)。

3C的问题在于所有人都只能玩大哥,但是最后谁都不是大哥,且玩法高度趋同,而风暴英雄的问题,是暴雪总是教玩家玩游戏——“玩家必须XXX,否则就XXX”。对于MOBA游戏甚至绝大多数对抗游戏,这是一个需要寻求平衡的点,既要保证玩家有自由选择的区间以达成自我实现,又要保证玩家之间存在有限的囚徒博弈来限制玩家的自由度,构建起一个共赢的团队。

思考-9.1

从澄海3C的没落看对抗游戏的纳什均衡设计

从突然爆火,到逐渐与其他AoS-Like类地图一同没落,澄海3C的生命周期尤其短暂,仅仅在05~08年期间在国内电子游戏的舞台上昙花一现地绽放出巨大的生命力。没有人能否定,现在的国产游戏开发者们应当感谢,那些能在国产游戏产业尚未完全成形的千禧时代,为国人提供一段关于游戏的美好回忆的自由作者们,他们奠定了国内电子游戏受众群体的基础,为游戏行业的发展提供了丰富的创意养料。但也正是其不修边幅的设计思路,导致了其产品游戏平衡的缺失,最终导向了类Aos-Like类地图在国内的没落。

澄海3C的辉煌从一开始就注定是短暂的——借用B站UP芒果冰OL的一句话:“我脑海中的疑问是,这张玩家无数的经典地图是怎么会凉的,但当我真的通过采访与资料搜集将整个过程的来龙去脉搞清楚后,我的结论却是,这个地图能火本身就是个奇迹。”自由作者们凭借着自己对于游戏的激情与理解制作出种类繁多、内容丰富、特效夸张、数值膨胀的3C类地图,尽管其中有ORC 3C这类强调平衡机制的地图,但是代表着AoS-Like、最受广大玩家欢迎的仍然是澄海3C为首的娱乐地图。

澄海3C的机制设计忽视了博弈论对于对抗性游戏的一个重要影响,正如我们先前所强调:

混合策略纳什均衡能够存在的充要条件是:所有被玩家以正概率使用的纯策略,其期望收益必须完全相等。

换句话说,如果一种纯策略的期望收益显著高于其他所有策略,理性玩家会 100% 只选这个策略,混合策略会立刻退化为单一纯策略占优均衡。说人话就是,澄海3C是有最优解的,而且这种最优解是极其单一、极其固定的,这一特性体现在澄海3C的多个系统中。

其一是其游戏核心循环。澄海 3C 的核心设计,从根上就灭绝了混合策略存在的可能性:

  • 英雄强度差距呈数量级:大法师(AM)的刷钱速度是其他任何英雄的 2-3 倍;黑暗游侠(ES)的打钱 + 压制能力无人能及。作为一款玩家可以控制多个英雄的游戏,英雄数量直接决定了玩家的强度,而为了快速打出2、3英雄,首发英雄选择可以高效刷钱的AM/ES几乎是唯一的最优解。这一方面使得其他英雄几乎告别了首发位,一方面也使得游戏的流程逐渐千篇一律。

  • 经济优势可以转化为绝对胜势:早 10 秒出二英雄,就能抢走牛头、圣骑士等核心,形成英雄数量碾压,后续难以翻盘。这也是够买英雄机制的延申,进一步固化了玩家固定首发、选择刷钱的路径依赖。

  • 没有任何反制机制:没有 BP、没有英雄克制、没有装备能弥补刷钱速度的差距。换句话说,只有刷钱可以打败刷钱,这无疑也加剧了玩法的单一性。

其二是,速推、买活等超标流派与次要机制仍然聚焦经济,鼓励玩家刷钱,进一步加剧了游戏的单一纯策略占优均衡,使得玩家的行为模式趋于单一固定,玩家每一局的行为不断重复,逐渐让游戏丧失了趣味性。这样本身就矛盾重重的设计为澄海3C的没落埋下了伏笔。

澄海 3C 的悲剧在于,它同时陷入了单局内的囚徒困境和整个游戏社群的囚徒困境,而且这两个困境相互强化,形成了一个死循环。

第一层循环是一局游戏内的囚徒困境。这是最直接、最明显的一层,也就是我们之前说的:

个人最优选择导致单局内两个阵营的集体最坏结果。

举个例子:

对光明方的单个玩家来说,最优策略是选 AM 速刷。
对黑暗方的单个玩家来说,最优策略是选 ES 速刷。
结果:所有对局都是 AM vs ES,速推 vs 速推。

对两个阵营的所有玩家来说,这个结果是最坏的: 游戏变成了单调的刷钱比赛,没有任何策略性和趣味性。而玩家的操作技巧和意识变得不重要,重要的是谁对套路更熟练,每一局都和上一局一模一样,很快就会感到厌倦。这里的 “集体最坏”,不是指某一个阵营输了,而是指两个阵营的所有玩家都获得了最差的游戏体验。即使你赢了,你也不会觉得好玩,因为你只是赢了一场和昨天、前天一模一样的比赛。

第二层循环是整个游戏社群的囚徒困境。这是澄海 3C 最终没落的根本原因:

每个玩家为了自己能赢而选择最优策略,最终共同摧毁了整个游戏社群,导致所有玩家都再无游戏可玩

事实上,由于每个玩家都选择 AM/ES 速推,澄海3C的游戏体验随着其最优解的逐渐明晰而日益下降。一部分玩家因为厌倦而离开游戏,而由于玩家数量减少,导致匹配时间变长,剩下的玩家更难找到对手。为了能更快匹配到对手并且赢得来之不易的比赛,剩下的玩家只能更加严格地遵守最优策略(因为选非主流玩法的胜率低得可怕,为了赢得比赛几乎只能选择固定的玩法——这也是为什么队友选非主流时其他人会拔线退出)。游戏体验进一步下降,更多玩家离开。在这一恶性循环下,整个游戏社群最终崩溃。

这是一个典型的公地悲剧:游戏的趣味性是所有玩家共同拥有的公共资源,每个玩家为了自己的利益(赢得一局比赛)而过度开采这一资源(寻找最优解),最终导致资源枯竭,所有人都无利可图。

当然,澄海3C的没落还有诸多因素,包括玩家群体割裂、社区矛盾频发、后起之秀崛起等复杂的文化层原因,这里不做展开。

某种程度上,澄海3C的设计其实是对抗游戏的一种典型反例——游戏策划应该尽可能避免混合策略退化为单一纯策略占优均衡。换句话说,就是对抗的思路和方式应当是多样的,而且对抗游戏不得不考虑玩法平衡来维持混合策略不同决策分支的收益相等,从而保障可重玩性。设计师应当通过机制设计,诱导多样的玩法动态,使得玩法不断涌现,让每一局游戏都保有新鲜感。

思考-9.2

从《风暴英雄》的失败看对抗游戏的纳什均衡设计

“风暴要火”曾经是《风暴英雄》社群的著名网梗,也是无数风暴玩家心中真实的愿望。而这款“最好玩也最不好玩”的网游,最后在2022年遗憾转入纯维护模式(不过截止笔者写下这篇博客的时间——2026年四月,暴雪已经将《风暴英雄》重新转入活跃开发状态,并且发布了新的维护后更新版本)。究竟是什么导致了《风暴英雄》的失败?

笔者认为,与澄海3C更多因为游戏平衡设计矛盾带来的失败相比,《风暴英雄》的失败参杂了大量时代背景或公司、团队决策等游戏外因素。不过,考虑到这篇博客主要聚焦博弈论在游戏设计中的实践应用,而《风暴英雄》诚然也有博弈论视角下的设计失误。这里主要对这一部分内容进行展开讨论。

《风暴英雄》在诞生之初就被指定了差异化竞争的发展方向,对于一款出现在DOTA和LOL已经抢占了大半市场的后MOBA时代的产品,《风暴英雄》与其他MOBA类游戏最大的区别在于其过量的创新性。其中最为显著的就是其无限强调团队协作的游戏理念。这既是其最具游戏自身特色的设计,也是导致其最终走向没落的设计。

首先不谈这一设计低估了在MOBA趋于成熟的时代背景下对玩家进行再教育的成本,也不讨论其一定程度上限制了《风暴英雄》的电竞化出圈率,单论其最为显著的,玩家可以直观感受到的,就是几乎无解的木桶效应。其早期糟糕的匹配机制使得大量段位差过大的单排玩家进入一局游戏,导致队伍内无法有效协作,考虑到《风暴英雄》的强团队属性(全队等级经验等数值共享、击杀助攻视同一体),这种情况下游戏根本无法实现纳什均衡预测下的对抗,反倒是某种程度上降低了Pro玩家Carry队友的能力并影响了其个人成就感,提高了Noob玩家对于队伍的负面作用并使其忽略了自身能力的局限。

核心机制与匹配等旁支系统对于单排玩家的不友好开启了《风暴英雄》的死亡螺旋:

单排体验差→大量单排玩家离开游戏

玩家数量减少→匹配时间变长,匹配质量下降

匹配质量下降→剩下的玩家体验更差,更多玩家离开

玩家数量进一步减少→官方不得不缩减开发资源,停止更新

停止更新→最后一批核心玩家也离开游戏

游戏彻底死亡

从博弈论角度,某种程度上可以认为,《风暴英雄》的强团队属性把个体之间的博弈更多上升到队伍层面的博弈,但队伍的博弈仍然依赖原子化的个体做出选择,这就导致个体对游戏认知的差异影响了团队决策的精度,使得队伍未必能向纳什均衡预测下最优的混合策略或单一策略靠拢。而这一负面效益无法被C位玩家的操作或其他队员的协力在其他领域弥补,只会使得队伍被投入越打越落后的循环中。换句话说,《风暴英雄》的单局游戏中是存在纳什均衡的,但这一纳什均衡并不总是能被有效地实现,更确切地说,理论上存在一个完美的团队纳什均衡,但现实中没有任何机制能保证五个独立的个体会自发地向这个均衡靠拢。此外,相较于其他传统的MOBA游戏中个人能力可以转化为个人优势,进而转化为团队优势,《风暴英雄》没有其他的补偿机制来引导一局偏离纳什均衡的游戏回归正轨,这使得任何一次失误都可以带领团队走向覆灭。

对于任何一款合作向游戏来说,一个好的游戏规则,不应该假设玩家是无私的、统一的、完美的。它应该接受玩家是自利的、独立的、有缺陷的,甚至往往是缺失对游戏的理性认知的,然后通过机制设计,引导这些不完美的个体,自发地走向集体的最优结果。

囚徒困境的鼓励:打击PUBG的非法组队

  • 毫无疑问,大逃杀类游戏某种意义上就是希望玩家没有队友,互相残杀。
    • 这个设计很有趣味,比如《大逃杀》《弹丸论破》。
  • 然而逐利的玩家会发现,吃鸡类游戏“非法组队”可以更高效地打击其他玩家,从而对参与非法组队的玩家提供更高的名次,结算为更高的战局奖励。
  • 非法组队的实质是“合作”,原因是纳什均衡的利益导向偏向于合作,玩家为获取更高的收益会倾向选择合作。
    • 利用囚徒博弈破坏合作意愿,比如囚徒背叛。
  • 直接对某种行为(非规则边界之外的手段/行为,比如非法组队)进行来自第四面墙之外的打击是一种很low的方法,高明的手段永远是利用博弈论与逐利的人性从根本上引导玩家背叛/不合作。

反向囚徒:MOBA里的猎鹿博弈

  • 猎鹿博弈:团队玩家有一个共同的大目标需要合作,但是中途会有玩家因为一些小目标而分心。
  • MOBA中鼓励玩家开团参团,换言之鼓励合作:
    • 作为一款电竞游戏,观众们不希望看见十个人在三条线上和野区里打单机。

智猪博弈

猪圈里有两头猪,分别是一头大猪以及一头小猪。猪圈的一头有一个猪食槽,另一头安装一个按钮控制猪食供应。食槽的规则是:

小猪 按 小猪 等待
大猪 按 ( 5 , 1 ) ( 4 , 4 )
大猪 等待 ( 9 , -1 ) ( 0 , 0 )
  • 按一下按钮会有十个单位的猪食进槽,但谁按按钮就要因为奔跑付出两个单位的热量消耗成本。
  • 大猪因为体型健壮,可以挤占小猪的进食空间。
  • 大猪小猪做出不同选择的具体模型与收益分析,读者可以自行在网上查阅,但总之,小猪会通过分析局势得知最其优解一定是等待,而大猪会通过分析小猪的处境得知小猪一定会等待,从而大猪一定会按开关。最后,在两头猪都有理性的前提下,最后结果一定是小猪选择等待,大猪按开关。

智猪博弈:RPG里的等级经验惩罚

  • 众所周知,RPG里,高等级打低等级,因为低等级的怪物经验太少,且有一部分衰减,会导致高等级玩家不会选择大规模浪费时间刷低等级怪物升级,几乎所有游戏都这么做。
  • 但是,如果高等级玩家和低等级玩家组队去刷高等级的怪物呢?
    • 参考《暗黑破坏神2》,低等级打高等级怪物同样大幅度削减经验值,这就是为了防止低等级玩家绑架高等级玩家,在高等级副本里分增益。
  • 游戏中,玩家间的智猪博弈一般是需要被破除的。
  • 破除智猪博弈的方法:
    • 可置信威胁;
    • 日式霸凌;
    • 任务量可视化(例如OverLeaf、石墨文档);
    • 系统自主判定;
    • 减少团队成员数量并明确分工(类似MOBA)。

定理4:

在团队游戏规则的制定中,如果较弱的用户能够通过智猪博弈绑架其他用户获得正收益,则必有玩家永远选择利益绑架。智猪博弈是团队规则与合作的天敌,团队个体的数量越多,智猪隐蔽性越强。

性别博弈

电视之夜,尽管男生偏好看球,女生偏好看剧,但双方都更想一起行动:

女生 看球 (B) 女生 看剧 (O)
男生 看球 (B) ( 2 , 1 ) ( 0 , 0 )
男生 看剧 (O) ( 0 , 0 ) ( 1 , 2 )
  • 博弈中双方存在一定的共同利益,但是具有共同利益的不同结果又有着相对冲突。
  • 在对方不拆台的情况下,都有共同达到盈利的目标时,成功达到纳什均衡的关键因素是谁先采取行动(或者谁比较强势),谁就能够占领先机,获得优势。这是性别博弈的先动优势,但有两个严格前提:
    • 先行动必须是不可撤回的、可信的。比如男生先买了不可退的球票,女生就只能跟着去看球;如果只是口头说 “我要去看球”,女生完全可以说 “那我自己去追剧”,先动优势就消失了。
    • 先动优势不是绝对的,可以被可信的威胁逆转。比如女生说 “你不陪我看剧我就分手”,如果这个威胁是可信的,那么即使男生先买了球票,也会选择退票陪女生看剧。
  • 换言之,性别博弈有两个纳什均衡点(一起看球 / 一起看剧),以及一个混合策略纳什均衡点(男生以 2/3 概率看球、1/3 概率看剧;女生以 1/3 概率看球、2/3 概率看剧)。但混合策略纳什均衡点的收益(三分之二)远低于任何一个纯策略的收益(1或2).
  • 当然,对于一个真实的性别博弈场景,现实中往往只有一个纳什均衡点。
  • 游戏规则使用性别博弈鼓励玩家先下手为强——这是将性别博弈转化成动态博弈。

便签-9.2

协调博弈(Coordination Game)与反协调博弈(Anti-coordination Game)

在博弈论中,协调博弈和反协调博弈是两类经典的多重纳什均衡博弈(即存在两个或以上纯策略纳什均衡)。它们的核心区别在于参与者对“一致性”的偏好方向完全相反,这直接影响游戏设计师如何设计规则来引导玩家行为。


协调博弈(Coordination Game)

参与者之间存在共同利益,他们都希望选择相同的行动(相互协调),以获得更高的共同收益。任何一个均衡点都比“不协调”更好,但不同均衡点的收益可能不同,参与者需要“选同一个”才能实现最优。其核心特征为:

  • 存在多个纯策略纳什均衡,且这些均衡都是帕累托有效的(没有人能单方面变得更好而不让其他人变差)。
  • 如果无法沟通,参与者会依赖谢林点(focal point)(共同的文化、社会规范、显著特征)来自发收敛到同一个均衡。
  • 混合策略均衡存在,但收益通常低于纯策略均衡(因为随机化会带来“错过协调”的风险)。 典型场景:参考前文的性别博弈,双方都想在一起,但对于去哪里有分歧。

反协调博弈(Anti-coordination Game,也称Discoordination Game)

参与者希望选择不同的行动来避免冲突或竞争。双方都想“错开”对方的选择,从而获得更高收益。“一致行动”反而是最差结果。其核心特征为:

  • 同样存在多个纯策略纳什均衡,但这些均衡是双方行动不同的。
  • 协调失败的代价很高(双方都选同一策略时收益最低)。
  • 混合策略均衡往往更稳定,因为随机化正好能实现“错开”。
  • 典型场景:斗鸡博弈——双方都想避开对方以独占资源或避免碰撞。

补充:斗鸡博弈(Chicken Game / Hawk-Dove Game)

两辆车迎面相撞,谁先打方向盘谁就输掉赌注,但双方都直行就会撞车。

收益矩阵(行玩家为A,列玩家为B;“直行”= Hawk,“转向”= Dove): | | B 直行 (Hawk) | B 转向 (Dove) | |:————–:|:————-:|:————-:| | A 直行 (Hawk) | ( -10 , -10 ) | ( 5 , -1 ) | | A 转向 (Dove) | ( -1 , 5 ) | ( 0 , 0 ) |

纯策略纳什均衡:(Hawk, Dove) 或 (Dove, Hawk) —— 一方强势、一方退让。

混合策略纳什均衡: 双方都以一定概率随机选择直行/转向,期望收益高于碰撞但低于独占。

先动优势: 如果一方能先公开不可撤回的行动(例如先把油门踩到底),就能迫使对方转向。

思考-9.3

在性别博弈的内容中,笔者开玩笑地添加了一段带删除线的文本: “当然,对于一个真实的性别博弈场景,现实中往往只有一个纳什均衡点。”。笔者的本意是调侃男生往往会在性别博弈的真实场景下服从于女方意志,因为恋人往往不是最优的“理性博弈参与者”范例,然而AI却对这段调侃有着不一样的解读:


“当然,对于一个真实的性别博弈场景,现实中往往只有一个纳什均衡点”

✅ 极其精准,但没解释原因。这是性别博弈最深刻的地方,原因是聚点均衡(谢林点):

现实中存在文化、习惯、社会规范、过往经验等隐性因素,会让双方在没有沟通的情况下,自发协调到其中一个均衡。比如:

`  传统社会中,情侣往往会协调到女生喜欢的结果,这是社会规范形成的聚点

`  第一次约会,往往会协调到女生喜欢的结果,这是社交礼仪形成的聚点

`  经常一起玩的朋友,往往会协调到上次的结果,这是路径依赖形成的聚点

`  聚点均衡解释了为什么理论上有两个均衡,但现实中往往只有一个会发生。

上述文字由AI生成

这是“谢林点”的定义:

在一个存在多个纳什均衡的博弈中,假使不能沟通,人们往往会因为某些共同的文化、习惯、经验或直觉,自发地选择同一个最显眼、最容易被所有人想到的均衡点。这个点就是谢林点(Schelling Point),也叫聚点均衡。

笔者认为这一拓展是极其有趣的。谢林点的存在弥合了博弈论的理想状态与现实世界的差距——不是所有决策的参与者都满足前文所说 “博弈论中所有的利益参与者,全部属于个体绝对理性角色,以满足个体最大利益为优先”,或者说,至少展现出了一般博弈论模型的缺陷,即忽略了复杂的感性或社会因素。

一个值得注意的点在于,谢林点不是从混合策略均衡中诞生,恰恰相反 ——混合策略均衡是”没有谢林点时的临时状态”。当一个博弈存在多个纯策略纳什均衡但缺乏共识时,玩家才会被迫采用混合策略;而谢林点的出现,本质上就是玩家在重复博弈中,自发地从多个纯策略均衡里投票选出一个,最终将不稳定的混合策略均衡,彻底固化为唯一的纯策略均衡。这一特性的一个主要原因在于,混合策略均衡是天生不稳定的。混合策略均衡的核心前提是 “所有被使用的纯策略期望收益完全相等”。但在真实世界中,这个前提几乎无法满足。

· 例如总会有某一个纯策略的胜率比其他高 0.1%

· 总会有某一个纯策略更符合大多数玩家的直觉

· 只要有一点点差异,玩家就会慢慢向这个策略倾斜,打破混合策略的平衡

一旦游戏的混合策略均衡中出现某个玩家更加承认的选项,这一选项就趋于发展为一个纯策略均衡,成为那个谢林点,与此同时,原有的混合策略均衡就趋于解体。这里需要补充,绝大多数人都会误以为:“谢林点之所以能打败混合策略,是因为它本身就是最优策略。”这是完全错误的。谢林点的优势,不是它本身比其他策略更优,而是用的人多了,它就变成了最优策略。这是一个典型的自我实现的预言。换句话说,假想在一个选项无限的混合策略均衡里,谢林点未必是最优解,但一定是最被承认的解。这往往只能意味着它还不错,或者说几乎完美,但未必意味着它是那个唯一最完美的答案。要注意谢林点的自我强化属性,“用它的人越多,就会有越多的人用它”,这是一个正反馈的循环。

谢林点可以作为游戏策划的一种开发工具。对于部分协调失败的代价大于探索的收益的游戏,适当地为玩家引导出一种游戏共识指导玩家“做默认”是较为加分的,也就是引导第一个谢林点,比如如果要让一群完全没有玩过LOL的玩家上手这款游戏,我们应当教会他们最基础的分路和游戏节奏,而不是让他们自由探索,接着因为混乱的游戏节奏无法享受到游戏的对抗乐趣。但同时,游戏策划也要注意尊重玩家的选择,避免“教玩家玩游戏”,玩家带来的玩法涌现应当被尊重,策划要能接受自己假设的谢林点不被玩家接受,或者被玩家自己寻找到的谢林点取代——如果这个谢林点不会破坏游戏平衡。

另外,值得注意的是,为了保障游戏的趣味,设计者往往需要为玩家提供一套可以涌现出多个动态的机制,这些动态作为混合策略,其收益应当近似。一旦某种选项的收益过高以至于逐渐演变成谢林点,要考虑是“尊重玩家玩法(维持)”还是“避免游戏出现最优通解(砍)”。不论如何,要避免谢林点使得游戏玩法趋于单一固定,也要避免缺乏谢林点导致游戏目标不明或无法达成有效均衡,同时还要避免一味地教玩家打游戏。

从这种看似自相矛盾的表述里可以发现,“一代版本一代神” 的设计是有其博弈论基础的,这里值得单独展开谈谈。正如前文所言,许多游戏会试图营造出多个收益均等的选项来为玩家提供混合策略,以实现混合策略纳什均衡。但往往在实际体验中会有少数几个选项的收益相对更高,因此其形成的谢林点将一定程度上影响到游戏的玩法平衡(譬如老版本的M14大人之于三角洲——其在任何段位、任何玩法的玩家手里出现频率都尤其地高),设计者不希望看见玩家们统统向谢林点揭示的最优策略靠拢,因此在下一个版本中,这样的版本之子往往会迎来一波大规模削弱。但是版本之子形成的路径依赖(也就是谢林点的自我维持和自我强化)仍然会左右玩家的选择,甚至会让玩家对削弱感到不满,为了对冲这一影响,同时增加游戏内容,设计者又会在版本中加入新的选项,这选项中的部分往往也是收益偏高的。这主要是因为,如果更新的选项的收益过低,玩家们会自发抗拒这些选项,形成一个自我增强的“逆向谢林点”,哪怕在之后的版本里加强,社群的逻辑惯性仍然会使得相当一部分玩家对这一已经平衡的选项敬而远之,而这次更新丰富游戏内容的效果就会受到影响,也不利于更好地维持游戏环境的平衡。相反,如果其收益偏高,那么玩家们将会趋向于选择更新后的某些策略,使之成为新的“版本之子”。我们完全可以在下一个版本中将其削弱,哪怕玩家们形成了路径依赖,这一收益相对平衡的选项也不会进一步影响游戏环境,而下一个版本的“版本之子”将再次开启这一循环。

性别博弈在游戏中的使用

  • 对于野排MOBA,因为不信任路人玩家,每个对自我能力感到自信的玩家都想打Carry位,因此,谁先抢到Carry谁就能打Carry。而剩下的玩家因为要避免负收益,只能作为Supporter。
  • MOBA,《魔兽争霸3》和日本将棋,为了防止“憋憋乐”,会在数值策划上给予主动进攻的一方部分优势,逼迫所有玩家主动进攻。
    • 《War3》里憋憋乐有维护费惩罚,且不进攻的一方难以获取英雄经验;
    • 将棋憋憋乐会被俘虏规则带来的滚雪球式失利暴死;
    • First Blood额外奖励

思考-9.4

严格来说,熊老师这里的《War3》、将棋、First Blood的示例并不是性别博弈在游戏中的使用。

回顾性别博弈的定义是:

  · 双均衡要求:必须存在多个纯策略纳什均衡,且都是「协调成功」的结果(双方策略匹配);

  · 偏好对立要求:上述均衡中,双方的收益偏好不完全相同——例如:玩家 A 在均衡 1 中拿到最高收益,玩家 B 在均衡 2 中拿到最高收益,不存在双方都偏好的唯一最优均衡;

  · 协调失败双输要求:存在协调失败的结果(双方都坚持自己偏好的策略,无法达成匹配),且这个结果的收益严格低于任何一个协调成功的均衡收益(也就是真・双输,怎么都比达成协调差);

  · 非零和博弈,协调的总收益永远高于不协调。

这么看,野排MOBA的Carry位争夺诚然是符合性别博弈的概念的:

· 2 个协调均衡:(A 选 Carry,B 选辅助)、(A 选辅助,B 选 Carry)

· 偏好对立:A 在第一个均衡拿 10(最高),B 在第二个均衡拿 10(最高)

· 协调失败双输:双方都选 Carry / 都选辅助,收益 (-1,-1),比任一个协调均衡的收益都低

· 协调总收益 12,高于不协调的 -2。

但是其他的例子呢?读者不妨自行按照纳什定理给出的收益计算表列出其每个选择的对应预期收益。不难发现,其余所有的例子都无法严格符合性别博弈的定义,反倒是更偏向于某种反向的斗鸡博弈。

甚至严格来看,这些例子甚至不符合协调博弈的定义(斗鸡博弈是非协调博弈,但是协调博弈的反面严格的等于非协调博弈吗?反向的斗鸡博弈是否等于某种协调博弈?笔者猜测未必如此,然而笔者逻辑学或数学能力有限,有兴趣的读者欢迎自行证明):

参与者之间存在共同利益,他们都希望选择相同的行动(相互协调),以获得更高的共同收益。任何一个均衡点都比“不协调”更好,但不同均衡点的收益可能不同,参与者需要“选同一个”才能实现最优。

不难发现,这些例子并没有体现出协调博弈中任意“协调”均衡点的收益大于“不协调”均衡点,甚至可以认为这一博弈会使得参与者希冀着得到一个不协调的均衡点——尽管其他的理性参与者不会给出发生非协调博弈的机会。

所以笔者认为,这些例子可以看作是引导占优策略均衡的一般博弈,而非性别博弈。

更多来说,笔者认为性别博弈是游戏鼓励玩家选择合作的一种方式,让玩家想合作但利益存在冲突,再通过机制引导他们自发进行协调,制造有类“心有灵犀”的乐趣,同时避免纯随机导致挫败。同时,性别博弈也可以很好地解决玩家协调的问题——如果策划鼓励玩家进行协调,那么强化协调失败的后果就会引导玩家主动避免协调失败,统一内部利益导向的不同。

定理5:

如果设定的游戏机制有明显的僵局,那么调整博弈收益使其符合性别博弈,可以有效地挑动玩家主动参与,且在即时性的游戏里产生美妙的火花。

笔者认为,这里的“参与”更多指参与其他玩家互相协调的过程,在这个过程里,玩家之间得以产生某种联系。这一联系在多人游戏,尤其是阵营对抗中同阵营的玩家之间,是尤为必要的。

斗鸡博弈(Chicken Game / Hawk-Dove Game)

标准矩阵(“直行”=强势/鹰,“转向”=退让/鸽):

B 直行 (Hawk) B 转向 (Dove)
A 直行 (Hawk) ( -10 , -10 ) ( 20 , 0 )
A 转向 (Dove) ( 0 , 20 ) ( 0 , 0 )
  • 退一步海阔天空(不会有负收益),但是会成为懦夫(也不可能有正收益)。
  • 潜在地鼓励其他人更暴力、更主动。
  • 现实/日常游戏规则制定时应当避免出现斗鸡博弈。

熊老师的本页PPT到此为止,但是笔者将给出另两个表格:

表格1:

B 直行 (Hawk) B 转向 (Dove)
A 直行 (Hawk) ( -10 , -10 ) ( 5 , -1 )
A 转向 (Dove) ( -1 , 5 ) ( 0 , 0 )

表格2:

B 直行 (Hawk) B 转向 (Dove)
A 直行 (Hawk) ( -10 , -10 ) ( 10 , 0 )
A 转向 (Dove) ( 0 , 10 ) ( 0 , 0 )

思考:在不同的数据配比下,同样是斗鸡博弈,博弈的结果发生了什么变化?

首先明确一个前提,在无法沟通的情况下,理性人的行为应当导向自利最大化的选择。也就是都选Hawk。

读者可以发现,在熊老师给出的框架下,任何理性人都会选择直行,可以认为谢林点是大家都选择直行,但是谢林点导向的结果却是双输的。对于笔者给出的数据,表格1中理性人的决定应当是都转向,谢林点导向的结果虽然不是双输,但也是全然没有收益的。表格2中理性人的决定应当是随机的,但其预期收益为0。可以认为,斗鸡博弈对于理性人的决策是不友好的,唯一的最优解只有随机选择混合策略,且其期望收益不为正。纯策略可以有正收益,但仅在对方配合的前提下成立,无法沟通时这一纯策略无法可靠实现,大概率导向恶性谢林点而撞车。

斗鸡博弈在游戏中的使用

  • 游戏中的正面使用(鼓励主动Hawk)
    • 1美元拍卖陷阱,早些年氪金手游页游用这一方法做排行榜,套取富裕玩家的钱。
  • 游戏中的反面使用(鼓励主动Dove)
    • 志愿者困境。
    • MOBA里的Supporter,“包鸡包眼包雾”,让出兵线经济,还要替Carry挡刀。
    • 对于理性、退让、奉献的玩家,给予一定的奖励与回报以提升其游戏体验。

思考-9.5

斗鸡博弈(反协调博弈)的游戏设计应用

在这里,笔者对熊老师提出的斗鸡博弈在游戏中的应用进行补充:笔者认为斗鸡博弈应用于游戏的核心在于制造高风险高回报的心理博弈,让玩家在硬刚退让之间反复拉扯,产生紧张感和心机对决。并且在博弈胜利时获得额外的成就感与满足感。这是一种赌徒心理的应用,譬如:

  • 大逃杀/生存游戏中的资源争夺:热门区(高风险高回报)就是斗鸡博弈——大家都想去抢好装备,但同时去就容易互杀双输。
  • MOBA的抢龙:都抢龙就有可能两败俱伤,但是单独抢下来了就有超额收益。

以此类推。

定理6:

斗鸡博弈中理性玩家无法依靠纯策略获得正向的收益,且作为非协调博弈,其更多鼓励玩家之间的对抗。因此,要避免在团队规则中出现,但鼓励在对抗规则中设计。消除斗鸡博弈与志愿者困境,可以给理性退让者对应的收益。

混合战略纳什均衡(混合策略均衡)

  • 纯战略:参与人在每一个给定信息的情况下只选择一个特定的行动。
    • 纯战略多数情况下可以发展出唯一的纳什均衡。
    • 纯战略纳什均衡一般是用于游戏群体内部(或者说合作者间)规则的和谐,比如猎鹿博弈。
  • 混合战略:参与人在每一个给定信息的情况下以某种概率分布随机地选择不同的行动。
  • 游戏策划制定规则的时候,如果能让双方陷入混合战略,并且无法达成唯一的纳什均衡,那么就会调动起所有参与者的心理战,加大游戏乐趣。
  • 对于设计者,应当尽可能让所有的混合策略纳什均衡被选择的可能概率尽量接近,这样才能增强游戏的可玩性、可重复性与博弈性。
  • 石头剪刀布是极为简单的混合策略纳什均衡,但是屡试不爽。
  • RTS里的设计就充分利用混合战略纳什均衡,强迫玩家打信息战。

定理7:

纳什均衡存在性定理:如果博弈参与者为有限个,而且每个博弈参与者所能选择的策略也是有限个,则该博弈至少存在一个纳什均衡(纯策略均衡或者混合策略均衡)

这是纳什在1950年利用布劳威尔不动点定理(Brouwer Fixed Point Theorem)的推广形式证明的结果,内容冗长,这里不做摘引。


笔者的后记:以下内容尽管仍然是博弈论的皮毛,但已经向博弈论的深处更进一步,关于游戏学的内容逐渐减少,关于博弈论的本体知识逐渐变多,对于这样一门富有逻辑性的理科课程,笔者尚无时间完整整理校对,或有缺漏及言之不明之处,仅供参考。


完全信息的动态博弈

完全信息的动态博弈

  • 定义: 博弈的各方按照顺序行动,且对博弈相关信息完全了解。
  • 静态博弈: 所有局中参与者同时行动,或者行动虽有先后,但没有人在自己行动之前可以观测到别人的行动。
  • 动态博弈: 所有局中参与者先后行动,后行动者的决策依赖于先行动者,而先行动者的决策需要考虑其对后行动者的影响。
  • 围棋象棋等属于典型的完全信息动态博弈。
  • 这种先后顺序的动态指的是信息上的先后,而非字面意义的时间先后

关于完全信息的动态博弈与Solved Game

  • 象棋或国际象棋交予电脑后就并没有那么富有趣味了,因为AI已经Solve了它们,这类游戏又被称为Solved Game。
  • 哪怕围棋一类相对更为复杂的游戏,成为Solved Game也只是时间问题。
  • 我们仍然认可象棋的娱乐性是因为人类的大脑远远不如计算机,能力上往往找不到唯一的纳什均衡解。
  • 但是游戏初期开盘时,人类还是可以找到唯一纳什均衡的。
  • 总而言之,在人工智能的时代,尽量避免做完全信息的动态博弈类型游戏,如果要做,试着把游戏限制在桌游平台。

静态博弈的缺陷

  • 存在多个解,最终变成完全的心理战(当然在电子游戏开发里我们往往鼓励这一点,但是具体情况需要具体分析)。
  • 静态博弈的纳什均衡,不考虑自己的选择如何影响对手的策略,但事实上,有些问题(现实中多数问题都是如此)局中人行动有先后:一人行动在先,另一人在后,则后者会根据前者的行动调整自己的策略,而前者自然会理性地预期到这一点,故不可能不考虑自己的选择如何影响对手的策略。
  • 静态博弈的纳什均衡允许了不可置信威胁的存在,例如,在智猪博弈中,强者和弱者组队完成任务,弱者什么都不想做,于是强者发出威胁:”你要是不跟我一起完成任务,也别想要挟我,我们大可以一起双输“。事实上动态博弈中这种不可置信威胁往往不会被采纳,因为强者往往不敢赌(严格来说,不可置信威胁对于静态/动态博弈都不会被其他理性参与者采纳,除非发出者利用某些方式将其转化为置信威胁)。

不可置信威胁:市场进入阻扰(Entry Deterrence)

  • 博弈中双方存在一定的共同利益,但是具有共同利益的不同结果又有着相对冲突。
  • 假设一个情景:在一由单个企业(在位者)垄断的市场中,出现一个待入企业(进入者),对于在位者,其可以选择是否进行商业斗争,对于进入者,其可以选择是否确定进入市场,其博弈支付表:
B斗争 B准入
A进入 ( -10 , -10 ) ( 5 , 5 )
A撤资 ( 0 , 15 ) ( 0 , 15 )

我们将整个情景抽象为一个两人有限完美信息动态博弈(two-player finite game of perfect information):

  • 玩家:

    • 玩家1(先动者,记为I):在第0阶段唯一行动。

    • 玩家2(后动者,记为E):在第1阶段行动,且完全观察到玩家1的行动。

  • 行动空间:

    • 玩家1的行动集 $ A_I = {C, N} $,其中 $ C $ 表示“采取某种承诺行动”(例如选择一个不可逆的参数值,如投资水平 $ k $ ), $ N $ 表示“不采取承诺”。
    • 玩家2的行动集 $ A_E = {Enter, Out} $。
    • 若玩家2选择 $ Out $,博弈结束。
    • 若玩家2选择 $ Enter $,则进入第2阶段子博弈 $ G(C) $(或 $ G(N) $),该子博弈是两人(可能同时行动)的战略式博弈,其支付矩阵由玩家1在第0阶段的选择完全决定。

这是较为数学化的表述,也可以简述为:玩家1可以选择在博弈开始时做出一个声明,或者说,“威胁”。玩家2将会完全观测到玩家1的威胁,并以此决定选择去留。若选择留(Enter),则进入最后一个阶段的博弈。其中,玩家1的“威胁”会改变最后阶段(若玩家2选择留)子博弈 $ G(C) $ 的支付矩阵。

例如,玩家1可以声明:若玩家2选择Enter,玩家1将选择一个将会为玩家2带去负收益的行为,从而恐吓玩家1选择Out。

  • 一个典型的不可置信威胁是:玩家1声明“若玩家2选择进入市场,则玩家1将进行商业斗争”。原因是,当玩家2选择了Enter,且玩家1已知玩家2选择了Enter,此时玩家1的选择包括斗争(-10收益)与准入(+5收益),理性玩家1的选择一定是+5,也即准入,因此玩家2会发现,玩家1的威胁宣称是无效的。

不难推断,当玩家1做出如此声明,这一动态博弈模型的唯一严格纳什均衡只有“(进入,准入)”。

然而我们会发现,当我们将这一模型转化为静态博弈模型,结论似乎发生了一些变化——静态博弈模型中的纳什均衡,除了“(进入,准入)”,还承认“(撤资 ,斗争)”的纳什均衡存在(读者可以自行验证)。也就是,玩家1、2需要同时做出决策(进入 / 撤资、斗争 / 准入)。因此原本在动态博弈模型中不存在(不合逻辑)的纳什均衡“(撤资 , 斗争)”,在静态博弈中是正当的,尽管其是弱纳什均衡。这某种程度上表现出了静态博弈的局限性,即:

经典的纳什均衡概念在处理有明确先后顺序的动态博弈时,会出现严重的逻辑漏洞 —— 它会认可那些依赖不可置信威胁支撑、现实中理性参与者之间不会发生的 “伪均衡”,而市场进入阻挠的序贯动态结构,刚好能直观地暴露这个漏洞:在这个模型的原生设定里,潜在进入者先决策是否进入市场,在位者完整观察到进入者的选择后,再决定是发起价格战斗争还是默许进入,经典纳什均衡会得出 “潜在进入者不进入、在位者选择斗争” 这个看似符合数学规则的结果,但这个结果完全依赖于在位者 “你进入我就斗争” 的不可置信威胁,一旦进入者真的完成了进入动作,理性的在位者不会选择两败俱伤的斗争,因为默许进入的收益远高于斗争亏损,这个均衡在现实的商业逻辑里毫无成立的可能。

事实上,对于游戏(尤其是电子游戏)开发者来说,动态博弈是更为常见的情形。理性认识到静态博弈的局限性,可以更好地进行游戏机制的平衡与设计。但是不应忽略静态博弈的博弈论基础地位,对于动态博弈的分析(如逆向归纳法)仍然依赖于静态博弈的分析思路,此外,游戏中的静态博弈与动态博弈往往也是共存嵌套的,不能完全忽视其中任何一方。

承诺行动(Commitment)

  • 承诺行动使不可置信威胁变为可信威胁:不执行威胁,当事人将为自己的 “失信” 付出成本。
  • 例如:引入股东C,如果在位者向股东C保证 “如果我让进入者进入后不与其斗争,那么我就向你付出代价”。这时的斗争成为可置信的威胁。因此如果进入后,选择默许,在位者收益更小。有了这个承诺,进入者就不得不相信在位者的威胁,并将其视作可信威胁纳入博弈,其理性选择将会导向撤资。

动态博弈的博弈树

  • 博弈树的优点:
    • 可描述多人对策问题;
    • 便于描述行动次序;
    • 可以形成动态博弈独有的完美子博弈纳什均衡,比如难民博弈;
  • 博弈树的缺点:
    • 只能描述有限的策略集对策。

子博弈完美纳什均衡(子博弈精炼纳什均衡)

  • 可能存在多个纳什均衡,如果某种情况不可能出现(如不可信威胁),则可剔除之,从而精炼、缩小解的个数。
  • 如果是动态博弈,从每一个行动选择开始到博弈结束又构成一个博弈,即“子博弈”。
  • 子博弈完美纳什均衡:当且仅当参与人的策略在每一个子博弈都构成纳什均衡。

定理8:

静态博弈与动态博弈对于策略威胁的纳什均衡可能存在变化,信息透明(完全信息)的前提条件下,动态博弈可以有效地精炼同等条件下静态博弈产生的混合战略纳什均衡。

逆向归纳法

  • 求解完美且完全信息动态博弈的重要方法之一是逆向归纳法。
  • 逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈的方法。

便签-9.3

子博弈完美纳什均衡(SPNE)与逆向归纳法

如何理解逆向归纳法?可以如此理解,对于一个动态博弈模型的决策树,取其最末的全部决策节点,将些节点每个都视作静态博弈的模型,按照任意顺序,计算对于每个参与者最大化支付的方式,并以此为基础(视这些节点为确定的支付)倒推回前一个节点,再次进行对每个参与者最优支付策略的计算,一直回推直到根节点,将得到一个完整的策略集——这一完整的策略集(包含所有参与者的策略)即为原博弈的一个子博弈完美纳什均衡。

终端节点 / 末端决策节点的数量多少,不决定SPNE是否唯一。决定SPNE唯一性的,是博弈的支付结构是否存在 ”支付无差异“ —— 即是否存在至少一个决策节点,参与人有两个及以上的行动,能带来完全相等的最大支付。若博弈无任一支付无差异(每个决策节点的最优行动严格唯一):无论有多少个终端节点、多少个末端决策节点,逆向归纳得到的纯策略 SPNE 都将唯一。若博弈存在至少一处支付无差异:哪怕只有 2 个终端节点、1 个末端决策节点,也会产生多个 SPNE;末端决策节点越多、支付无差异的点越多,SPNE 的数量会指数级增长。库恩(Kuhn)定理的唯一性条件已经给出证明:对于有限完美信息动态博弈,如果在每一个决策节点上,没有两个行动能给参与人带来完全相同的支付,那么这个博弈有且仅有一个纯策略 SPNE。

一个动态博弈决策树的完美子博弈纳什均衡可能发生在任一决策节点,这将使得后续所有决策分支在理性现实里都不成立。其本质是,博弈的均衡路径仅包含从根节点到该决策节点的行动,到此博弈直接终止;所有后续分支都属于非均衡路径—— 在 “完全理性是共同知识” 的标准前提下,这些分支永远不会被实际触发,但它们是 SPNE 能够成立的逻辑支撑前提。普通纳什均衡只要求策略在均衡路径上是最优的,可能包含不可信的威胁;而 SPNE 要求策略在所有子博弈(包括永远不会实现的非均衡路径的子博弈)上都构成纳什均衡。哪怕后续分支不会被触发,也必须明确参与者在这些分支上的最优行动,才能证明初始节点的决策是序贯理性的,没有包含不可信的威胁。

重复博弈

  • 重复博弈的相关基本改变定义:
    • 相同结构的博弈 $ G $ 重复多次,且在每次重复 $ G $ 之前,所有参与者都能观测到以前的结果(即历史),成为重复博弈。其中每次博弈都称为“阶段博弈”.
  • 在每个阶段博弈,可以是静态博弈,可以是动态博弈。
  • 为什么要研究重复博弈?
    • 人们之间的长期关系与短期关系之间有重要的性质差别,人们在对待与其有长期关系的人和对待以后鲜有交往的人可能会有非常不同的行为。重复博弈中,参与者可能为了长远利益,牺牲眼前利益。
  • 有限次重复博弈:
    • 记为 $ G(T) $ ,其中 $ T $ 为重复次数, $ G $ 称为 $ G(T) $ 的原博弈。
  • 无限次重复博弈:
    • 记为 $ G(∞) $ 。

重复博弈的应用

  • $ G(T) $ 重复次数较少时,可暂不考虑贴现问题()。
  • 在重复博弈的长期关系中,有可能形成默契或者合作关系,或通过报复、直采的威胁相互约束行为。因此,重复博弈中,人们在考虑当前利益问题的同时,要兼顾未来的利益。
  • 零和博弈问题(Seesaw game / Zero sum game):
    • 由于零和游戏不可能存在任何合作,因此,最优策略即为原博弈 $ G $ 的完美解重复T次。如齐王赛马的重复博弈;又比如Deep Blue在Solved的情况下,对抗人类多少局都一样的重复博弈。

便签-9.4

博弈论中的贴现,意指对未来收益 / 成本的时间价值折算:其逻辑是 “未来的 1 单位收益,不如当下的 1 单位收益值钱” ,需要给未来的收益计算折扣,折算成和当期收益等价的「现值」,才能跨期比较、加总总收益,判断参与者的最优策略。

和金融领域的贴现不同,博弈论中的贴现,除了体现资金的时间价值,更核心的是衡量博弈参与者的「耐心程度」—— 越看重长期收益、越愿意为未来回报放弃短期利益,贴现的折扣就越小;越短视、只看重眼前收益,折扣就越大。

定理9:

如果阶段博弈 G 存在唯一的纳什均衡,那么对于任意有限次重复博弈的 G(T) 有唯一的子博弈完美纳什均衡结果:G的纳什均衡重复T次————除非引入外力因子破坏纳什均衡。

无限博弈的求解

  • 如何走出“囚徒困境”?其实除了法律和各种规则之外,提供长期利益是有效手段。
  • 方法:引入重复博弈,给定时间价值和贴现系数 $ 0 < < 1 $)。
  • 冷酷战略:
    • (1) 一开始选择合作。
    • (2) 直到有一方选择背叛,然后永远选择背叛。

举例,我们再次拿出囚徒困境的支付表:

乙抵赖(合作) 乙坦白(背叛)
甲抵赖(合作) (-1, -1) (-10, 0)
甲坦白(背叛) (0, -10) (-8, -8)

总是合作的期望收益(双方始终合作):

$$

_1 = R + R + ^2 R + =

$$

$ i $ 首先不合作的期望收益(一方先背叛,随后双方永远背叛,也就是冷酷策略):

$$

_2 = T + P + ^2 P + = T +

$$

当始终有 $ _1 > _2 $ 时,双方就不会出现背叛行为:

$$

>

$$

代入具体数值($ T=0 $, $ R=-1 $, $ P=-8 $):

$$

> =

$$

只要贴现因子 δ 足够大(参与者足够有耐心,δ≥1/8),合作就可以成为无限次重复博弈的子博弈完美纳什均衡,而这个均衡在单期阶段博弈中是理性参与者不可能实现的。

定理10:

如果博弈重复无穷次,且每个人拥有无穷的耐心,任何短期的机会主义行为的所得都是微不足道的。参与人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚其他参与者的机会主义行为,所以制定合理的游戏规则还可以从长远收益入手。

在熊老师课程的末尾,有一段对贝叶斯纳什均衡的简要介绍。考虑到熊老师对于这部分内容的一笔带过,以及其涉及到更复杂的博弈论与数学知识,笔者不在此进行展开了。不过在可预见的未来,笔者或许会单独拿出数个博客进行关于博弈论的研究,将结合游戏学、博弈论、概统数学对相关内容进行更深入的阐释。


**
END

**