• 文献标题:An Application of Game-Refinement Theory to Mah Jong
  • 作者:Hiroyuki Iida, H. Takahara, J. Nagashima, Y. Kajihara, Y. Hashimoto
  • 发表:International Conference on Entertainment Computing (ICEC 2004)
  • 链接跳转:https://link.springer.com/content/pdf/10.1007/978-3-540-28643-1_41.pdf

对游戏洗练度理论的学习日志——浅读GR理论的原始学术文献

写在前面

首先,笔者再次重申自己的观点:游戏策划不应该囿于理论知识的学习,学院派的知识不会自己变成游戏,实践才是检验真理的唯一标准。但同时,笔者也认为,反对纯粹的学院派研习不意味着反对学院派的一切研究与理论观点,相反,在有余力的前提下,笔者鼓励游戏策划对相关知识进行有限的学习与探索。学院派的严谨、科学、可量化的思维方式对于新手快速入门游戏开发、提升设计能力是具有一定意义的。对相关内容的学习可以帮助策划更快速地做出决定,同时保证决策的质量与效果。为此,笔者日后将不时对相关优质文献或评论进行阅读分享,希望对读者有所启发,也希望自己可以在这个过程里成长。

文献原文(翻译摘引)

由于篇幅限制,这里笔者仅搬运了翻译后的文献。若需参照原文,读者可自行访问笔者贴出的链接。

游戏精炼理论在麻将中的应用

Hiroyuki Iida¹,³, Kazutoshi Takahara¹, Jun Nagashima¹, Yoichiro Kajihara¹, Tsuyoshi Hashimoto²

¹静冈大学计算机科学系,日本静冈县滨松市城北3-5-1, 432-8011
{iida, cs9055, cs8066, cs6501}@cs.inf.shizuoka.ac.jp
²静冈大学系统工程系,日本静冈县滨松市城北3-5-1, 432-8011
hasimoto@cs.inf.shizuoka.ac.jp
³日本科学技术振兴机构 PRESTO 信息与系统,日本

摘要
本文将游戏精炼理论应用于一类多人不完全信息游戏,特别是以古老的中国四人不完全信息游戏——麻将为例。我们开发了一个计算机程序,用于分析可能选项数量和游戏长度的统计数据。分析结果表明,麻将的游戏精炼度指标与其他精炼游戏(如国际象棋和围棋)一样,具有适当的数值。

关键词:游戏精炼理论、多人不完全信息游戏、麻将

1 引言
我们曾研究游戏中的决策空间特性[2][3][5][6]。决策空间是指无需预测的最小搜索空间,它为几乎所有棋盘游戏提供了通用度量标准。我们对决策空间中决策选项的动态变化进行了研究,并观察到这种动态是影响游戏娱乐性的关键因素。随后我们提出了游戏精炼度的度量标准[3]。

有趣的游戏始终保持不确定性,直到游戏结束。因此,可用选项的变化在整个游戏过程中保持恒定。此时,游戏是各种可能结果之间的“跷跷板游戏”。相反,在无趣的游戏中,一方玩家会迅速占据主导地位,可用选项会迅速减少。因此,精炼的游戏更倾向于处于跷跷板状态,我们将其称为跷跷板游戏原则

基于跷跷板游戏原则,我们提出了游戏不确定性的logistic模型[4]。从玩家的视角来看,游戏结果的信息是时间(步数)t的增函数。我们将游戏结果的信息定义为已解决不确定性的量x(t),满足

$$ x'(t) = \frac{n}{t} x(t) \qquad (1) $$

其中常数n是基于两位玩家能力差异确定的预期合理走法数,且x(0) = 0x(D) = B。注意0 ≤ t ≤ D0 ≤ x(t) ≤ B。上述方程表明,已解决信息的增长率x(t)x(t)成正比,与t成反比。求解方程(1)可得

$$ x(t) = B \left( \frac{t}{D} \right)^n \qquad (2) $$

我们假设已解决信息x(t)t ∈ [0, D]上二阶可导。二阶导数表示游戏进程中已解决不确定性的加速度,它是获取信息速率的差异。

$$ x''(t) = \frac{B}{D^n} n(n-1)t^{n-2} \qquad (3) $$

在残局最后几步结果仍不可预测的良好动态跷跷板游戏,对应于t = D时二阶导数的高值。这意味着,如果该值越大,游戏就越刺激、越迷人、越具娱乐性。我们认为这一特性是精炼游戏最重要的特征。

t = D(残局最后几步)时,方程(3)变为

$$ x''(D) = \frac{B}{D^n} n(n-1)D^{n-2} = \frac{B}{D^2} n(n-1) \qquad (4) $$

x(t) 的二阶导数中,n 是与玩家能力相关的常数,$\frac{B}{D^2}$ 或其平方根 $\frac{\sqrt{B}}{D}$ 是与游戏特性相关的值。

该度量应能反映游戏吸引力的某些方面。我们用此度量比较了一类棋盘游戏,尤其比较了各种国际象棋变体及其他特性[3]。该度量为$\sqrt{B/D}$,其中B表示平均可能走法数,D表示平均游戏长度。

大多数游戏的规则和细节在漫长历史中都会发生变化,当前游戏是原始游戏长期演化的结果。例如,历史上已知许多类似国际象棋的棋盘游戏变体,现代国际象棋就是这些变体的后代。

我们在此考虑国际象棋变体中精炼度指标的历史变化。假设某个新变体诞生于旧版本。如果旧变体不如新变体精炼,那么它就应被新变体取代,因为它吸引力较低[3]。

因此,游戏本身应在漫长历史中不断精炼,当前游戏是长期演化的结果。精炼度指标应随游戏历史延长而增加。因此,游戏历史可视为游戏精炼因子与复杂性的演化优化。以上所有内容共同构成了游戏精炼理论。

本文将游戏精炼理论应用于一类多人不完全信息游戏,特别是麻将领域。即使对于多人不完全信息游戏,所提出的度量同样是吸引力的关键因素。关键在于如何估计此类游戏的选项数和游戏长度。

第2节介绍麻将这一全球流行的多人不完全信息游戏及其基本规则。第3节讨论麻将决策空间的适当估计方法,并展示了用于分析对局记录以确定可能选项和游戏长度的计算机程序实现,以及所得结果。最后给出结论性评述。

2 麻将
麻将是一种古老的中国游戏,如今已在许多国家流行。其历史可追溯至约2000年前,但现代形式仅有约150年的历史[1]。与国际象棋、围棋等其他经典游戏不同,麻将没有统一的规则集。事实上存在无数种不同的规则变体。

图1. 麻将牌

2.1 基本规则
在麻将中,每位玩家初始发13张牌。每回合开始时摸一张额外的牌,以便玩家有机会组成四组三张牌(刻子或顺子)和一对。若能完成,即为和牌。整场麻将由16局组成:四局东风、四局南风、四局西风、四局北风。每局会指定庄家(某些规则中庄家在整套游戏中保持不变),并由庄家发牌。若庄家和牌,则额外加一局。

每位玩家基本上都要组成四组三同张(刻子)和一对。若摸到四同张(杠),可明杠并从牌墙尾部补一张牌。通常,玩家从牌墙尾部(非只有两张牌的一端)或中间摸牌,放入手中组成对子、三同张或四同张。随后打出一张不需要的牌,面朝上放在牌墙中间的区域,以便他人看到。若有人能吃牌(因为轮到自己,或能组成三同张、四同张或和牌的对子),则必须在下一张牌打出前完成。当中间的弃牌排满一行时,该行翻面,玩家需凭记忆记住已打出的牌。

若手中有对子且看到弃牌,可抢先吃牌组成三同张,但必须立即亮牌(所有牌面朝上)。若从牌墙摸牌组成三同张,可暗藏以便后续摸到第四张组成暗杠。若手中有三同张且摸到弃牌,必须立即亮牌并从牌墙尾部补牌。刚组成的四同张称为明杠,所有四张牌面朝上。

若摸到花牌或季牌,需立即打出并从牌墙尾部补一张牌。除了收集相同牌,还可收集同花色的顺子(如筒子3、4、5)。顺子不计分,但和牌时等同于三同张。若组成四组顺子和一对即可和牌,虽然得分不多,但其他人均不得分。

最终,你或其他玩家会凑够足够多的顺子或三/四同张加一对而和牌。此时,只有和牌者得分。

3 决策估计
在互联网麻将俱乐部“Tonpuso”(意为东西风)[7]中,有大量对局进行。对局记录存储在网站[8]上,共27,409场。我们开发了一个计算机程序,根据我们对麻将中可能选项和游戏长度的定义,对对局记录进行分析,以获得平均选项数和游戏长度的统计数据。

3.1 可能选项
原则上,麻将与国际象棋一样是玩家轮流行动的游戏。估计可能选项时的显著特点是,非当前行动的玩家也可能行动,即“抢先”行动。这意味着即使在其他玩家回合,你也可能进行碰、杠或吃等行动。在我们的计算机分析实现中,可能选项按以下方式计数:

  • 当轮到自己打牌时,选项数按手中牌的种类数估算。但若已宣告立直,则视为一个选项。
  • 当能在自己回合进行碰或杠时,计算进行碰或杠所需的选项数。
  • 当能在自己回合进行立直时,计算为实现立直而打牌所需的选项数。
  • 当能在自己回合进行吃时,计算进行吃所需的选项数。
  • 当能在其他玩家回合进行碰时,计为一个选项。

3.2 游戏长度
在计算机分析中,游戏长度按一局中进行的总回合数估算。它大致对应于打出的牌数加上碰、杠、吃和立直的次数。

3.3 结果与讨论
我们在表1中展示使用计算机程序分析的结果。在表2中重现了三种类似国际象棋游戏的分析结果[3]。

表1. 麻将的平均可能走法数和游戏长度

样本量 (n) 可能选项 (B) 游戏长度 (D) $\sqrt{B}/D$
27,409 10.36 49.36 0.078

表2. 三种类似国际象棋游戏的特性

B D $\sqrt{B}/D$
西方国际象棋 35 80 0.074
中国象棋 38 95 0.065
日本将棋 80 115 0.078

4 结论性评述
计算机分析结果证实,麻将的游戏娱乐冲击力与其他精炼游戏(如主要国际象棋变体)具有相似性。这表明多人不完全信息游戏同样遵循跷跷板游戏原则。若能获取麻将某些历史变体的严格规则,我们将能更详细地观察麻将的演化变化。不过,我们认为当前规则是原始游戏长期历史演化的结果[1]。

致谢
本研究部分受日本学术振兴会特别研究员资助(编号#2267和#2289)。

参考文献
1. R. Asami (1999). A Brief History of Mah Jong, The Study of Game’s History, No.11, pp.21-36.
2. H. Iida, T. Hashimoto, N. Sasaki, J.W.H.M. Uiterwijk and H.J.van den Herik (1999). A Computer Analysis: Towards a Classification of Games, Proceedings of International Colloquium of Board Games in Academia III, Firenze, Italy.
3. H. Iida, N.Takeshita and J.Yoshimura (2003). A Metric for Entertainment of Boardgames: its implication for evolution of chess variants, in R.Nakatsu and J.Hoshino, editors, IWEC2002 Proceedings, pages 65–72. Kluwer.
4. H. Iida and J.Yoshimura (2003). A Logistic Model of Game’s Refinement, Technical Report, Department of Computer Science, Shizuoka University, Hamamatsu.
5. N. Sasaki, N.Takeshita, T.Hashimoto and H.Iida (2001) Decision-Complexity Estimate in Evolutionary Changes of Games, Game Programming Workshop 2001, (IPSI Symposium Series Vol.2001 No.14), pages 140–147.
6. N. Sasaki and H.Iida (2002). A Study on Evolutionary Changes of Shogi, IPSI Journal, 43(10):2990–2997.
7. Tonpuso, http://mj.giganet.net/
8. Sunemon, http://www.geocities.co.jp/Bookend-Shikibu/2873/

段落精读

摘引-1:理论基础

1 引言
我们曾研究游戏中的决策空间特性[2][3][5][6]。决策空间是指无需预测的最小搜索空间,它为几乎所有棋盘游戏提供了通用度量标准。我们对决策空间中决策选项的动态变化进行了研究,并观察到这种动态是影响游戏娱乐性的关键因素。随后我们提出了游戏精炼度的度量标准[3]。

有趣的游戏始终保持不确定性,直到游戏结束。因此,可用选项的变化在整个游戏过程中保持恒定。此时,游戏是各种可能结果之间的“跷跷板游戏”。相反,在无趣的游戏中,一方玩家会迅速占据主导地位,可用选项会迅速减少。因此,精炼的游戏更倾向于处于跷跷板状态,我们将其称为跷跷板游戏原则

基于跷跷板游戏原则,我们提出了游戏不确定性的logistic模型[4]。从玩家的视角来看,游戏结果的信息是时间(步数)t的增函数。我们将游戏结果的信息定义为已解决不确定性的量x(t),满足

$$ x'(t) = \frac{n}{t} x(t) \qquad (1) $$

其中常数n是基于两位玩家能力差异确定的预期合理走法数,且x(0) = 0x(D) = B。注意0 ≤ t ≤ D0 ≤ x(t) ≤ B。上述方程表明,已解决信息的增长率x(t)x(t)成正比,与t成反比。求解方程(1)可得

$$ x(t) = B \left( \frac{t}{D} \right)^n \qquad (2) $$

我们假设已解决信息x(t)t ∈ [0, D]上二阶可导。二阶导数表示游戏进程中已解决不确定性的加速度,它是获取信息速率的差异。

$$ x''(t) = \frac{B}{D^n} n(n-1)t^{n-2} \qquad (3) $$

残局最后几步结果仍不可预测的良好动态跷跷板游戏,对应于t = D时二阶导数的高值。这意味着,如果该值越大,游戏就越刺激、越迷人、越具娱乐性。我们认为这一特性是精炼游戏最重要的特征。

在引言部分的开篇,作者引入了最早出现在2003年Iida和Yoshimura的内部技术报告《A Logistic Model of Game’s Refinement》中(本文引用[4])的一个核心结论:基于作者对于游戏的观察与经验,“好游戏必须遵守“跷跷板原则”(principle of seesaw games)——不确定性要一直维持到最后几步,不能过早失去悬念。”。

如果假设游戏结果是已知的,也就是从事后的上帝视角观察,游戏中信息获取的过程应当是线性的:

$$x(t) = B \cdot \frac{t}{D}$$

但许多游戏在进行中会存在相当的不确定性,直到终局才揭晓结果,因此真实的信息进度往往并不是线性,而是前期慢、后期信息获取加速的非线性形式(类比人口增长/病毒传播的logistic模型——这是Iida团队的说法,当然笔者觉得不太准确,其更趋向于指数型)。为了在数学上精确描述前期慢、后期加速的函数特征,且符合跷跷板原则,他们假设信息增长率满足微分方程(1):$$x'(t) = \frac{n}{t} x(t)$$

其中:

与$ x(t) $成正比,也即 “知道得越多,越容易继续知道”(知识累积效应);

与$ t $成反比,也即 “越到游戏后期,剩余悬念越珍贵,揭晓速度越敏感”。

  • $ x(t) $:已解决的不确定性(玩家已经知道的信息量)。

  • $ n “ ” ( n $较大,因为双方都能看懂很多招)。

  • $ B $:平均分支因子(即决策空间大小,平均每一步有多少合理选项)。

  • $ D $:平均游戏长度(总步数)。

这就是引言部分公式(1)的来源。

便签-1

如果读者读过笔者关于《游戏学导论》的课程笔记(详见博客主页),会发现其中对Seesaw Game一词的定义指向“零和博弈”。而这里的Principle of Seesaw Games则被译为“跷跷板原则(拉锯原则)”。笔者认为有必要在此进行辨析:

先看剑桥词典对Seesaw Game的释义:A situation in which advantage changes between two sides many times(优势在双方之间多次转换的局面)。 其本意附带了“结果未知、胜负难料” 的语境,这符合Iida团队得到的结论与对Principle of Seesaw Game的定义,但是Seesaw Game的核心其实不在于胜负未知的悬念,而在于过程此消彼长、优势反复转换的过程。

当然,课程笔记(全都忠实转自老师的课件)将Seesaw Game解释为零和博弈也有其道理(强行找补ing)。在考虑对抗性非合作竞技游戏时,这类游戏往往天然具有零和博弈的特征,只是Seesaw的拉锯过程让“零和”表现得更为显著,加之Seesaw Game和Zero-Sum Game在很多视角有所重合,因此不严谨地称Seesaw Game为零和博弈(在游戏领域)的代表也是情有可原的。

借用公式(1),我们很容易得到公式(2),并进一步求二阶导得到公式(3)——公式(3)是对 $ x(t) $ 的二阶求导结果。我们说 $ x(t) $ 代表玩家已知的信息量,那么其一阶导数显然是其获取信息的速度,而二阶导数就是其信息获取的加速度——Iida团队的一个重要观点就是,这一加速度(简化后也就是GR值)是显著影响玩家心理兴奋度的——因此当游戏尾期加速度处于某种黄金区间时,玩家可以得到极好的刺激体验。Iida团队认为,关于一款游戏的结果的悬念应当保持到游戏末尾,并再尾期以变速的揭晓来让玩家感受到一种类似于“心理自由落体”的状态。我们可以据此得到一个量化指标来反映游戏的精炼程度,也就是 $\frac{\sqrt{B}}{D}$ ,来评定一款游戏是否足够精炼。

说到这里,读者或许会疑惑:这篇论文的重点到底在哪里?为什么牵扯到这么多旁支的概念延伸?其中哪个是这篇论文的核心观点?笔者在此进行一些关键概念的梳理:

  1. 游戏洗练度理论并不是在An Application of Game-Refinement Theory to Mah Jong中提出的,而是Iida团队在2002-2003年针对国际象棋、围棋、将棋等双人完全信息棋类的研究中完成的;2004 年的麻将论文,是该理论首次从双人完全信息博弈,扩展到多人不完全信息博弈的关键应用研究,是理论的重要拓展。笔者相当于把其前置研究的结果也引入了本篇博客一并介绍,因此大量涉及到相关内容,或会引起读者疑惑,特此解释。在2002-2003年的研究中,GR理论的核心内容——「游戏结果的不确定性可持续维持到终局的游戏,是设计精炼、可玩性优秀的游戏」,连带其定性定义、数学量化模型、实证验证与价值绑定,已经被 Iida 团队完成并实现闭环。

  2. Iida团队在An Application of Game-Refinement Theory to Mah Jong中的核心突破是验证了其理论模型对于多人、非零和、不完全信息、有强随机因素的博弈依旧有效(计算出其代表——麻将的GR值也落在黄金区间 0.07 ~ 0.08 内),证明了无论游戏是纯策略还是有随机因素、是双人还是多人、是完全信息还是不完全信息,只要符合「结果不确定性持续维持到终局」的标准,就是设计精炼的游戏。

  3. 为什么尾期加速度($ x’‘(D) $,也就是GR值)在一定范围内影响了玩家的游戏感受,或者说,决定了玩家的刺激程度?这一问题在本篇论文中没有得到回答。作者只是给出了“预期(We expect)”,但没有严密的逻辑证明。在公式(3)下方,作者写道:This implies that game is more exciting, fascinating and entertaining if this value is larger. We expect that this property is the most important characteristics of a well-refined game. 在随后十年的研究里,为了补全这一逻辑,Iida团队提出了心理重力理论,需要注意:我们讨论的“加速度”特指游戏尾段(残局 $ t = D $)的 $ x’’(D) $,这是整个Game-Refinement Theory判断刺激度和精炼度的核心指标。

  4. 上文频繁出现的“跷跷板原理”(游戏的不确定性保持到终局)和游戏的尾期加速度 $ x’’(D) $ 是什么关系?简要来说,两者是同一个硬币不可分割的两面。一款足够“精炼”的游戏的根本特征是其不确定性可维持到终局;而其量化判断的依据则是其游戏尾期的变化加速度(GR)是否落在GR黄金区间内。按照其数学模型,只有当信息揭晓曲线在 $ t = D $ (残局 / 游戏尾期)产生足够大的加速度时,不确定性才真正被“可持续维持到终局”(平稳、缓慢下降的不确定性留给游戏后期的悬疑太少,玩家的认知往往会倒向“大局已定”,另一方面,过于激进地在尾期消除不确定性将导致玩家失去对游戏的掌控,感到混乱 / 挫败),而不至于中途就崩盘或太平淡

  5. “精炼度理论”中的“精炼”,并不是形容一款游戏的玩法逻辑与游戏表现等显性要素,而是描述一款游戏在历史演变中逐渐迭代玩法,自然达成复杂性与不确定性的平衡的过程。一个最为经典的案例是日本将棋的发展。如果读者了解过日本将棋的早期版本,将会惊叹于其令人发指的复杂度,但随着其逐步发展与迭代,将棋在不断增删下形成了现而今相对稳定的版本,也就是平衡了复杂度与不确定性的现代日本将棋。这一过程验证了“跷跷板原理”指向GR值黄金区间的科学性——在“精炼”的过程中,一款游戏经过无数玩家的游玩与修改,其复杂性与不确定性的平衡自发地向某一区间聚拢,这体现出了GR理论背后的心理学效应是经得起推敲的。

摘引-2:实验方法

3 决策估计
在互联网麻将俱乐部“Tonpuso”(意为东西风)[7]中,有大量对局进行。对局记录存储在网站[8]上,共27,409场。我们开发了一个计算机程序,根据我们对麻将中可能选项和游戏长度的定义,对对局记录进行分析,以获得平均选项数和游戏长度的统计数据。

3.1 可能选项
原则上,麻将与国际象棋一样是玩家轮流行动的游戏。估计可能选项时的显著特点是,非当前行动的玩家也可能行动,即“抢先”行动。这意味着即使在其他玩家回合,你也可能进行碰、杠或吃等行动。在我们的计算机分析实现中,可能选项按以下方式计数:

  • 当轮到自己打牌时,选项数按手中牌的种类数估算。但若已宣告立直,则视为一个选项。
  • 当能在自己回合进行碰或杠时,计算进行碰或杠所需的选项数。
  • 当能在自己回合进行立直时,计算为实现立直而打牌所需的选项数。
  • 当能在自己回合进行吃时,计算进行吃所需的选项数。
  • 当能在其他玩家回合进行碰时,计为一个选项。

3.2 游戏长度
在计算机分析中,游戏长度按一局中进行的总回合数估算。它大致对应于打出的牌数加上碰、杠、吃和立直的次数。

3.3 结果与讨论
我们在表1中展示使用计算机程序分析的结果。在表2中重现了三种类似国际象棋游戏的分析结果[3]。

表1. 麻将的平均可能走法数和游戏长度

样本量 (n) 可能选项 (B) 游戏长度 (D) $\sqrt{B}/D$
27,409 10.36 49.36 0.078

表2. 三种类似国际象棋游戏的特性

B D $\sqrt{B}/D$
西方国际象棋 35 80 0.074
中国象棋 38 95 0.065
日本将棋 80 115 0.078

4 结论性评述
计算机分析结果证实,麻将的游戏娱乐冲击力与其他精炼游戏(如主要国际象棋变体)具有相似性。这表明多人不完全信息游戏同样遵循跷跷板游戏原则。若能获取麻将某些历史变体的严格规则,我们将能更详细地观察麻将的演化变化。不过,我们认为当前规则是原始游戏长期历史演化的结果[1]。

如前所言,An Application of Game-Refinement Theory to Mah Jong的核心实验目标是,将游戏精炼理论从传统棋盘游戏(完全信息、两人对战)扩展到“多人不完全信息游戏”领域,具体来说,Iida团队希望以麻将为典型案例,验证该理论的普适性。

在更早的研究中,Iida团队已经完成了GR理论的奠基工作,在国际象棋等双人完全信息动态博弈模型里证明了“跷跷板理论”的成立,并整理出 $GR = \frac{\sqrt{B}}{D}$ 的量化指标。当我们将目光放到对多人不完全信息动态博弈的代表——麻将上,首要工作就是找出合适的方法来定义并统计麻将游戏的 $ B D $值,从而求解其GR值。

工具上,Iida团队选择了线上麻将赛事纪录作为数据来源,并使用程序工具进行统计,这里摘引部分足够详实,笔者不做过多着墨。

一大挑战是定义决策空间 $ B $ ,考虑到麻将的动态博弈过程涉及多个玩家,还涵盖部分自己回合外的行动,Iida团队将决策空间拆分为五种具体的情形,并对五个子决策空间的选项数分别计算。对于局回合数 $ D $,则直接将任何可以构成决策时刻的行为都统计为 1 回合。以此进行统计,结果如摘引所示,GR值精确地落在了0.07 ~ 0.08的黄金区间。

一些思考

早期的GR理论相关文献其研究对象一般聚焦于经典桌游(当然,据说饭田老师后面去研究GRT在UNO、DOTA2等桌游或电子游戏的应用了,不过我们稍后再谈),这一方面是因为其较为简单的机制易于进行 $ B $ 、$ D $ 等参数的定义与计数过程;另一方面是其历史演变脉络相对清晰,其自发向GR黄金区间靠拢的过程进一步展示了GR理论的普适性;再一方面,这类传统桌游的博弈模型往往较为精简、凝练、具有代表性,可以作为将理论推广到不同博弈模型的实例。但是,这并不意味着GR理论对于电子游戏或其他载体各异、娱乐性更强、机制更复杂的游戏形式没有指导价值。

笔者一直认为,作为游戏策划进行理论学习时,要善于将学院派的科学理论知识转移为可以指导项目产出的方法论。对于电子游戏,GR理论的核心阐释,也就是所谓“跷跷板理论”,是可以被定性地应用在电子游戏的设计中的。

纵观市面上任意一款广为人所认可的电子游戏,尤其是强调博弈的作品,其都具有“将游戏的悬念保持到终局”的能力。例如:在集换制卡牌网游《KARDS》(双人不完全信息动态博弈)中,许多阵营的某些卡牌可以强行逆转局势(譬如阿尔卑斯要塞),或是某些卡组搭配本身就需要到后期 / 特定节点 / 抽到特定卡牌才可获得优势(譬如日本炸槽),胜负悬念因此得以贯穿一局游戏的始终。另一个例子是CS(多人不完全信息即时动态博弈,依旧是CS作为例子——这类经过时代考验的经典往往符合任何能找到的设计学原理),CS的战斗机制就决定了其单局结果是充满悬念的——一对多的残局也可以被手感火热的玩家Carry下来,而由十三局(至少)组成的一场完整的游戏也可能因为换队 / 战术的调整(或者只是单纯的 参数 手感上来了)而逆风翻盘,在游戏中,尽管玩家会意识到局势有所偏向,但没有谁可以确定地说一场游戏的结果会如何。

当然,上面的内容只是对GR理论的定性应用,而按照定量方式,基于 $GR = \frac{\sqrt{B}}{D}$ 公式设计一套动态博弈模型,或是对已有系统进行针对性优化与改良,虽然实践难度更大,也不是不可能的。例如。饭田教授曾在2015年针对育碧的《UNO!》做出基于GRT的落地优化指导,得出局内最优玩家数为4 ~ 6人的结论,用精确的数据计算代替了古法体感调优;此外,饭田教授还曾在2016 ~ 2017年对Valve旗下的DOTA2进行GRT设计下的版本迭代指导。Iida团队定义了 MOBA 游戏的标准化 GRT 参数:$ B = $ 单阶段玩家的有效决策选项数(技能释放、装备购买、地图走位、团战决策、资源分配等),$ D = $ 单局平均总决策次数 / 对局时长,发现当版本出现垄断的占优策略均衡(梦回博弈论),导致有效决策选项 $ B $ 值暴跌、GR 值偏离黄金区间时,玩家的对局满意度以及天梯活跃度会显著下降,并据此给出一系列维护单局 $ B $ 值维持在核心区间的平衡调整。

至于设计者应该如何对GR理论进行定量的应用,笔者的能力与经验不足以给出值得信服的答案,但是笔者给出一些假设,并提出一些问题,也欢迎读者进行思考与讨论。

  • 假设1: GR理论中 $ B $ 、$ D $ 的定义并没有一个对于任意游戏有效的标准——不同的博弈模型之间,或者同一博弈模型、不同核心机制之间,其GR相关参数的定义与修正都不尽相同。因此对于不同的游戏,设计者需要结合具体设计给出其 $ B $ 、$ D $ 的定义,从而计算出其有效GR值,并以此为依据对游戏玩法、系统或数据设计做出优化。

  • 假设2: 另一方面,笔者质疑GR理论对于任意游戏类型的适用性——当一款游戏不以博弈为重心(比如《星露谷物语》),我们几乎无法找到其对应的 $ B $ 、$ D $ 值,这意味着GRT或许对于某些特定种类的游戏是失效的,或者说,GRT或许只对特定类型的游戏有效。笔者假设,GRT理论的适用边界是 “具有至少一个明确行为主体的(笔者的废话,没有游戏是没有主体的,但是为了严谨性还是加上吧),主体意图获胜(有明确胜负划分与对应条件的,且主体行为围绕明确的对局终点与胜负判定规则展开)的、具有一定博弈性的 游戏”,这样,我们就剔除了剧情向、沙盒类、模拟经营等等类型的游戏。当然,这一标准未必准确,读者若有更好的思考,欢迎邮箱交流。

  • 问题1: 决策空间 $ B $ 的定义是否考虑了决策的合理性权重?Iida团队给出的表格中,象棋的回合 $ B $ 均值已经接近四十,意味着这一取值的定义囊括了一个回合玩家可以进行的任意行动。但是这样的逻辑存在潜在的漏洞,例如,以同样的逻辑类比到五子棋,黑手已经连了三颗子,白手选择在棋盘的边缘(离黑子十万八千里)落子,这显然不是一个合理的决策——如果这样的行为也可以被认为是 $ B $ 集的一个元素,则不妨假设把棋盘扩大到无限,会发现 $ B $ 的值也就趋于无限,但是同样是五子棋,两个正常的玩家对弈几乎都是围绕着彼此的棋子进行进攻防御,其他的无限远离对峙焦点的区域几乎不会被玩家考虑。笔者认为,对于部分决策的合理性,有必要引入新的参数来对其进行修正。但笔者毕竟不是研究人员,这里只是提出自己的 狗叫 疑问,也欢迎各位读者为笔者解惑。

    • 经过后续查证,笔者确实狗叫了,其实Iida团队对于 $ B $ 的定义是每回合的平均合理走法数(average number of reasonable moves per turn)。不过,学界对所谓“合理”的定义也多有质疑,因为原团队没有给出一个具体的标准来定义所谓“合理”,同样是国际象棋,高手和新人眼中,合法走法数虽然相同,但合理走法数却有天差地别,而这一差异本来应该在 $ n $ 值中体现,但就结果来看,“玩家能力与认知对博弈的影响”显然溢出了 $ n $ 的承载边界。更关键的是,原团队在后续将 GR 理论拓展到麻将、MOBA 等品类时,为了适配复杂的游戏机制,反而进一步放宽了 “合理走法” 的统计口径,让这个定义漏洞被持续放大。
      • 当然,话又说回来了。做研究需要精准,做游戏策划未必需要——策划行业从诞生以来就习惯于古法手搓与优化(所谓“基于体感的迭代与优化”),一些定义上的不严谨,对于需要将抽象知识转化为落地项目的策划行业来说,反而是灵活裁定的空间——Iida团队没有给出 $ B D $ 严格定义也无妨,毕竟策划的一个关键能力就是具体情况具体分析。
        • 我去,md语法真的允许缩进四次吗

笔者精力有限,能力也不足以对本文献进行更深入的研究。然而,GR理论的核心原理值得再进一步深化阐释。未来若有机会,笔者或将跟随Iida团队的研究思路,与读者一起浅读驱动GR理论的心理学原理——心理重力理论。此外,笔者在之后的设计实践中也将尝试使用GR理论来指导系统设计,若有机会,也将在博客进行分享。