第二节 博弈论的基本概念
一、基本定义
“博弈论”译自英文“Game Theory”。“Game”的基本意义是游戏,因此“Game Theory”直译应该是“游戏理论”。博弈论关注的是意识到其行动将相互影响的决策者们的行为。其特点在于参与者的效用不仅与他自己的行为有关,还依赖其他所有参与者的行为。正是由于参与者们知道他们的决策之间存在相互影响,才引出了博弈论中的微妙问题。通俗地说,博弈论是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题,也即一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。
从上述定义中可以看出,一个博弈中必不可少的要素包括:参与人(players)、行动(actions)、信息(information)、战略(strategies)、支付(payoffs)、结果(outcome)和均衡(equilibrium)。其中参与人、战略和支付是描述一个博弈所需要的框架性的要素,而行动与信息则是建筑材料。参与人、行动和结果合起来称为博弈的规则(rules of the game)。博弈分析的目的即在于运用博弈的规则来确定均衡。
参与人是指作决策的个体。每个参与人的目标都是通过选择行动来最大化自身的效用。对我们来说,只要在一个博弈中统一决策、统一行动、统一承担结果,不管一个组织有多大,哪怕是一个国家,甚至是由许多国家组成的联合国,都可以作为博弈中的一个参与方。并且,在博弈的规则确定之后,各参与方都是平等的,大家都必须严格按照规则办事。这里,重要的是,每个参与人必须有可供选择的行动和一个很好的偏好函数。那些不作决策的被动主体只当做环境参数来处理。在冲突法的博弈中,有多个参与人,包括自然人、法人和国家,甚至有时国家组织也可能成为博弈的参与人。对于自然人、法人和国家来说,他们在不同的涉外民商事活动阶段有着不同的决策,目的是最大化自己的利益水平。为了分析的方便,我们一般假设在一个国际民商事活动只有两个参与人。有时,模型可以明确地引入虚拟参与人的个体,它们以一种纯机械般的方式采取行动。这个虚拟参与人一般称做自然。自然是指决定外生的随机变量的概率分布的机制。
行动是参与人在博弈中的某个时点的决策变量,是参与人在进行决策时可以选择的方法、做法或经济活动的水平、量值等。在不同的博弈中可供参与人选择的行动的数量很不相同,在同一个博弈中,不同参与人的可选的行动的内容和数量也常不同,有时只有有限的几种,甚至只有一种,而有时又可能有许多种,甚至无限多种可选行动。例如在冲突法关于外国法院判决的承认与执行的制度中,一个国家对于外国法院的判决有两种行动,一种是给予承认与执行,另一种是拒绝承认与执行。参与人的行动集是其可以采取全部行动的结合,一个行动组合是一个由博弈中的n个参与人每人选取一个行动所组成的有序集。在上面的外国法院的判决承认与执行中,如果A国选择承认,B国也选择承认,那么,(承认,承认)就是一个行动组合。在这个博弈中有四个行动组合,其他三个分别为(承认,拒绝)、(拒绝,承认)、(拒绝,拒绝)。除了设定对于参与人来说何种行动是可行的之外,我们还必须设定何时行动是可行的,即行动的顺序。例如在国际民商事争议诉讼解决中,首先由原告选择有管辖权的法院,然后由被告选择是应诉还是不应诉,是选择对管辖权进行抗辩还是选择参与诉讼。
信息是参与人有关博弈的知识,特别是关于自然的选择、其他参与人的特征和行动的知识。信息集是参与人在特定时点对于不同变量的取值的了解。在一个博弈中,博弈双方既知道自己的收益也知道对方的收益,双方还知道自己可供选择的战略以及对方可供选择的战略。唯一不知道的事情是对方具体选择了哪一种战略,这就是一个具有完全但不完美信息的博弈。如果一个参与人不知道对方除战略选择以外的某些信息,比如对方的收益状况,则这个博弈是不完全信息博弈。还有一种可能的情况是两个参与人都了解博弈的结构并且一方参与人能观测到另一方参与人的战略选择结果。在这种情况下,我们就得到一个完全且完美信息博弈。所谓完美信息(perfect information)是指一个参与人对其他参与人的行动有准确了解的情况,即每一个信息集只包含一个值;完全信息(complete information)是指自然不首先行动或自然的初始行动被所有参与人准确观察到的情况,即没有事前的不确定性。
战略是一个关于行动程序的完备集合,它告诉参与人在每一种可预见的情况下选择什么行动,即使参与人并不预期那种情况真的会出现。战略告诉参与人如何对其他参与人的行动作出反应,因而战略是参与人的相机行动方案。例如冲突法中的互惠原则就是一种战略,具体到外国法院的承认与执行中,如果对方承认和执行本国的判决,那么本国也将承认和执行该国的判决;如果对方拒绝,那么本国也将拒绝。承认和拒绝是行动,而战略规定了什么情况下选择承认,什么情况下选择拒绝。
支付是指在一个特定的战略组合下参与人得到的确定效用水平,或者是指参与人得到的期望效用水平。支付是博弈参与人真正关心的东西。
结果是指在博弈结束之后,建模者从行动、支付和其他变量的取值中所挑选出来的他所感兴趣的要素的集合。
均衡是所有参与人的最优战略的组合。
二、博弈的分类
由于博弈论研究的问题多种多样,因此博弈模型相互之间的差别可能会很大。在对冲突法进行博弈分析的时候,我们根据自己的需要选取某一种模型,这就必须对于博弈的种类有所了解。根据博弈结构的不同方面,可以将博弈分为不同的种类。
根据博弈参与人的数量可分为单人博弈、两人博弈和多人博弈。单人博弈是只有一个参与人的博弈。例如我们玩的走迷宫游戏。单人博弈实质是个体最优化问题。对这样的博弈来讲,博弈参与人拥有的信息越多,即对决策的环境条件了解得越多,决策的准确性就越高,得益自然也就越好。在冲突法的博弈分析中,单人博弈我们运用比较少。两人博弈就是两个各自独立决策,但策略和利益存在相互依存关系的博弈方的决策问题。两人博弈是博弈问题中最常见,也是研究得最多的博弈类型。我们对于冲突法的博弈分析中,多运用两人博弈来进行分析。国际民商事诉讼中的原告和被告,外国法院的判决的承认和执行中的申请国和被申请国,都可以成为博弈的两方参与人。即使在国际社会中存在许多国家,我们在运用博弈分析时,有时会假设国际社会是由两个国家组成,这样是为了分析的简化,不影响我们的分析结果。有三个或三个以上博弈参与人参加的博弈称为多人博弈。由于多人博弈有比两人博弈更多的追求自身利益的独立决策者,因此多人博弈中的战略和利益的相互依存关系也更为复杂,但它的本质与两人博弈是相似的,我们可以运用两人博弈的思想和方法来进行研究。
根据博弈中博弈参与人的战略的数量,博弈可分为有限博弈和无限博弈。一般地,如果一个博弈中每个博弈参与人的战略数都是有限的,则为有限博弈;如果一个博弈中至少有某些博弈参与人的战略是无限多个,则称为无限博弈。在有限博弈中,常见的是数种战略,最多是数十种战略的博弈,而且两三种可选战略的博弈更是我们普遍遇到的、研究较多的博弈类型。
根据博弈参与人的支付,博弈可以分为零和博弈、常和博弈和变和博弈。零和博弈中,所有参与人的效用之和总是零。一方的得益必定是另一方的损失,其利益始终是对立的,偏好通常是不一致的。因而零和博弈的参与人之间无法和平共处。国际民事诉讼就是零和博弈,原告胜诉意味着被告败诉,原告的得益就是被告的损失。常和博弈是博弈参与人的得益为一个不变的常量,是零和博弈的扩展,是零和博弈的特例。也就是说,常和博弈经过适当的标准化之后等同于零和博弈。我们常说的固定财产的分割就是常和博弈。变和博弈是零和博弈和常和博弈以外的所有博弈,其在不同的战略组合下各博弈参与人的利益之和往往是不同的。达到一个效用总和相对更高的结果是符合参与人的共同利益的,但在效用总和所占份额的问题上,参与人的利益存在矛盾。这也意味着在博弈参与人之间存在相互配合,争取较大社会总利益和个人利益的可能性。因此,这种博弈的结果可以从社会总得益的角度分为有效率的或无效率的和低效率的。有效率的就是达到帕累托最优。所谓帕累托最优的资源配置是指不存在其他的配置方式使得参与人能够得到改善而且没有人受到损害。
根据博弈过程方面的差异,博弈可以分为静态博弈、动态博弈和重复博弈。静态博弈是建立在参与人同时作出行动或者基本上等价于参与人在看到其他人的行动之前承诺采取某种特定的行动的假定基础之上的。也就是说,博弈参与人是同时决策的,或者虽然各博弈参与人的决策的时间不一定真正一致,但在他们作出选择之前不允许知道其他参与人的策略,在知道其他参与人的策略之后则不能改变自己的选择,从而各参与人的选择可以看做是同时作出的。典型的例子就是我们玩的锤子剪刀布游戏。动态博弈是指博弈参与人的选择和行动不仅有先后次序,而且后选择、后行动的博弈方在自己的选择和行动之前,可以看到其他参与人的选择、行动,甚至还包括自己的选择和行动。典型的例子就是下棋游戏。重复博弈实际上就是同一个博弈反复进行所构成的博弈过程。例如体育中的多局比赛。重复一定次数后肯定要结束的博弈称为有限重复博弈,不断重复下去的博弈称为无限重复博弈。
根据博弈信息,博弈可以分为完全信息博弈和不完全信息博弈以及动态博弈中完美信息博弈和不完美信息博弈。一般地,我们将各博弈参与人都完全了解所有博弈参与人的各种情况得益的博弈称为完全信息博弈,而将至少部分博弈参与人不完全了解其他博弈参与人得益情况的博弈称为不完全信息博弈。在动态博弈中,博弈参与人对博弈的进程完全了解,即动态博弈所有参与人都有完美信息,则称为完美信息的动态博弈;如果具有不完美信息的博弈参与人,即不完全了解此前全部博弈进程的,称为不完美信息的动态博弈。
根据个体理性和集体理性,博弈可以将博弈分为合作博弈和非合作博弈。一般情况下,集体利益最大化本身不是博弈参与人的根本目标,人们在博弈中的行为准则是个体理性而不是集体理性。但如果我们允许博弈中存在有约束力的协议,使得博弈参与人采取符合集体利益最大化而不符合个体利益最大化的行为时,能够得到有效的补偿,那么个体利益和集体利益之间的矛盾就可以克服,从而使博弈参与人按照集体理性决策和行为成为可能。一般地,我们将允许存在有约束力协议的博弈称为合作博弈。与此相对,不允许存在有约束力协议的博弈则称为非合作博弈。
上述各种分类相互之间都是交叉的,并不存在严格的层次关系。当然也可以从顺序和信息角度结合起来划分,将博弈分为四种类型:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全信息动态博弈。
三、囚徒困境
囚徒困境是1950年图克(Tucker)提出的,其提出部分地奠定了非合作博弈论的理论基础,并且它可以作为实际生活中许多现象的一个抽象概括。囚徒困境是完全信息静态博弈的一个特例。在冲突法的博弈分析中,我们常常会运用到囚徒困境的模型,所以在这里有必要进行说明。
囚徒困境博弈的基本模型是这样的:在一次严重的纵火案发生后,警察在现场抓住两个犯罪嫌疑人,事实上正是他们为报复而一起放火烧了这个房屋,但是警方没有足够的证据指证他们所犯的罪行。如果其中至少有一人供认犯罪,罪名就能成立。为了得到所需的口供,警方把他们分别关在不同的屋子里审讯,以防止他们串供或结成攻守同盟,并给他们同样的选择机会:如果他们两人都拒不认罪,则他们会以较轻的罪行各判1年刑;如果一个抵赖而另一个坦白并愿意作证,那么抵赖者将判重刑8年徒刑,而坦白者将得到宽大释放,免予刑事处罚;如果两人同时坦白认罪,则他们将被各判5年刑。
如果分别用-1、-5、-8表示犯罪嫌疑人被判刑1年、5年和8年的支付(得益),用0表示犯罪嫌疑人被立即释放的支付(得益)。这样我们可以用战略形式(标准形式)来表示他们的支付(得益)。
上表中囚徒A、囚徒B代表本博弈的两个参与人,即两个犯罪嫌疑人。他们都有两种可选择的战略:坦白或抵赖。因为这两个犯罪嫌疑人被隔离开,其中任何一人在选择战略时都不可能知道另一个人的选择,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看做是同时作出的。表格中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中左下方的数字是囚徒A的支付,右上方的数字为囚徒B的支付。
该博弈中,两个犯罪嫌疑人各自都有两种可选择的战略,因此该博弈共有四种可能的结果。在这些结果中,每个博弈参与人可能取得的最好支付是0,最坏支付是-8。我们在前言中说明了人的理性假设,两个博弈参与人的目标都是要实现自身利益的最大化。在这个博弈中,可以肯定的是博弈双方参与人各自的利益不仅取决于他们自己的战略选择,而且也取决于对方的战略选择。因此每个博弈参与人选择自己的战略时,即使无法知道对方的实际选择,也不能忽视对方的选择对自己支付的影响,其必须在考虑对方两种可能的选择,而且不同的选择对自己的利益影响不同的情况下,作出自己最佳战略选择。
在这个例子里,纳什均衡就是(坦白,坦白)。例如对于囚徒A来说,囚徒B有两种可能的选择,假设囚徒B选择不坦白,那么囚徒A选择坦白的话就被立即释放,选择不坦白的话就被判1年刑,所以坦白比不坦白好;如果囚徒B选择坦白,那么囚徒A选择坦白的话就被判5年刑,选择不坦白的话就被判8年刑,判5年刑总比判8年好,所以坦白还是比不坦白好。这样坦白就是囚徒A的占优战略。反之,因为囚徒B与囚徒A的情况完全相同,因此囚徒B的战略思路和选择与囚徒A完全相同,囚徒B在这个博弈唯一合理的选择也是坦白。结果囚徒A和囚徒B都选择了坦白,各判5年刑。(坦白,坦白)不仅是一个纳什均衡,而且还是一个占优战略均衡,就是说,不论对方作任何选择,个人的最优选择是坦白。
在这个博弈中,无论对这两个囚徒的总体来讲,还是对他们各自来讲,最佳结果都不是同时坦白各得5年徒刑,因为两人都不坦白各得1年徒刑,显然比都坦白好得多。但这个帕累托改进办不到,因为他不满足个人理性要求,(抵赖,抵赖)不是纳什均衡。由于这种结果具有必然性,很难摆脱,所以这个博弈被称为囚徒困境。囚徒困境反映了一个很深刻的问题,这就是个体理性与集体理性的矛盾。两个博弈人从各自的最大利益出发选择行为或战略,结果是既没有实现两人总体的最大利益,也没有真正实现自身的个体最大利益。从个体利益出发的行为往往不能实现团体的最大利益,同时从个体利益出发的行为最终也不一定能真正实现个体的最大利益,甚至会得到相当差的结果。
囚徒困境博弈的重要意义,在于类似的情况在社会经济活动中具有很大的普遍性,在冲突法诸领域中,都存在类似囚徒困境的现象,这些现象我们将在以下章节中具体展开说明。