高分求一个完全信息静态博弈模型的案例，并用博弈理论的基本概念分析这个案例。（复制粘贴勿入）

Posted 2023-04-02

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了高分求一个完全信息静态博弈模型的案例，并用博弈理论的基本概念分析这个案例。（复制粘贴勿入）相关的知识，希望对你有一定的参考价值。

完全信息静态博弈2007-06-02 11:42 一、完全信息静态博弈：纳什均衡
纳什均衡是著名博弈论专家纳什（John Nash）对博弈论的重要贡献之一。纳什在19

世纪50年1951年的两篇重要论文中，在一般意义上给定了非合作博弈及其均衡解，并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。

（一）占优策略均衡

占优策略（dominant strategies）是指这样一种特殊的博弈：某一参与人的策略可能并不依赖于其他参与人的策略选择。换句话说，无论其他参与人如何选择自己的策略，该参与人的最优策略选择是惟一的。

以博弈论中最为著名的囚犯困境（prisoner’s dilemma）为例，说明占优策略均衡原理。两个合伙作案的犯罪嫌疑人被警方抓获。警方怀疑他们作案，但警方手中并没有掌握他们作案的确凿证据。因而，对两个犯罪嫌疑人犯罪事实的认定及相应的量刑完全取决于他们自己的供认。假定警方对两名犯罪嫌疑人实行隔离关押，隔离审讯，每个犯罪嫌疑人都无法观察到对方的选择。同时，警方明确地分别告知两名犯罪嫌疑人，他们面临着以下几种后果可以用表10－2表示。该表又称为“收益矩阵或得益矩阵”。从表10－2中可以看出，每个犯罪嫌疑人都有两种可供选择的策略：供认或不供认。而且，每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择，

表10－2 囚犯困境的收益矩阵

囚犯B

供认不供认

囚犯A 供认

不供认
－8，－8 －1，－10

－10，－1 －2，－2

在博弈中，如果所有参与人都有占优策略存在，可以证明，博弈将在所有参与人的占优策略的基础上达到均衡，这种均衡称为占优策略均衡。上面提到的囚犯困境中的“A供认，B供认”就是占优策略均衡解。

囚犯困境的问题是博弈论中的一个基本的、典型的事例，类似问题在许多情况下都会出现，如寡头竞争、军备竞赛、团队生产中的劳动供给、公共产品的供给等等。同时，囚犯困境反映了一个深刻问题，这就是个人理性与团体理性的冲突。例如，微观经济学的基本观点之一，是通过市场机制这只“看不见的手”，在人人追求自身利益最大化的基础上可以达到全社会资源的最优配置。囚犯困境对此提出了新的挑战。

（二）重复剔除的占优策略均衡

在每个参与人都有占优策略的情况下，占优策略均衡是非常合乎逻辑的。但遗憾的是在绝大多数博弈中，占优策略均衡是不存在的。不过，在有些博弈中，我们仍然可以根据占优的逻辑找出均衡。

智猪博弈（boxed pigs）是博弈论中的另一个著名的例子。假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按钮，控制猪食的供应。按一下按钮，将有8个单位的猪食进入猪食槽，供两头猪食用。两头猪场面临选择的策略有两个：自己去按按钮或等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择，它必须付出如下代价：第一，它需要收益相当于两个单位的成本；第二，由于猪食槽远离猪食，它将比另一头猪后到猪食槽，从而减少吃食的数量。假定：若大猪先到（小猪按按钮），大猪将吃到7个单位的猪食，小猪只能吃到1个单位的猪食；若小猪先到（大猪场按按钮），大猪和小猪各吃到4个单位的猪食；若两头猪同时到（两头猪都选择等待，实际上两头猪都吃不到猪食），大猪吃到5个单位的猪食，小猪吃到3个单位的猪食。

智猪博弈的收益矩阵如表10－3所示。表中的数字表示不同选择下每头猪所能吃到的猪食数量减去按按钮的成本之后的净收益水平。

表10－3 智猪博弈的收益矩阵

小猪

按按钮等待

大猪按按钮

等待
3，1 2，4

7，－1 0，0

从表9－3中不难看出，在这个博弈中，不论大猪场选择什么策略，小猪的占优策略均为等待。而对大猪来说，它的选择就不是如此简单了。大猪场的最优策略必须依赖于小猪的选择。如果小猪选择等待，大猪的最优策略是按按钮，这是，大猪能得到个单位的净收益（吃到4个单位猪食减去2个单位的按按钮成本），否则，大猪的净收益为0；如果小猪选择按按钮，大猪的最优策略显然是等待，这时大猪的净收益为7个单位。换句话说，在这个博弈中，只有小猪有占优策略，而大猪没有占优策略。

那么这个博弈的均衡解是什么呢？这个博弈的均衡解是大猪选择按按钮，小猪选择等待，这是，大猪和小猪的净收益水平分别为2个单位和4个单位。这是一个“多劳不多得，少劳不少得”的均衡。

在找出上述智猪博弈的均衡解时，我们实际上是按照“重复剔除严格劣策略”（iterated elimination of strictly dominated strategies）的逻辑思路进行的。该思路可以归纳如下：首先找出某参与人的严格劣策略，将它剔除，重新构造一个不包括已剔除策略的新博弈；然后，继续剔除这个新的博弈中某一参与人的严格劣策略；重复进行这一过程，直到剩下惟一的参与人策略组合为止。剩下的话这个惟一的参与人组合，就是这个博弈的均衡解，称为“重复剔除的占有策略均衡”（iterated dominance equilibrium）。所谓“严格劣策略”（strictly dominated strategies）是指：在博弈中，不论其他参与人采取什么策略，某一参与人可能采取的策略中，对自己严格不利的策略。

由表10－3可以看出，无论大猪选择什么策略，小猪选择按按钮，对小猪是一个严格劣策略，我们首先加以剔除。在剔除小猪按按钮这一选择后的新博弈中，小猪只有等待一个选择，而大猪则有两个可供选择的策略。在大猪这两个可供选择的策略中，选择等待对大猪是一个严格劣策略，我们再剔除新博弈中大猪的严格劣策略等待。剩下的新博弈中只有小猪等待、大猪按按钮这一个可供选择的策略，就是智猪博弈的最后均衡解，从而达到重复剔除的占优策略均衡。

智猪博弈听起来似乎有些滑稽，但智猪博弈的例子在现实中确有很多。例如，在股份公司中，股东都承担着监督经理的职能，但是，大小股东从监督中获得的收益大小不一样。在监督成本相同相同的情况下，大股东从监督中获得的收益明显大于小股东。因此，小股东往往不会象大股东那样去监督经理人员，而大股东也明确无误地知道小股东会选择不监督（这是小股东的占优策略），大股东明知道小股东要搭大股东的便车，但是大股东别无选择。大股东选择监督经理的责任、独自承担监督成本是在小股东占优选择的前提下必须选择的最优策略。这样以来，与智猪博弈一样，从每股的净收益（每股收益减去每股分担的监督成本）来看，小股东要大于大股东。

（三）纳什均衡

前面我们讨论了占优策略均衡和重复剔除的策略均衡。但是在现实生活中，还有相当多的博弈，我们无法使用占优策略均衡或重复剔除的策略均衡的方法找出均衡解。例如，在房地产开发博弈中，假定市场需求有限，A、B两个开发商都想开发一定规模的房地产，但是市场对房地产的需求只能满足一个房地产的开发量，而且，每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下，无论是对开发商A还是开发商B，都不存在一种策略优于另一种策略，也不存在严格劣策略：如果A选择开发，则B的最优策略是不开发；如果A选择不开发，则B的最优策略是开发；类似地，如果B选择开发，则A的最优策略是不开发；如果B选择不开发，则A的最优策略是开发。研究这类博弈的均衡解，需要引人纳什均衡。

纳什均衡是指在均衡中，每个博弈参与人都确信，在给定其他参与人选择的策略的情况下，该参与人选择了最优策略以回应对手的策略。纳什均衡是完全信息静态博弈解的一般概念，构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略。也就是说，没有一种策略严格优于纳什均衡策略（注意：其逆定理不一定成立），更为重要的是，许多不存在占优策略均衡或重复剔除的占优策略均衡的博弈，却存在纳什均衡。

与重复剔除的占优策略均衡一样，纳什均衡不仅要求所有的博弈参与人都是理性的，而且，要求每个参与人都了解所有其他参与人都是理性的。

在占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的的占优策略都是他的最优策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此，占优策略均衡一定是纳什均衡。在重复剔除的占优策略均衡中，最后剩下的惟一策略组合，一定是在重复剔除严格劣策略过程中无法被剔除的策略组合。因此，重复剔除的占优策略均衡也一定是纳什均衡。

下面我们以博弈论中经常提到的性别战（battle of the sexes）为例，说明纳什均衡解。谈恋爱的男女通常是共度周末而不愿意分开活动的，这是研究问题的前提。但是，对于周末参加什么活动，男女双方往往各自有着自己的偏好。假定某周末，男方宁愿选择观看一场足球比赛，而女方宁愿去逛商店。再进一步假定：如果男方和女方分开活动，男女双方的效用为0；如果男方和女方一起去看足球赛，则男方的效用为5，而女方的效用为1；如果男方和女方一起去逛商店，则南男方的效用为1，女方的效用为5。根据上述假定，男女双方不同选择的所有结果及其效用组合如表10－4所示。

表10－4 性别战的收益矩阵

女方

看足球逛商店

男方看足球

逛商店
5，1 0，0

0，0 1，5

在这个博弈中剔除两个严格劣策略以后，剩下的新博弈中，无法剔除严格劣策略。因此是一个纳什均衡。这里有两个解，即男女双方一起去看足球赛和一起去逛商店。除非有进一步的信息，如男方或女方具有优先选择权，否则，我们无法确定男女双方在上述博弈中会作出什么样的选择。

以上我们讨论了完全信息静态博弈。本节的以下部分，我们讨论完全信息动态博

参考资料：http://zhidao.baidu.com/question/81064317.html

参考技术A 不p完全信息博弈是指如果参与q人m对其他参与j人j的特征、策略空间及k收益函数信息了b解的不w够准确、或者不j是对所有参与g人o的特征、策略空间及e收益函数都有准确的信息，在这种情况下m进行的博弈就是不l完全信息博弈。不m完全信息静态博弈是以8贝4叶斯均衡等理论完成对混合策略的重新解释，不d完全信息动态博弈则是完美贝7叶斯均衡为0核心7概念的信号博弈。以8前古语中0田忌赛马e属于t不d完全信息博弈，百事可乐和可口h可乐的多次价格大g战的博弈也s属于p不n完全信息博弈。oⅣ」k去驭cu偿hoⅣ」y◆z本回答被提问者和网友采纳参考技术B 同学，你是上大2011届的新生吧。
我是王冰老师，也就是运筹与优化通识课的教师。
网上的内容我都看了，希望你能自己独立完成作业。

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈机制设计

机制设计(Mechanism Design)

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。

机制设计的概念

机制设计的目标是设计一个可以达到期望收益的博弈。
由于这是根据博弈结果来推导博弈的形式，也被称为反向博弈论(reverse game theory)。
这个理论明显在经济和政治方面有很多用途。
我们假象这样一个例子：

某个政府需要设计一个关于化工厂的环保政策。
这个政策可能涉及到：几个化工厂、政府和大众。
大概的想法是：政府有一些排放许可；化工厂需要从政府那里买排放许可；政府和大众利用获得的资金改善环境。
机制设计的核心是：制定玩家的行动和支付资金的关系。

从上面的例子可以看出一些新的元素：

排放许可
在理论中称之为替代选择(alternatives)，或者叫做公共物品(public good)。
资金的转移(monetary transfer)

新的概念：

机制设计者(mechanism designer)
也称为中央集权(central authority)。中央集权不一定是玩家。
替代选择(alternatives)或者公共物品(public good)
中央集权提供的公共物品或者服务。
将成为玩家的结果(outcome)的一部分。
资金的转移(monetary transfer)
每个玩家获得的资金。负数表示支付的资金，
成为收益函数的一部分。
收益函数
在机制设计中，玩家的结果包含两部分：公共物品和资金的转移。
另外，我们简单地加上资金部分作为收益。
所以收益函数变为:

\\[v_i(x, m_i, \\theta_i) = u(x, \\theta_i) + m_i \\]

所有玩家的一个结果组合(outcomes)
这里用y来表示，以区分x。

\\[y = (x, m_1, \\cdots, m_n) : x \\in X, m_i \\in \\mathbb{R} \\ \\forall i \\in N, \\sum_{i=1}^{n} m_i \\leq 0 \\\\ y_i = (x_i, m_i) \\]

选择规则(choice rule)
根据类型\\(\\theta\\)得到机制的结果\\(y\\)。

\\[f(\\theta) = (x(\\theta), m_1(\\theta), \\cdots, m_n(\\theta)) \\\\ where \\\\ x(\\theta) \\text( : decision rule) \\\\ (m_1(\\theta), \\cdots, m_n(\\theta)) \\text( : transfer rule) \\]

选择条件定义了每个类型想要的结果。

机制设计者面临的问题和一个方向

机制设计者面临的问题和一个方向

在不完整信息博弈中，私有信息（机制设计者不知道的信息）：

每个玩家的类型\\(\\theta\\)。
公共知识：

类型集合\\(\\Theta\\)

每种类型的选择规则，也就是每种类型玩家倾向的结果

每种类型的策略，就是每种类型玩家的倾向策略

策略行动导致的结果。

机制设计的两个方向之一，是在不知道玩家的类型（这是私有信息）的情况下，
设计出一个足够聪明的博弈，能够保证：

对于每种类型的玩家组合，其选择规则的结果，和博弈的贝叶斯纳什均衡的结果一致。
也就是说，其选择规则结果和博弈的策略引起的结果一致。
满足上面条件的机制，则称之实现了选择规则。
下面是相应的数学说明。

机制(mechanism)
机制规定了玩家的行动集合，以及行动结果与资金转移的关系。

\\[\\Gamma = \\langle A_1, \\cdots, A_n, g(\\cdot) \\rangle \\\\ where \\\\ g : A_1 \\times \\cdots A_n \\to Y \\\\ \\]

玩家i的纯策略
\\(s_i : \\Theta_i \\to A_i\\)
玩家i的收益函数
\\(v_i(g(s), \\theta_i)\\)
贝叶斯纳什均衡(Bayesian Nash Equilibrium)
如果满足下面条件，一个策略组合\\(s^*(\\cdot) = (s_1^*(\\cdot), \\cdots, s_n^*(\\cdot))\\)
是一个机制\\(\\Gamma = \\langle A_1, \\cdots, A_n, g(\\cdot) \\rangle\\)的贝叶斯纳什均衡：

\\[E_{\\theta_{-1}} [v_i(g(s_i^*(\\theta_i), s_{-i}^*(\\theta_{-i})), \\theta_i) | \\theta_i] \\geq E_{\\theta_{-1}} [v_i(g(a_i, s_{-i}^*(\\theta_{-i})), \\theta_i) | \\theta_i], \\forall a_i \\in A_i, \\forall i \\in N, \\forall \\theta_i \\in \\Theta_i \\]

也就是说，对于每种类型组合，每个玩家，当对手的策略是这个策略组合时，这个玩家的这个策略组合的策略是最优的（其期望收益大于等于其它的所有策略的期望收益）。

机制实现选择规则
如果满足下面条件，则这个机制\\(\\Gamma\\)实现了(implement)选择规则\\(f(\\cdot)\\):
存在一个贝叶斯纳什均衡\\(s^*(s_1^*(\\theta_1), \\cdots, s_n^*(\\theta_n))\\)，满足：

\\[g(s_1^*(\\theta_1), \\cdots, s_n^*(\\theta_n)) = f(\\theta), \\forall \\theta_i \\in \\Theta_i \\]

部分实现(partial implementation)和完全实现(full implementation)
除了期望的贝叶斯纳什均衡，如果允许存在其它的、不期望的均衡，成为部分实现；
如果不允许存在其它的、不期望的均衡，成为完全实现；

揭露原理(the revelation principle)

机制设计的另外一个方向：玩家意识到机制设计者会实现他的选择条件\\(f(\\cdot)\\)时，玩家会透露自己的类型。

直接揭露机制(direct revelation mechanism)
一个选择规则\\(f(\\cdot)\\)的直接揭露机制\\(\\Gamma = \\langle \\Theta_1, \\cdots, \\Theta_n, f(\\cdot) \\rangle\\)是:

\\[A_i = \\Theta_i, \\forall i \\in N \\\\ g(\\theta) = f(\\theta), \\forall \\theta \\in \\Theta \\]

解释：

对于每个玩家，其行动集合\\(\\Theta\\)是选择规则\\(\\Theta_i\\)对应的行动集合（想象一下，每个类型对应一个策略，一个策略对应一个行动）。
对于每个类型\\(\\theta\\)，它的选择规则（想要的）结果\\(f(\\theta)\\)和机制设计的结果\\(g(\\theta)\\)一致。

在贝叶斯纳什均衡中诚实地可实现的(truthfully implementable in Bayesian Nash equilibrium)
一个选择规则\\(f(\\cdot)\\)是在贝叶斯纳什均衡中诚实地可实现的，
如果这个选择规则的直接揭露机制\\(\\Gamma = \\langle \\Theta_1, \\cdots, \\Theta_n, f(\\cdot) \\rangle\\)有一个贝叶斯纳什均衡\\(s_i^*(\\theta_i) = \\theta_i\\),
也就是说，满足：

\\[E_{\\theta_{-1}} [v_i(f(\\theta_i, \\theta_{-i}), \\theta_i) | \\theta_i] \\geq E_{\\theta_{-1}} [v_i(g(\\theta_i\', \\theta_{-i}), \\theta_i) | \\theta_i], \\forall \\theta_i\' \\in \\Theta_i \\]

解释：

当解释规则的直接揭露机制有有一个贝叶斯纳什均衡解，则其实完全可满足的。

推论 14.1 : 对于贝叶斯纳什实现的揭露原理
一个选择规则\\(f(\\cdot)\\)在贝叶斯纳什均衡中是可实现的，当且仅当它在贝叶斯纳什均衡中诚实地可实现的(truthfully implementable in Bayesian Nash equilibrium)。

揭露原理的想法：

在均衡中，玩家知道这个机制实现了选择规则\\(f(\\cdot)\\)，所以会何其保持一致。
因此他们可能会诚实地述说他们的类型，让机制设计者直接实现选择规则\\(f(\\cdot)\\)。

优势策略和Vickrey-Clarke-Groves机制

优势策略
如果满足以下条件，则策略组合\\(s^*(\\cdot) = (s_1^*(\\cdot), \\cdots, s_n^*(\\cdot))\\)是一个机制\\(\\Gamma = \\langle A_1, \\cdots, A_n, g(\\cdot) \\rangle\\)的优势策略：

\\[v_i(g(s_i^*(\\theta), a_{-i}), \\theta_i) \\geq v_i(g(a_i\', a_{-i}), \\theta_i), \\forall a_i \\in A_i, \\forall a_{-i} \\in A_{-i}, \\forall i \\in N, \\forall \\theta_i \\in \\Theta_i \\]

同时，揭露原理意味着如果选择法则\\(f(\\cdot)\\)如果一个选择规则可以被一个优势策略实现，我们只要检测这个选择法则是在优势策略中诚实地可实现的。
即：

\\[v_i(f(\\theta_i, \\theta_{-i}), \\theta_i) \\geq v_i(f(\\theta_i\', \\theta_{-i}), \\theta_i), \\forall \\theta_i \\in \\Theta_i, \\forall \\theta_{-i} \\in \\Theta_{-i}, \\forall i \\in N, \\forall \\theta_i \\in \\Theta_i \\]

推论 14.2
在一个准线性(quasilinear)环境中，给定一个实例状态\\(\\theta \\in \\Theta\\)，
一个替代物(alternative)\\(x^* \\in X\\)是一个帕累托优化，当且仅当下面有一个解：

\\[\\max_{x \\in X} \\sum_{i=1}^I u_i(x_i, \\theta_i) \\]

First-best decision rule
如果对于\\(\\forall \\ \\theta \\in \\Theta\\), \\(x^*(\\theta)\\)都是帕累托优化的，则\\(x^*(\\cdot)\\)为First-best decision rule。
Vickrey-Clarke-Groves机制
给定一个宣布的类型\\(\\theta\'\\)，
这个选择规则\\(f(\\theta\') = (x(\\theta\'), m_1(\\theta\'), \\cdots, m_n(\\theta\') )\\)是一个Vickrey-Clarke-Groves机制，
如果\\(x^*(\\cdot)\\)是一个第一好决定规则(first-best decision rule)，并且：

\\[m_i(\\theta\') = \\sum_{j \\neq i} u_j(x^*(\\theta\'_j, \\theta\'_{-i}), \\theta\'_j) + h_i(\\theta\'_{-i}) \\\\ where \\\\ h_i(\\theta\'_{-i}) \\text{ is an arbitrary function of } \\theta\'_{-i} \\]

解释：

没有完全看懂。大概的意思是对于First-best decision rule \\(x^*(\\cdot)\\)，
可以找到一个转移规则\\((m_1(\\cdot), \\cdots, m_n(\\cdot))\\)，
让选择规则成为一个在优势策略中可实现。

下面是一个解：

Pivotal Mechanism - a particular form of Vickrey-Clarke-Groves机制

\\[h_i(\\theta\'_{-i}) = - \\sum_{j \\neq i} u_j(x_{-i}^*(\\theta\'_{-i}), \\theta\'_j) \\\\ where \\\\ x_{-i}^*(\\theta\'_{-i}) \\in \\arg \\max_{x \\in X} \\sum_{j \\neq i} u_j(x, \\theta\'_j) \\\\ Thus \\\\ m_i(\\theta\') = \\sum_{j \\neq i} u_j(x^*(\\theta\'_j, \\theta\'_{-i}), \\theta\'_j) - \\sum_{j \\neq i} u_j(x_{-i}^*(\\theta\'_{-i}), \\theta\'_j) \\\\ \\]