博弈论（Game Theory）入门学习笔记（持续更新）

Posted 2021-10-11 Mr.Shelby

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了博弈论（Game Theory）入门学习笔记（持续更新）相关的知识，希望对你有一定的参考价值。

博弈论（Game Theory）入门学习笔记（持续更新）

课程介绍

博弈论,又称对策论,是使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论,是研究竞争的逻辑和规律的数学分支。

1-1 Taste-Backoff

以一个经典案例引出博弈论
TCP Backoff Game
两台电脑之间想要实现通信，两种方式可供选择，建立回退机制以及不建立回退机制。如果AB双方均建立回退机制，则双方延迟都是1。如果A、B一方建立回退机制，另一方不建立，那么建立的一方延迟是4，不建立的一方延迟是0。如果双方都不建立回退机制，则双方延迟都是3。
该问题的结果有一特点，即自己做出决策的收益不仅跟自己的决策有关，还跟对方的决策有关。因此存在一种“博弈”竞争关系。

1-2 Self-Interested Agents and Utility Theory

Self-Interested Agents：利己代理
并不是说决策者只考虑自己或者伤害他人，而是指决策者对于世界状态有自己的独特看法，并且根据自己的判断理解做出决策。
Utility Theory ：效用理论
每个决策者都有自己的效用函数，表达了决策者对于决策的偏好，决策者做出决策都是为了最大化效用期望。

1-3 Define

Key Ingredients 关键组成
Players：决策者。执行决策的人。
Actions：动作。决策者可以做的事情。
Payoffs：回报。激励决策者的东西，决策带来的回报。
Two Standard Representations 两种标准表达方式
Normal Form：分别定义Players、Actions、Payoffs。
Extensive Form：扩展定义Timing、Information。
简单的博弈论问题可以使用矩阵表达，如1-1所示。
复杂问题无法用矩阵表达，如经典的造反问题。共有10000000个人，每个人可以选择造反或者不造反，只有达到2000000个人才算造反成功。如果造反达到人数要求，无论决策者选择什么收益都是1；如果造反没有达到人数要求，则决策者选择造反的收益是-1；如果造反没有达到人数要求，则决策者选择不造反的收益是0。
Players： $N=\\{1,...,10,000,000\\}$
Actions Set for player $i$ ： $A_i=\\{Revolt,Not\\}$
Utility Function for player $i$ ：
（1） $u_i(a_i)=1 \\space if \\{j:a_j=Revolt\\}>=2,000,000$
（2） $u_i(a_i)=-1 \\space if \\{j:a_j=Revolt\\}<2,000,000 \\space and \\space a_i=Revolt$
（3） $u_i(a_i)=-0 \\space if \\{j:a_j=Revolt\\}<2,000,000 \\space and \\space a_i=Not$

1-4 Examples

囚徒困境 Prisoner’s dilemma。故事背景：两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确凿，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。
结果的优劣程度按照A>B>C>D排序。
Game of Pure Competition 纯竞争博弈
博弈的双方具有完全对立的利益。
对于双方任意动作组合，其效用之和永远为一个常数。 $\\forall \\space a \\in A,u_1(a)+u_2(a)=c$
特殊类型：零和博弈。双方效用之和永远为0。
举例说明：石头剪刀布游戏。
Games of Cooperation 合作博弈
博弈的多方具有相同的利益，利益之间不存在冲突。 $\\forall a\\in A,\\forall i,j,u_i(a)=u_j(a)$
举例说明：过马路问题。马路两头两个人想同时通行，每个人可以选择靠左或者靠右行驶。

1-5 Nash Equilibrium Intro

Keynes Beauty Contest Game：凯恩斯选美博弈
举办选美大赛，从1-100号候选者中选择自己认为最美的一位，获得票数最多的人获得选美冠军，投票给选美冠军的人也会得到一定的奖励。这个问题是老千层饼了，第一层的人只是自己觉得谁漂亮就选谁，比如A觉得10号最美投票给了10号；第二层的人考虑其他人的投票分布从而产生自己的决策，比如B觉得可能有很多人投票给30号，虽然自己喜欢10号也投票给30号；第三层的人觉得其他人可能也会因为考虑到第二层的因素，从而放弃自己最喜欢的转投自己认为最火爆的…这是一个无休止的猜想游戏。
猜数字游戏
每个人从1-100中选择一个整数，最后最接近平均值三分之二的人获得奖励，假设参加这项游戏的人数足够多。这个问题同样是一个千层饼问题。
第一层的人：参赛人数足够多，我假设大家所选择的数字均匀分布，那么最后的平均值应该接近于50。那么我为了获胜应该选择的数字是 $50*\\frac{2}{3}=33$ 。
第二层的人：我想大部分人都在第一层，因此他们都选择33。那么最后的平均值应该接近于33。那么我为了获胜应该选择的数字是 $33*\\frac{2}{3}=22$ 。
第三层的人： $22*\\frac{2}{3}=11$ 。
…
第n层的人：应该选择的数是0。这就得到了纳什均衡。
美国进行过一项调查，其中2%选择了66（没读懂题的笨蛋）、5%的选择了50（第一层）、10%的选择了33（第二层）、6%选择了22（第三层）、12%的选择了0或者1（思考到了最后）。但最后的结果平均值为19，第三层左右的人获得了最终的胜利。
以上两个故事告诉我们，在投资问题或者博弈问题中，我们的层数不可太高也不可太低。太低是傻子，太高聪明反被聪明误。

1-6 Strategic Reasoning

在其他人的决策确定的情况下，每一个决策者都是为了最大化个人的收获效用来做出决策。
一旦纳什均衡建立，没有人可以通过改变决策跳出均衡而获利受益。
如果某些决策者通过改变决策跳出均衡可以获利受益，那么说明纳什均衡还没有真正建立。
纳什均衡是一个稳定的状态，但并不是一个最优的获利状态。

1-7 Best Response and Nash Equilibrium

Best Response 最优响应
如果知道其他所有人的动作，那么挑选对于自己最有利的动作就变得十分简单。
$a_i表示第i个决策者所做出的决策$
$a_{-i}=\\{a_1,...,a_{i-1},a_{i+1},...,a_n\\}表示除去a_i以外其他人的决策$
$a=(a_i,a_{-i})$
$a_i^*\\in BR(a_{-i})\\space iff \\forall a_i\\in A_i,u_i(a_i^*,a_{-i})>=u_i(a_i,a_{-i})$