- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《博弈论与纳什平衡》.pdf
更多博彩、足彩理论请访问 博弈论(game theory )对人的基本假定是:人是理性的(rational ,或者说自 私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈 论研究的是理性的人之间如何进行策略选择的。 纳什(John Nash )编制的博弈论经典故事\囚徒的困境\,说明了非合作 博弈及其均衡解的成立,故称\纳什平衡\。 所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人 players 又称参与者;当事人所做的选择策略 strategies 是承认了杀人事实,最 后两个人均赢得 payoffs 了中间的宣判结果。如果两个囚徒之中有一个承认杀人, 另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到 最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到 的是中间的结果。 类似的:我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。 在互联网这个原始丛林中:最优策略是如何产生的呢? 一、博弈中最优策略的产生 艾克斯罗德(Robert Axelrod )在开始研究合作之前,设定了两个前提: 一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全 按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、 人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、 如何使别人与你合作。 社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提 高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧 失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利 益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。 A 和B 各表示一个人,他们的选择是完全无差异的。选择C 代表合作, 选择D 代表不合作。如果AB 都选择C 合作,则两人各得3 分;如果一方选C, 一方选D ,则选C 的得零分,选D 的得5 分;如果AB 都选D ,双方各得1 分。 显然,对群体来说最好的结果是双方都选C,各得3 分,共得6 分。如果 一方选C,一方选D ,总体得5 分。如果两人都选D ,总体得2 分。 对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个 体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A 来 说,当对方选C,他选D 得5 分,选C 只得3 分;当对方选D ,他选D 得1 分, 选C 得零分。因此,无论对方选C 或D ,对A 来说,选D 都得分最多。这是A 单方面的优超策略。而当两个优超策略相遇,即A ,B 都选D 时,结果是各得1 分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时, 得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性 的矛盾。在数学上,这个一次性决策的矩阵没有最优解。 如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取 互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数 已知的多次博弈中,对策者没有一次会合作。 如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采 取合作并达成默契时,对策者就能持续地各得3 分,但如果持续地不合作的话, 每个人就永远得1 分。这样,合作的动机就显现出来。多次对局下,未来的收益 更多博彩、足彩理论请访问 应比现在的收益多一个折现率W ,W 越大,表示未来的收益越重要。在多人对 策持续进行下去,且W 比较大,即未来充分重要时,最优的策略是与别人采取 的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他 就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什 么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合 作的人,也只能采取不合作的策略。 艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵 相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写 成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策 略得分最高。 第一轮游戏有14 个程序参加,再加上艾克斯罗德自己的一个随机程序 即 以50%的概率选取合作或不合作 ,运转了300 次。结果得分最高的程序是加拿 大学者罗伯布写的\一报还一报\ tit for tat 。这个程序的特点是,第一次对局采 用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次 就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前 面的程序有三个特点:第
文档评论(0)