AlphaGo 用了哪些深度学习的模型

Posted 2023-05-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了AlphaGo 用了哪些深度学习的模型相关的知识，希望对你有一定的参考价值。

AlphaGo用了一个深度学习的模型：卷积神经网络模型。

阿尔法围棋（AlphaGo）是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。

一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

扩展资料：

阿尔法围棋用到了很多新技术，如神经网络、深度学习、蒙特卡洛树搜索法等，使其实力有了实质性飞跃。

美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说，阿尔法围棋系统主要由几个部分组成：

一、策略网络（Policy Network），给定当前局面，预测并采样下一步的走棋；

二、快速走子（Fast rollout），目标和策略网络一样，但在适当牺牲走棋质量的条件下，速度要比策略网络快1000倍；

三、价值网络（Value Network），给定当前局面，估计是白胜概率大还是黑胜概率大；

四、蒙特卡洛树搜索（Monte Carlo Tree Search），把以上这三个部分连起来，形成一个完整的系统。

参考资料来源：百度百科-阿尔法围棋（围棋机器人）

百度百科-深度学习

参考技术A AlphaGo依靠精确的专家评估系统（value network）、基于海量数据的深度神经网络（policy network），及传统的人工智能方法蒙特卡洛树搜索的组合，以及可以通过左右互搏提高自己的水平，这个真的是有的恐怖了有木有。李世石九段固然厉害，可人类毕竟是动物，机器软件程序是无休止的工作，这一点也是客观因素了。比赛已经结束了，李世石一比四不敌alphago。

人机对战：不断革新的AlphaGo ——深度学习

2017-04-23

2017年5月23日-27日，现等级分第一人、世界冠军柯洁九段将在浙江乌镇迎战谷歌人工智能AlphaGo，“人机大战Ⅱ”势必再掀围棋热潮。

　　人机对战：不断革新的AlphaGo

　　AlphaGo是一款由谷歌旗下DeepMind公司研发的围棋人工智能程序。这个名字第一次见诸报端还是去年初，它在没有让子的前提下5-0击败欧洲冠军樊麾。但彼时AlphaGo也仅被视为诸多棋类AI中的一个，尚无今日的影响力。

　　直到去年三月，在业内普遍乐观的情况下，世界冠军头衔上双的韩国棋手李世石却被AlphaGo在五番棋中以4-1击败，“人机大战” 引发了关于围棋与人工智能的新思考与新讨论。

李世石与AlphaGo的“人机大战”

　　赛前圈内之所以压倒性看好李世石，是基于AlphaGo与樊麾的对局，高段棋手普遍认为AlphaGo的实力尚不足以挑战韩国天王，水平大概处于业余六至七段之间。但短短不到三个月，AlphaGo就完成了从业余六段到超职业九段的跨越。

　　相比其他围棋AI而言，AlphaGo拥有如此之快的进步速度，这与它“深度学习”的特性密不可分。新版的AlphaGo会产生大量自我对弈棋局，为下一代AI提供训练数据，更新的版本随之而生，此过程循环往复。这意味着，AlphaGo无时无刻不在进步。

　　“销声匿迹”大半年后，化名“Master”的AlphaGo于去年底重出江湖，它连挫中、日、韩三国顶尖围棋好手，豪取60胜却难求一败。

　　在结束了Master的测试后，DeepMind团队于今年1月下旬宣布推出新版AlphaGo。与前作相比，新版AlphaGo在继续深耕“深度学习”的基础上，摒弃了人类棋谱，这意味着AlphaGo可弈出更贴合人工智能的围棋。

　　与柯洁对弈的将是怎样一个AlphaGo，谷歌方面并没有在10日的发布会上披露太多升级细节。但谷歌大中华区总裁石博盟表示，即将亮相乌镇的是AlphaGo的最新版本，优于与李世石对抗之时。

　　新模式：顶尖棋手合力“围剿”

　　此番柯洁将与AlphaGo对战三番棋，比赛采用中国规则，每方用时为三小时，保留5次1分钟读秒。除番棋对决外，今次还将举办两场形式不同的交流比赛，即配对赛与团体赛。

　　世界冠军古力将与连笑一道出战配对赛，两位棋手将与AlphaGo进行交叉组队。古力透露，人机配对此前并未有过练习，由于对局弈和的可能性较小，这也表示其中一方的AlphaGo会输。古力同时表示，如何理解AlphaGo的独特风格并与之合作，是两位参赛棋手将面临的最大挑战。

　　团体赛中，时越、芈昱廷、唐韦星、陈耀烨、周睿羊五位世界冠军将组成豪华阵容携手出战，对抗AlphaGo。据悉五位世界冠军将建立“神经网络”，借此降低心理因素的影响，从而作出更加客观的判断。团体赛每方用时为2小时30分，少于柯洁与AlphaGo的三番战。

　　的确，在去年年底Master的惊艳表现之后，业内就有声音认为，人机大战的结果其实已无悬念。回想过往约一年时间里，AlphaGo未能取胜的两盘棋：一是败于李世石的灵犀妙手，不过那时的AlphaGo与今时不可同日而语；二就是在与陈耀烨对局时，因断线而被判和棋。

以上是关于AlphaGo 用了哪些深度学习的模型的主要内容，如果未能解决你的问题，请参考以下文章

《神经网络与深度学习》浅谈AlphaGo背后所涉及的深度学习技术

什么是「深度学习」，主流的「深度学习模型」主要有哪些？

人机对战：不断革新的AlphaGo ——深度学习

将深度学习模型部署为exe需要哪些工具