当前位置:聚男网 > 资讯 > 社会 >

最强阿尔法狗诞生:揭秘阿尔法狗凭什么打败世界冠军

来源:未知时间:2017-10-19 14:44责编:lhb
导读: 【最强阿尔法狗诞生:揭秘阿尔法狗凭什么打败世界冠军】阿尔法狗最新消息:凭什么打败世界冠军?阿尔法狗再进化——最强阿尔法狗诞生记!

阿尔法狗最新消息:凭什么打败世界冠军?阿尔法狗再进化——最强阿尔法狗诞生记!

据了解,DeepMind团队公布的最强版AlphaGo ,新版本代号AlphaGo Zero。

最强阿尔法狗诞生:揭秘阿尔法狗凭什么打败世界冠军

它的独门秘籍,是“自学成才”。

而且,是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。

团队称,AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。

在对阵曾赢下韩国棋手李世石那版AlphaGo时,AlphaGo Zero取得了100:0的压倒性战绩。

DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式,刊发在了10月18日(伦敦当地时间)的《自然》杂志上。

“AlphaGo在两年内达到的成绩令人震惊。现在,AlphaGo Zero是我们最强版本,它提升了很多。Zero提高了计算效率,并且没有使用到任何人类围棋数据。”

AlphaGo之父、DeepMind联合创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)说。

“最终,我们想要利用它的算法突破,去帮助解决各种紧迫的现实世界问题,如蛋白质折叠或设计新材料。如果我们通过AlphaGo,可以在这些问题上取得进展,那么它就有潜力推动人们理解生命,并以积极的方式影响我们的生活。”

问题来了:阿尔法狗之父揭秘最强“狗”如何炼成?

AlphaGo的前几代版本,一开始用上千盘人类业余和专业棋手的棋谱进行训练,学习如何下围棋。

AlphaGo Zero则跳过了这个步骤,自我对弈学习下棋,完全从乱下开始。

用这种方法,它很快超过了人类水平,对阵此前战胜人类冠军李世石的前代AlphaGo取得了100连胜。

AlphaGo Zero之所以能当自己的老师,是用了一种叫强化学习的新模式。

系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。

在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。

升级后的神经网络与搜索网络结合成一个更强的新版本AlphaGo Zero,如此往复循环。

每过一轮,系统的表现就提高了一点点,自我对弈的质量也提高了一点点。神经网络越来越准确,AlphaGo Zero的版本也越来越强。

这种技术比此前所有版本的AlphaGo都更为强大。这是因为,它不再受到人类知识的限制,而能够从婴儿般的白纸状态,直接向世界上最强大的棋手——AlphaGo本身学起。

最强阿尔法狗诞生:揭秘阿尔法狗凭什么打败世界冠军

AlphaGo Zero相较前代还有几点明显的差别:

首先,AlphaGo Zero仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入。

其次,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。

而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。

第三,AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠的是其高质量的神经网络来评估下棋的局势。

所有这些差异,都提高了系统的表现,使其更为普适。不过,是算法上的变化使得系统更为强大和高效。

仅仅自我对弈3天后,AlphaGo Zero就以100:0完胜了此前击败世界冠军李世石的AlphaGo版本。

自我对弈40天后,AlphaGo Zero变得更为强大,超过了此前击败当今第一人柯洁的“大师”版AlphaGo。

通过数百万次自我对弈,AlphaGo从零开始掌握了围棋,在短短几天内就积累起了人类几千年才有的知识。

AlphaGo Zero也发现了新的知识,发展出打破常规的策略和新招,与它在对战李世石和柯洁时创造的那些交相辉映,却又更胜一筹。

这些创造性的时刻给了我们信心:人工智能会成为人类智慧的增强器,帮助我们解决人类正在面临的一些严峻挑战 。

尽管才刚刚发展起来,AlphaGo Zero已经走出了通向上述目标的关键一步。

如果类似的技术可以应用在其他结构性问题,比如蛋白质折叠、减少能耗和寻找新材料上,就能创造出有益于社会的突破。

    精彩文章

    加载更多