看家乡事,品故乡情


新版阿尔法围棋 已经“摆脱人类” 谷歌团队在《自然》发表相关论文 宣称新版本可彻底摆脱人类知识

成都商报 2017-10-20 06:30 大字

谁是阿狗?

也叫“阿尔法围棋”,即人工智能程序AlphaGo(很多人根据发音亲昵地叫它“阿尔法狗”或“阿狗”)。

它出生在英国。2010年,德米什·哈萨比斯等人在伦敦开发出了“阿尔法围棋”软件。2014年,美国谷歌公司收购了该公司,因此,也可以算是美国籍。

如何了得?

去年3月,AlphaGo围棋程序和人类围棋世界冠军李世石进行了一场举世瞩目的人机大战,最终李世石1:4败下阵来,引发一片哗然;

今年五月,AlphaGo的升级版本又3:0击败了中国顶尖棋手柯洁,这时大家已经有所预料甚至习以为常。

发生什么?

然而据中国之声报道,就在最近,AlphaGo的最新版本AlphaGo Zero又有了巨大突破,它实现了不通过向人类学习,只通过概率计算和自学自练就达成自我超越,完胜曾经战胜过李世石的初代AlphaGo。

近日,谷歌的深度学习团队(DeepMind)又宣布了一个重磅消息——

新版AlphaGo可以彻底摆脱人类的知识。

当地时间10月18日,谷歌人工智能团队DeepMind在著名学术期刊《自然》上发表论文,宣布新版AlphaGo——AlphaGo Zero可以在没有人类指导的情况下学习,实现无师自通!

新版本AlphaGo从零开始自学围棋,仅用3天,“阿尔法围棋-零”(即AlphaGo Zero)以100比0的成绩战胜了“阿尔法围棋-李”(即击败李世石的AlphaGo;40天后,它又战胜了“阿尔法围棋-大师”(即击败柯洁的AlphaGo)。

自学

与自己对弈490万次

学会下出最好的棋

当地时间10月18日,谷歌人工智能团队DeepMind团队在著名学术期刊《自然》上发表论文表示,只是输入了棋盘和棋子信息之后,AlphaGo Zero通过与自己对弈490万次,AlphaGo Zero学会了如何下出最好的围棋。

AlphaGo项目首席研究员大卫·席尔瓦说,“我可以代表我们团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期,它的胜率一直上升,直到过了40天左右,我们发现它击败了过去所有版本的AlphaGo,成为世界上最强大的围棋程序。”

他介绍,初代AlphaGo是以自身的强大计算能力作为基础,再通过学习海量人类棋谱来练就超强棋力,当初AlphaGo打败李世石就用了3000万盘比赛作为训练数据。而如今的最新版本AlphaGo Zero,已经基本不再需要学习人类经验就能自学成才,它学习的是490万盘自己和自己对弈的比赛数据。

完虐

只用1台机器和4个TPU

许多走法“极具创造性”

经过3天的训练,AlphaGo Zero就以100:0的比分赢下了李世石版AlphaGo,并且只用了1台机器和4个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。而李世石版AlphaGo则用了48个TPU。

AlphaGo Zero除了独立地学会了人类花费数千年时间来发现的围棋规则,还自行学会了非常有趣的围棋策略,并且许多走法都“极具创造性”。

那么AlphaGo Zero是如何实现这种飞跃的?

在训练过程中,AlphaGo Zero每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练,神经网络变得越来越好。值得一提的是,AlphaGo Zero相比之前的版本,仅使用了单一的神经网络。

重/大/突/破

“白板理论”

程序成自己的老师

不需要人类的知识

英国《电讯报》指出,最新版的AlphaGo Zero最重大的突破在于实现了“白板理论”。在这个白板式的学习过程中,程序成了自己的老师,通过与自己下围棋(或其他游戏)而取得不断提高,这个过程中不需要人类的知识、数据或任何形式的干预。

AlphaGo项目首席研究员大卫·席尔瓦博士指出:“如果一个程序能实现白板学习, 那么这个程序就有一个代理, 这个所谓代理也可以被移植到任何其他的领域。”

大卫·席尔瓦说,“过去所有版本的AlphaGo都从利用人类数据开始训练,它们被告知人类高手在这个地方怎么下,在另一个地方又怎么下,AlphaGo Zero不使用任何人类数据,而是自我学习,完全从自我对弈中学习。人们一般认为机器学习就是关于大数据和海量计算,但是我们从AlphaGo Zero中发现,算法比所谓计算或数据可用性更重要,事实上我们在AlphaGo Zero上使用的计算比过去AlphaGo版本上使用的少一个数量级,但是它的性能更强大。因为我们使用了更多的原理和算法。这个系统完全从零开始训练,从随机招式开始,建立于基本原理,来弄清怎样从零学围棋,不依赖于任何人类知识、人类数据、人类案例、人类特征或者是人类的介入。”

“对于我们来说,AlphaGo不是要去在各种领域中打败人类,而是要去发现科学的意义,以及让一个能无师自通的程序去进行自我学习。”他补充道。“在很短的时间内,AlphagGo Zero已经理解了人类经过数千年的积累、分析而来的围棋理论。”

深/度/思/考

“不再受限”

若为健康问题服务

或能很快找到疗法

谷歌深度学习联合创始人兼CEO德米什·哈萨比斯表示,AlphaGo Zero这个项目之所以如此强大,是因为它“不再受限于人类知识的局限”。哈萨比斯还相信,如果将这个项目应用到治疗像老年痴呆症这样重大的健康问题上的话,那么在几周内,就能找到治愈人类需要花费几百年时间才能找到的疗法。

“最终,我们希望利用这种算法突破,来帮助解决各种紧迫的现实问题,” 哈萨比斯表示。“如果类似的技术可以应用到其他结构性问题上,例如蛋白质折叠、减少能源消耗或寻找革命性新材料,那么取得的突破就具有推动人类的理解的潜力,并对我们的生活产生积极影响。”

其实,谷歌的深度学习团队已经开始使用AlphaGo Zero来研究蛋白质折叠,并承诺称将很快发表新的研究发现。错误折叠的蛋白质曾导致了包括老年痴呆症、帕金森病和囊性纤维化等许多毁灭性的疾病。

记者注意到,近年来,越来越多的科技公司先后进入健康领域。去年,微软便宣布计划在10年内攻克癌症。谷歌的秘密部门Calico也在调查延长人类寿命甚至停止衰老的方法。

一/句/感/想

柯洁:阿狗自我进步 人类太多余了

正如柯洁所说,从一年半以前AlphaGo的第一次人机大战到现在,时间刚过去短短一年半,但是在围棋领域里人类已经被人工智能远远甩在了身后。

据中国之声《新闻晚高峰》报道,在得知AlphaGo Zero的成就之后,中国棋手柯洁在微博上写下了这样一句话:一个纯粹、纯净自我学习的AlphaGo是最强的,对于AlphaGo的自我进步来讲,人类太多余了。

左图解释了AlphaGo Zero中的自我对弈强化学习。

图a展示了程序的自我对弈过程。程序在从S1到ST的棋局中进行自我对弈。在任意位置ST,程序会用最新的神经网络程序执行计算,然后,根据计算出的搜索概率at~πt选择落子位置,根据游戏规则来决定最终位置ST,并计算出胜者z。

图b展示了AlphaGo Zero中的神经网络训练过程。神经网络以棋盘位置St输入,将它和参数θ通过多层传递,输出向量Pt和张量值Vt(Pt表示几步之后可能的局面,Vt表示St位置上当前玩家的胜率)。为了将Pt和搜索概率πt的相似度最大化,并最小化Vt和游戏实际胜者z之间的误差,神经网络的参数θ会不断更新,更新后的参数会用到如图a所示的下一次自我对弈迭代中。

本组稿件据中央人民广播电台、每日经济新闻

新闻推荐

英情报官员称 英国面临 恐怖主义巨大挑战

新华社伦敦10月17日电英国情报部门军情五处主管安德鲁·帕克17日警告,英国正面临恐怖主义威胁的巨大挑战,目前开展反恐行动的频次是他入职34年以来最高的。帕克在接受英国广播公司采访时说,在过去4...

 
相关新闻