AI内参_159_151_精读AlphaGo_Zero论文

你好，我是洪亮杰。

今天我和你分享的主题是前不久在自然杂志发表的有关阿尔法狗zara的论文。

长期以来，利用人工智能技术挑战人类的一些富有智慧的项目，例如象棋、围棋对话等等，都被看作人工智能技术前进的重要参照。

人工智能技术到底是不是能够带来拟人的思维和决策能力，在某种意义上成了衡量人工智能水平以及整个行业发展的试金石。

在这些项目中，围棋可以说是一个难度很大的项目，更是饱受关注。

一方面，围棋的走棋可能性非常多，且棋局变化多端，这似乎给计算机算法带来了很大的困难。

另一方面，围棋在一些国家和地区，比如中国、日本和韩国，不仅仅是一个智力竞技项目，更有一系列理念、人格等全方位的配套文化概念，使得人们对此产生怀疑。

人工智能模型和算法是否能够真正学习到有价值的信息，而不仅仅是模拟人的行为。

二零一五年，来自谷歌deep mat团队的尔ala go打败了职业二段樊辉。

在这之后，短短两年的时间里，该团队的人工智能技术迅猛发展，不仅以四比一击败韩国的李世石九段，更是在今年战胜了即时世界排名第一的柯洁，可谓战胜了被誉为人类智慧皇冠的围棋项目。

前段时间，deep mat团队在自然杂志上发表了阿尔法go的最新研究成果。

阿尔法go zara这项技术更是把人工智能在围棋上的应用推向了一个新高度。

可以说是利用计算机算法，把围棋的棋艺发展到了一个人类之前无法想象的阶段。

今天我就带你认真剖析一下这篇发表在自然杂志上的名为不依靠人类知识，掌握围棋的论文，标题中的不依靠人类知识，当然有一点夸张。

不过这也正是这篇论文的核心思想，那就是仅用少量甚至不用人类的数据来驱动人工智能算法。

在之前的很多人工智能模型和算法来看，这是一个巨大的挑战。

我先来介绍一下作者群的信息。

文章共有十七位作者都是来自伦敦的谷歌deep maat团队阿尔法go的第一篇论文也是发表在自然杂志，当时有二十位作者比较起来，这篇论文的作者数目减少了。

另外，虽然两篇论文的主要作者都是三名，但是这三个人发生了一些变化。

下面我就介绍一下本文的三个主要作者，第一作者，大卫谢尔维，目前在deep mat领导强化学习的多项研究。

大卫的经历很传奇，早年曾在南非生活和学习，一九九七年从剑桥大学毕业后先到一家名为elixr studios的游戏公司工作了好几年，然后到加拿大的阿尔伯塔大学学习机器学习，特别是强化学习。

他当时就开始尝试开发用计算机算法来进行围棋博弈。

大卫二零一三年，全职加入了deep mad之后，迅速成了deep mad.在强化学习特别是深度学习和强化学习结合领域的领军人物。

第二作者，朱利安是瑞特维泽，是谷歌的一名工程师，他长期对围棋人工智能感兴趣。

值得注意的是，朱利安这次成为主要作者。

而在之前的第一篇文章中，还只是普通贡献者，可以推断在阿尔法go zara这个版本里面有相当多的工程优化。

第三，作者，卡伦西蒙燕是deep md的一名科学家，长期从事计算机视觉和人工智能技术的研究。

他来自二零一四年deep mat收购的一家名为vidian facory的人工智能形式，采用最近几年的论文，都有高达几千的引用量。

首先，这篇论文的主要卖点就是较少利用，或者说没有利用传统意义上的数据驱动的棋局。

第一篇论文里，阿尔法go以及后面一些版本都是主要利用人类的棋局作为重要的训练数据，采用监督、学习和强化学习结合的形式。

在阿尔法go zara这个版本里，人类的棋局被彻底放弃，而完全依靠了竞技学习。

从完全随机的情况开始，进化出了具有人类经验的各种走法的围棋策略，并且达到了非常高的竞技水平。

可以说是这篇论文的核心贡献，在核心的模型方面也有不少改进。

比如一个很大的改进，就是把策略网络和价值网络合并，这样就能更加有效的用简单统一的深度模型来对两个网络进行建模。

另外，整个模型的输入特征也有变化，从深度模型提取特征外加人工挑选特征，到这篇文章提出的完全依靠棋盘的图像信息来自动抓取特征，可谓是减少人工干预的一个重要步骤。

文章的另一大看点是实验结果，作者们展示了新的阿尔法狗zara模型能够战胜之前很多版本的模型。

最令人惊奇的是，可能莫过于阿尔法狗。

Zara在自学的过程中，还悟导了很多人类在围棋学习过程中领悟的棋具招数。

下面我来说说论文的核心方法。

阿尔法狗zero模型的核心起源于一个简单的深度网络模型。

这个深度网络的输入是棋盘当前位置的表达，以及过去的历史信息，输出一个走子的概率以及对应的价值。

这个价值是用来描述当前棋手能够赢的概率。

刚才我们已经说了，这个深度网络集合了策略网络和价值网络，形成了这么一个统一的评价。

整个棋盘的神经网络，在具体的网络架构方面，阿尔法狗zera采用了计算机视觉领域最近流行的残差架构。

可以说也是这个方法的一个小创新。

有了这个基本的神经网络之后，作者们就需要和强化学习结合起来。

具体来说，在每一个位置的时候，算法都会去执行一个蒙特卡罗树搜索。

对当前的神经网络模型输出的走子策略进行一个修正，或者可以认为是加强这个蒙特卡洛树搜索的输出结果，依然是走子的概率，但是这个概率往往比之前单从神经网络得到的要强，然后更新神经网络的参数，使得参数尽可能的接近蒙特卡洛树搜索的结果。

那么什么是蒙特卡洛树搜索呢？简单来说，就是我们从当前的棋盘情况出发，对整个棋盘产生的所有可能性进行有限制情况的搜索。

也就是说不是穷举法，大体说来从某一个可能性走到下一个可能性，主要是依靠下一个可能性发生的概率，以及通过神经网络来判断是否能赢的可能性。

整个算法最开始的时候是从随机的位置初始化，然后通过对神经网络的更新以及每一个迭代，通过利用蒙特卡洛树进行搜索，从而找到更加合适的神经网络模型的参数。

整个算法非常简单明了，不管是结构上还是复杂度上都比之前的版本要简洁不少。

文章反复强调，公布的算法可以在单机上运行，相比于最早的阿尔法go,需要使用一百七十六个GPU,也可以看到整个模型的进化效果。

最后来看一下文章提出方法的实验效果。

阿尔法狗sarah的实验效果是惊人的，从模拟中看大约二十小时后，这个版本的模型就能够打败依靠数据的监督学习版本的阿尔法go了。

而到了四十小时后，这个版本已经可以打败挑战了。

李世石的阿尔法go,也就是说不依靠任何人类棋具。

阿尔法狗zarah在不到两天的运算时间里，就能够达到顶级的人类水平。

除了可以打败之前的阿尔法go版本以外，这个版本相比于监督学习的版本，在大约二十小时以后，也可以更加好的预测人类对战的走子。

并且随着训练时间的推移，这种预测的准确性还在不断提升。

刚才我们也提到了阿尔法狗zara在自我训练的对战中，在不依靠人类数据的情况下，的确是发现了相当多的人类熟悉的对战套路。

然而，有一些人类在围棋历史中较早发现的套路，却没有或者较晚，才在阿尔法狗zera的训练历史中习得，这打开了很多问题。

比如，发生这样的情况的原因究竟是什么等等。

最后，作者们展示了阿尔法狗zara非常强大的实战能力。

在和之前最强的阿尔法go版本，也就是阿尔法go master的对战中，阿尔法狗zara取得了一百比零的绝对优势，而相同的阿尔法go master与人对弈的成绩是六十比零。

今天我为你讲了发表在自然杂志上的这篇关于阿尔法狗zara的论文。

这篇文章介绍了一个简洁的围棋人工智能算法，结合深度学习和强化学习，不依靠人类的信息，一起来回顾一下要点。

第一，关注这篇文章，主要作者的信息，我们可以推断出文章的一些变化方向。

第二，这篇文章有两大看点，一是很少或者几乎没有利用人类的棋居数据，二是得到了显著的实验结果。

第三，文章提出的核心模型将策略、网络和价值网络合并并强化学习相结合。

最后给你留一个思考题。

有人说，阿尔法狗、zara并不是完全不依靠人类信息，比如围棋本身的规则就是很强的监督信息。

再比如，不管每一步的走动如何棋局，最后是舒适赢，看然是很强的信息。

那么，阿尔法狗、zara到底是不是还是依赖了很强的数据呢？我们能不能把阿尔法狗、zara看作是监督学习的产物呢？你怎么看呢？欢迎你给我留言，和我一起讨论。