AlphaGo对局李世石两周年纪:AI程序攻克围棋的算法秘密:外围投注官网

本文摘要:本文的主角是AlphaGo,谷歌DeepMind团队开发的棋手AI。

lol外围投注app

本文的主角是AlphaGo,谷歌DeepMind团队开发的棋手AI。它因在2016年击败世界顶尖棋手李世石的伟大事业而备受关注。棋手是一种古老的桌游,每一步都没有太多的自由选择。所以,以下立场与理事会预测——拒绝对棋手享受强烈的直觉和抽象思维能力非常相关。

所以人们还是长期指出只有人类才擅长玩围棋。大部分研究者甚至确认,不具备这种思维能力的AI要过几十年才会频繁出现。然而AlphaGo对战李世石已经两年了(3月8日-3月15日),这篇文章就是为了纪念这最杰出的一天!但更可怕的是,AlphaGo并没有暂停行进的脚步。

八个月后,在一个象棋网站上以“大师”的名义,与来自世界各地的冠军玩家进行了60场职业比赛,取得了全面胜利。这当然是人工智能领域的一大成就,在世界范围内引发了新一轮的争论热潮。我们是应该对人工智能的发展速度深感兴奋还是忧心忡忡?今天我们将以DeepMind在《大自然》杂志上发表的完整研究论文为基础,弃段对其内容做一个非常简单清晰的理解,详细说明AlphaGo是什么,它是如何工作的。

也希望大家看完这篇文章,还是会被媒体头条抛出的耸人听闻的头条所报复,真正被人工智能的发展所鼓舞。当然,你不必掌握棋手的技术,也可以在一定程度上解读本文的观点。事实上,我在网上百科上看过一点棋手解说。

忽略,我只是不会用基本的象棋例子来说明所涉及的算法。每个人只需要了解两人棋盘游戏的基本规则,就可以让——名运动员轮番上阵,最终产生一个赢家。另外,你不一定要懂什么物理或者高级科学。

这样就尽可能的降低了入门门槛,为了让刚懂机器学习或者神经网络的朋友更容易拒绝。本文也刻意降低了解读的复杂度,期望大家尽可能把注意力放在内容本身。

众所周知,AlphaGo项目的目标是创建一个AI程序,并确保它需要在国际象棋领域与世界顶尖人类运动员竞争。为了诠释棋手带来的挑战,我们先来说说另一款类似的棋类游戏,——象棋。

早在20世纪90年代初,IBM就创造了深蓝电脑,打败了国际象棋比赛中最好的世界冠军加里卡斯帕罗夫。那么,深蓝是怎么做到的呢?事实上,深蓝色的使用方式非常“暴力”。在游戏的每一步,深蓝都会考虑所有可能合理的招式,沿着每一个招式探索,分析未来的变化。

在这样的前瞻性分析下,计算结果很快就构成了一棵千变万化的最大决策树。之后深蓝不会沿着树形结构回到原点,仔细观察哪些招式最有可能带来强烈的效果。但是,什么是「努力的结果」?其实很多优秀的棋手都为深蓝精心设计了一个棋艺策略,旨在帮助他做出更好的决策,——比如你是想维持王者地位还是想在盘的其他方向获得优势?他们为此构建了一个具体的“评估算法”,以便比较不同磁盘取向的优劣(IBM以软编码的形式将专家的棋局策略引入评估函数)。

最后深蓝不会自由选择有精心计算的招式。在接下来的淘汰赛中,整个过程又重复了一遍。这意味着深蓝在每一步之前都会考虑数以百万计的理论取向。

所以深蓝最让人印象深刻的展示不在于人工智能软件,而在于它的硬件。IBM声称深蓝是当时市场上最强大的电脑之一。

它需要每秒计算2亿个磁盘方向。现在让我们回到棋手。

棋手似乎更加对外开放。所以,如果你在这里掉以轻心的采取深蓝策略,根本得不到理想的结果。因为每一步都有太多可选择的方向,计算机根本无法覆盖这么多潜在的可能性。

比如象棋开始的时候,只有20种可能的玩法;但就棋手而言,再行者将享受361个可能落点——,这种自由选择范围在整个游戏中还是很常见的。这就是所谓的“最大搜索空间”。此外,在棋手中,区分特定盘取向的不利或有利权重并不那么容易。在官方阶段,双方甚至必须进行一段时间的化学键合,才能最终确认谁是WINNER。

但是在棋手领域有所作为不是一种很神秘的方式吗?答案是肯定的,深度自学需要已经完成这个艰巨的任务!因此,在本研究中,DeepMind利用神经网络完成了以下两项任务。他们训练了一组“策略神经网络”,询问在特定的磁盘方向中哪些是特别明智的选择(这类似于遵循一些直观的策略来自由选择移动方向)。此外,他们还训练了一套“价值神经网络”(valueneuralnetwork)来估计某个特定的磁盘布局对运动员的不利程度(或这种取向对赢得比赛目标的实际影响)。它们最早用于训练人类象棋中的这些神经网络(即最传统但也非常有效的监督自学方法)。

经过这样的训练,我们的人工智能已经可以在一定程度上模仿人类的游戏方式了。这时候就像是菜鸟级别的人类运动员。

lol外围投注app

然后为了进一步训练神经网络,DeepMind让AI和自己对战百万次(也就是“加强自学”的部分)。这样,通过更充分的锻炼,AI的棋力得到了很大的提升。有了这两套网络,DeepMind的人工智能方案还不足以享受到相当于之前最先进设备的象棋程序的象棋水平。

两者的区别是在之前比较流行的预设游戏算法中使用了原程序,也就是“蒙特卡洛Root Search (MCTS)”,我们过几天会解释清楚。但是很显然,我们还没有谈到真正的核心。DeepMind的人工智能方案在某种程度上讨厌依赖策略和估值网络——。它不使用这两个网络来代替蒙特卡洛根搜索;忽略,将其用于神经网络以进一步提高MCTS算法的效率。

实际效果明显令人满意,——MCTS的显示超过了超人的高度。这种改进的MCTS变体就是“AlphaGo”,成功击败李世石,成为人工智能发展史上的突破之一。现在我们开始解读论文的内容,首先是游戏策略——蒙特卡洛根搜索算法。就说这个吧,大家对它已经有了一个基本的了解,不足以成功解读这篇文章的内容。

但如果想了解更多细节,请参考以下优秀视频和博客文章:1。由1。Udacity2.MCTS理解由2。JeffBradberry3.MCTS教程3。

FullstackAcademy让我们回忆一下这篇文章的第一段。如上所述,深蓝电脑是如何构建一个包含数百万个盘方位和棋步每一步棋步的决策树的?计算机必须模拟、仔细观察和比较每一个可能的着陆点?——?这是一个非常简单且必要的方法。

如果普通软件工程师要设计一个象棋程序,他们很可能会自由选择类似的解决方案。

本文关键词:lol外围投注app,外围投注官网

本文来源:lol外围投注app-www.pipifilm.cn

相关文章