AlphaGo Zero和Foom辩论

||yabo app

AlphaGo零它使用4个tpu,完全由神经网络构建而成,没有任何手工制作的功能,没有针对专家游戏或其他任何人类游戏的预先训练,在3天的自我游戏后达到了一个超人的水平,是迄今为止最强的AlphaGo版本。

架构已经简化。之前的AlphaGo有一个政策网,可以预测好棋,还有一个价值网,可以评估位置,两者都使用MCTS(随机概率加权游戏,直到游戏结束)进行预测。AlphaGo Zero有一个神经网络来选择移动,这个网络是由paul - christiano式训练的能力放大也就是和自己玩游戏,以学习获胜的新概率。

正如其他人也指出的那样,在我看来,这似乎是一个支持尤多科夫斯基立场的证据,而不是我和罗宾·汉森的立场AI-foom辩论

根据我的记忆和理解

  • 汉森认为,与积累的领域知识或专业公司在他所期望的为人工智能经济服务的企业生态中构建的特殊用途组件等元素相比,他所谓的“架构”并不重要。
  • 当我谈到,在我看来,人类在建筑结构上的改进确实比黑猩猩重要,汉森回答说,在他看来,这似乎是文化知识积累的一次性收获。

我要强调的是,人类所有强大的围棋知识大厦,经过几个世纪的游戏发展而成的joseki和战术,从小就开始教孩子们的专家们,是如何被AlphaGo Zero完全抛弃的,因为它随后的表现有所改善。这些人类知识的宏伟大厦,正如我所理解的汉森的论点,应该是防止人工智能能力在多个领域同时快速增长。我说,“人类的智力是垃圾,我们积累的技能也是垃圾。”这似乎已经被证实了。

类似地,像DeepMind这样的单一亚博体育官网研究实验室也不应该远远领先于整体生态,因为要让人工智能适应任何特定领域,就需要大量由市场生态开发的组件,让其他公司也能使用这些组件。AlphaGo Zero要简单得多。在某种程度上,没有人能够用完并构建AlphaGo Zero,这要么是因为谷歌拥有普遍可用的张量处理单元,要么是因为DeepMind拥有能够实际利用ResNets等现有想法的专业知识储备,或者两者都有。

这里还应该强调的是能力的提升速度。在Yudkowsky-Hanson的辩论中,我对《FOOM》的大部分观点都是关于自我完善以及当优化循环本身被折叠起来时会发生什么。尽管这并不是我争论的必要内容,但在过去的两年时间里,围棋从“没有人能够接近于战胜专业棋手”变成“如此强大,以至于他们不再为之烦恼”,这只是因为当你改进和简化架构时就会发生这种情况,我说道你甚至不需要自我提升来得到看起来像FOOM的东西。

是的,围棋是一个封闭的系统,可以自己玩。亚博体育苹果app官方下载人类还是花了几个世纪才学会如何玩。也许汉森抵御能力快速增长的新壁垒可能是环境中有很多经验主义的东西,这些东西被认为是很难学习的,即使在人工智能的限制下,它的思维速度也足以在3天内将过去几个世纪人类的学习方式吹跑;经过几个世纪的文化知识积累,人类已经学会了这些重要的知识,即使我们知道人类需要几百年才能完成3天的人工智能学习,当人类拥有所有他们需要的经验元素时;人工智能无法通过“架构”快速吸收这些知识,即使人类通过建筑互相学习.如果是这样,那么让我们写下这个新的毁灭世界的假设(也就是说,如果假设是错误的,世界就会毁灭),并寻找进一步的证据来证明这个假设可能是错误的。

AlphaGo显然不是一个普通的人工智能。显然,人类会做一些事情,让我们比AlphaGo更一般化,而AlphaGo显然不会那样做。然而,如果即使使用人类的特殊功能,我们也希望AGI的能力是缓慢的、特定于领域的,并且需要从一个大的市场生态系统中进行补充,那么我们看到的没有人类同等的一般性特殊功能的情况不应该是这样的。

换句话说,在我的辩论中,我着重强调了递归自我完善,以及从灵长类智能到人类智能的显著飞跃。这并不意味着我们不能获得关于能力增长速度的信息没有自我完善。这并不意味着我们不能获得关于算法的重要性和普遍性的信息没有一般的智力把戏。在我们谈到我认为好的部分之前,争论可能开始满足于快速的性能提升;我不会预测AlphaGo,也不会因打赌它的能力增长速度而赔钱,因为现实的情况比我在尤多科夫斯基-汉森谱上的情况更为极端。

罗宾·汉森的回复。