稳健合作:友好人工智能研究的一个案例研究亚博体育官网

||yabo app

机器人握手(裁剪)

纸”囚徒困境中的稳健合作:基于可证明逻辑的程序均衡是由“明确”产生的理论进展的更清晰的例子之一固定资产投资有关的研究目标。亚博体育官网我们可以从《Friendly AI研究》的案例研究中学到什么?亚博体育官网这些结果是如何得到的?这些想法是如何建立在彼此的基础上的?谁贡献了哪些部分?哪种协同效应很重要?

为了回答这些问题,我与许多为“有力合作”成果做出贡献的人进行了交谈。

我将从2011年12月开始讲述这个故事,弗拉基米尔·斯莱普涅夫(Vladimir Slepnev,苏黎世谷歌的一名工程师)发帖一个UDT模型,有一个停止的oracle,代表着与弗拉基米尔·纳索夫(Vladimir Nesov,莫斯科计算机科学研究生)的合作。1这篇文章,可以说是第一次,2提出了魏岱的形式化模型updateless决策理论(UDT),表明UDT agent在面对Newcomb 's Problem -时将“赢”如果宇宙程序和它的代理子程序可以访问一个停止的神谕。Nisan Stiennon(斯坦福大学数学研究生)将Slepnev的形式化方法应用于使用Peano算法证明合作的问题像决策代理一样的算术公式(2012年2月)。3.

这两篇文章在形式化UDT方面的成功启发了Patrick LaVictoire(麦迪逊的一名数学博士后)尝试对UDT进行“半形式化分析”永恒的决策理论(TDT)是由Eliezer Yudkowsky (MIRI的创始人)发明的早期决策理论,它本身就是UDT的重要灵感来源。后三个设置的帖子拉维克蒂娃认为他成功地把什么东西正式化了像的负2012年4月

LaVictoire在其他TDT/UDT研究人员中没有得到多少反应,所以当他访问旧金山湾地区时亚博体育官网CFAR车间2012年7月,他找到Yudkowsky、Stiennon、Paul Christiano(伯克利计算机科学研究生)和其他几个人,向他们讲述了他试图将TDT正式化的想法。他们的反应非常积极,LaVictoire被鼓励继续学习这个方法。

2012年8月,当Slepnev访问湾区时,LaVictoire也和Slepnev讨论了他的工作,Slepnev指出LaVictoire试图将TDT(现在称为“假面舞会”)正规化的做法是错误的致命的缺陷Lobian原因。但在2012年9月,LaVictoire成功了补丁的问题通过让假面舞会在不同的正式系统之间升级。亚博体育苹果app官方下载此时,LaVictoire开始写《纸牌游戏》的初稿。强有力的合作“纸。

Slepnev坚持优化结果的重要性,所以那个月晚些时候LaVictoire想出了一个候选最优的概念,然后在10月注意到Masquerade本身并不是最优的定义。这大概是mii的情况2013年4月车间开始了。

在工作室的早期,LaVictoire给其他参与者上了一次化妆舞会的教程。《Masquerade》最终产生了模态代理的概念,LaVictoire和Mihály Barasz(苏黎世谷歌工程师)开始寻找机械地验证这些代理行为的方法。最终,Barasz和Marcello Herreshoff(湾区谷歌工程师)开发了一种模型检查器对于模态agent的交互作用,可以机械地证明agent对其他agent的选择。

四月的研讨会快结束时,克里斯帝诺开发了PrudentBot,从某种意义上说,它是当前论文的“明星”。在研讨会期间,尤多科夫斯基、本雅·法伦斯坦(布里斯托尔大学的一名研究生)和其他人也作出了其他贡献。LaVictoire用四月研讨会的结果更新了论文草稿寄给了Less Wrong网站2013年6月。

后,在美里2013年9月车间Kenny Easwaran (USC的哲学家)发现,要证明任何不可利用的代理最终都无法对WaitFairBot进行优化,比LaVictoire预想的要困难得多。Herreshoff一直在修补这个漏洞,但是由于这个小结果,证明文件的这一部分变得越来越大,以至于无法识别,所以LaVictoire决定将它从文件中删除。

2013年12月,Fallenstein发现该论文没有充分说明两个模态agent的行为完全依赖于它们的模态描述,为此他引入了一组补丁。LaVictoire再次修改了这篇论文,然后,在他的合作者的同意下,将修改后的论文上传到arxiv2014年1月。

那么,“稳健合作”报告的成果有什么意义和意义呢?LaVictoire的观点是这样的:

模态战斗的意义在于,它是一个玩具世界,我们可以在其中学习高级决策理论的概念(为了学习其他概念,我们可能会稍微修改这个概念,如勒索),在这个世界中,超理性这个直观的吸引人的概念实际上是可行的。这至少是一个哲学上的暗示,良好的沟通可以在没有通常的执行和惩罚成本的情况下实现合作,并且在理性的行为人中存在简化和可验证的动机。

事实上,这是对迭代囚徒困境竞赛的更基本的模拟。正如Axelrod的IPD锦标赛展示了“强硬但公平”的有用性,并引发了互惠利他主义的进化动机,我认为模态战斗是一种用来说明“超理性”逻辑的有效沙盒。此外,模态战斗包含了许多IPD的功能(游戏邦注:推理级别有点类似于agent与另一个agent之间的历史交互),并且对于这些算法的复杂程度,它具有非常简单的语法。


  1. 的发展updateless决策理论它本身就是另一个故事,在这里就不详细讲述了。关于这个故事的两个简短的资料来源是Vladimir Nesov的“前期工作”部分控制恒定的程序,也这样的评论.Nesov的非常对UDT发展的简要总结如下:“(1)Eliezer Yudkowsky的早期非正式的讲话关于TDT)和安娜·萨拉蒙的文章提出了一些情况应该由不寻常的依赖关系建模的观点,这激发了如何选择合适的模型(推断依赖关系)的问题。(2)魏戴笠的UDT的帖子概述了一种方法,但当时我并不认为那篇文章回答了这个问题,最终在2010年5月,我在程序-控制-程序的案例中找到了答案。经过讨论决策理论邮件列表弗拉基米尔•Slepnev应用囚徒困境(PD)的技巧。(3)我和Slepnev写了更一般的方法,Slepnev的文章有更多的技术内容,而我的文章则更具有投机性,试图找到更好的方法来构建理论:“could”的简化会是什么样子啊控制恒定的程序,环境控制中的偏好概念.(4)围绕“虚假的道德论点”仍存在一些技术问题。看到这样的评论Benja Fallenstein和UDT中自我实现伪证明的一个例子.(5)一个解决方案是增加一个“鸡规则”决策算法,我发现对于programs-control-programs 2011年4月和讨论决策理论名单,但原来是理论上更健壮的设置阻止甲骨文公司在2011年12月的另一篇关于决策理论列表的讨论中,Slepnev在《一个UDT模型,有一个停止的oracle.我后来写的文章是决策的可预测性和对角线法.(6)斯蒂农用对角线战术(小鸡法则)武装自己写了这在理论上比斯莱普涅夫早期的无预兆的PD解决方案更容易处理。(7)在这一点上,我们有了一个UDT的形式化,它没有受到伪证问题的困扰,并演示了如何将它应用于像PD这样的非平凡问题。”
  2. 一些研究人亚博体育官网员可能会说,Slepnev在2010年8月发表的文章““could”的简化会是什么样子啊提出了UDT的“第一个正式模型”。
  3. Stiennon的帖子还改进了正式化,使用了两步“鸡规则”而不是一步“鸡规则”。