新论文:“面向先进机器学习系统的对齐”亚博体育苹果app官方下载

||论文

先进机器学习系统的对齐亚博体育苹果app官方下载MIRI的研究亚博体育官网一直集中在我们的2014年末研究议程亚博体育官网,特别是对最优推理的形式化有界的反光决策理论代理嵌入到他们的环境中.我们的研亚博体育官网究团队在这方面取得了长足的进展,包括在逻辑不确定性方面的重大突破,我们将在未来几周宣布这一进展。

今天我们宣布了一个新的研究议程,”亚博体育官网对准先进的机器学习系统亚博体育苹果app官方下载“未来,我们大约一半的时间将花在这个新的议程上,而另一半时间将花在我们以前的议程上。抽象的写着:

我们围绕一个问题调查了八个研究领亚博体育官网域:随着学习系统变得越来越智能和自主,什么样的设计原则可以最好地确保它们的行为与操作人员的利益相一致?亚博体育苹果app官方下载我们关注两个主要技术障碍AI对齐:挑战的指定合适的目标函数,设计人工智能系统的挑战,甚至避免意想不到的后果和不良行为的情况下目标函数不完全与设计者的意图。亚博体育苹果app官方下载

在这项研究计划中调查的开放问题包括:我们如何训练强化学习者采取亚博体育官网行动,更易于接受的有意义的评估,由聪明的监督者?什么样的目标函数激励一个系统“不会产生过大的影响”或“不会产生很多副作用”?亚博体育苹果app官方下载我们讨论了这些问题、相关工作和未来研究的潜在方向,目的是突出当今机器学习中看似容易处理的相关研究主题。亚博体育官网

我们的新报告由Jessica Taylor、Eliezer Yudkowsky、Patrick LaVictoire和Andrew Critch合著,讨论了八个新的研究方向(亚博体育官网以前在这里总结).下面,我将解释这些问题背后的原理,以及它们如何与我们的旧研究议程和新研究议程相联系。”亚博体育官网人工智能安全的具体问题由谷歌Brain的Dario Amodei和Chris Olah带头提出的议程。

通过减少自主性来提高安全性

前三个研究领域集中于与之相关的问亚博体育官网题行为由代理即基于用户短期工具偏好亚博体育苹果app官方下载的行为的概念系统:

1.归纳模糊识别:我们如何训练ML系统来检测并通知我们测试数亚博体育苹果app官方下载据的分类在训练数据中高度不确定的情况?

2.强健人类模仿我们如何设计和训练ML系统来有效地模仿从事复杂和困难任务的人类?亚博体育苹果app官方下载

3.通知监督我们如何训练一个强化学习系统,使其采取行动,以帮助一个智能的监督者,如人类,准确地评估系亚博体育苹果app官方下载统的表现?

这三个问题涉及到我们在性能/自主性和安全性之间进行权衡的不同方式。在一个极端,一个完全自主的、超人类能力的系统将使它难以建立任何强有力的安全保障。亚博体育苹果app官方下载我们可以通过构建一些仍然相当智能和自主的系统来降低风险,但在操作特别高风险的情况下,亚博体育苹果app官方下载会停下来咨询运营商。模糊识别是一种充实哪些场景是“高风险的”的方法:在这种情况下,系统迄今为止的经验对它试图学习的一些事实或人类价值没有提供信息。亚博体育苹果app官方下载

在另一个极端,我们可以考虑ML系统并不比它们的用户更聪明,并采取亚博体育苹果app官方下载没有以外的行动他们的用户会怎么做,或他们的用户会告诉他们怎么做.如果我们能够正确地设计一个系统,让它按照它认为可信的、知情亚博体育苹果app官方下载的人类会做的事情去做,那么我们就可以用先进的ML系统的一些潜在好处来换取更温和的故障模式。

这两个极端,人类模仿和(大多数情况下)自主追求目标,是有用的研究对象,因为它们有助于简化和分解问题的关键部分。然而,在实践中,歧义识别对其本身的限制可能过于温和,严格的人类模仿可能无法有效地实现。知情监督考虑了更温和的方法来让人员参与其中:设计更透明的ML系统,帮助操作人员理解所选操作背后的原因。亚博体育苹果app官方下载

提高安全性而不降低自主性

无论我们通过将人类循环到人工智能系统的决策中获得了什么保证,我们也希望在监管不可行的情况下提高系统的可靠性亚博体育苹果app官方下载。我们的其他五个问题集中在提高系统自主追求现实世界目标的可靠性和容错能力,从以稳健可靠的方式指定这些目标的问题开始:亚博体育苹果app官方下载

4.可概括的环境目标我们如何才能创建一个系统,使其能够稳健地亚博体育苹果app官方下载追求根据环境状态定义的目标,而不是直接根据感官数据定义的目标?

5.保守的观念如何训练分类器来开发排除高度非典型例子和边缘情况的有用概念?

6.影响措施:什么样的规则者会激励一个系统以最小的副作用来追求它的目标?亚博体育苹果app官方下载

7.轻微的优化我们该如何设计能够在“不过分努力”的情况亚博体育苹果app官方下载下追求目标的系统——当目标已经很好地实现时就停止,而不是花费更多的资源去寻找获得绝对最佳预期分数的方法?

8.避免工具性动机我们如何设计和训练这样的系统,使其缺乏操纵和欺骗其操作员的默亚博体育苹果app官方下载认动机,竞争稀缺资源,等等?

歧义识别学习者的设计目的是预测他们可能会遇到的边缘情况,并在这些情况下遵从人类操作者,而保守学习者的设计目的是在边缘情况下向安全的方向出错。如果一个烹饪机器人发现冰箱里的食物不够,它应该试着把猫煮熟吗?歧义识别方法说,当回答“猫是食物吗?”,然后停下来咨询人类操作员;保守的概念方法认为,在不确定的情况下,只假设猫不是食物,因为对于烹饪机器人来说,低估食物的数量比高估食物更安全。然而,我们还不清楚如何将这种推理形式化。

影响措施为限制人工智能事故的潜在范围提供了另一种途径。如果我们能定义一些“影响”的衡量标准,我们就能设计出能够从直观上区分高影响行为和低影响行为的系统,并通常选择低影响的选亚博体育苹果app官方下载项。

或者,我们可以设计“温和的”系统,即不需要非常努力地去做任何事情,而不是亚博体育苹果app官方下载尽可能地去设计具有低影响的系统。限制系统将投入到决策中的资源(通过温和的优化)与限亚博体育苹果app官方下载制系统将决定引起多少变化(通过影响度量)是不同的;这两种降低风险的方法都没有得到充分的探索。

最后,我们将探讨各种不同的方法,以防止违约制度激励在“规避工具激励”伞类下对抗地对待运营商。亚博体育苹果app官方下载在同时追求所有这些研究方向时,我们的希望是,结合这些特性的系统将比实亚博体育官网现其中任何一个的系统具有更高的可信度。亚博体育苹果app官方下载这种方法也可以作为一种对冲,以防某些问题在实践中无法解决,并允许在一个问题上行之有效的想法可以重新应用到其他问题上。

与其他研究议程的联系亚博体育官网

我们的新技术议程,我们2014年的议程,以及人工智能安全的具体问题在将人工智能系统与人类兴趣相匹配的问题上,他们采取了不同的方法,尽管他们提出的研究方向有很多重叠之处。亚博体育官网亚博体育苹果app官方下载

我们已经将2014年议程的名称改为将机器智能与人类兴趣结合起来的代理基础(摘自《将超级智能与人类的兴趣结合起来》),以帮助突出它与我们新议程的不同之处。原因在我们的讨论提前声明在“先进机器学习系统的对齐”中,我们的新议程旨在帮助更先进的人工智能相对接近和相对直接起亚博体育苹果app官方下载源于当代ML技术的场景,而我们的代理基金会议程对于何时以及如何开发先进的人工智能更不可知。

当我们最近写,我们认为开发一个高度可靠的推理和决策的基本形式理论”可以得到很强的保证先进的人工智能系统的行为——比许多目前认为是可能的,在当时最成功的机器学习技术往往知之甚少。”亚博体育苹果app官方下载如果没有这样的理论,人工智能结盟将是一项困难得多的任务。

《人工智能安全的具体问题》一书的作者写道,他们自己的关注点“是现代机器学习系统中实际安全问题的实证研究,我们相信,这些研究可能在短期和长期的各种潜在风险中都非常有用。”亚博体育苹果app官方下载他们的论文讨论了许多与ML议程(或密切相关的议程)对齐相同的问题,但更多地指向在现有工作的基础上构建和在当前系统中寻找应用。亚博体育苹果app官方下载

代理基金会的议程可以说遵循的原则是:“从了解最少的长期人工智能安全问题开始,因为这些问题似乎需要做的工作最多,而且最有可能严重改变我们对整体问题空间的理解。”具体问题议程遵循以下原则:“从最适用于当今系统的长期人工智能安全问题开始,因为这些问题是人工智能研究界最容易与现有工作联系起来的。”亚博体育官网亚博体育苹果app官方下载

与“人工智能安全的具体问题”相比,Taylor等人的新议程较少关注当前和近期的系统,但比agent foundation议程更面向ml。亚博体育苹果app官方下载这张图表有助于映射主题之间的一些对应关系代理基金会议程(纯文本),具体问题议程(斜体),以及对齐机器学习议程(大胆的)讨论:

具有高可靠性的工作

  • 现实世界模型~可概括的环境目标避免奖励黑客
    • 归化感应
    • 本体标识
  • 决策理论
  • 逻辑的不确定性
  • Vingean反射

与容错相关的工作

  • 归纳模糊识别歧义识别~对分布变化的健壮性
  • 强健人类模仿
  • 通知监督可伸缩的监督
  • 保守的观念
  • 影响措施=家庭生活~避免负面副作用
  • 轻微的优化
  • 避免工具性动机
  • 安全的探索

“~”表示(有时非常粗略)的相似和对应,而“=”表示同一概念的不同名称。

例如,“现实世界模型”和“可概括的环境目标”都旨在使强化学习形式(如AIXI)的环境和目标表示更健壮,而且这两者都可以被视为避免奖励黑客攻击的特定策略。我们在agent foundation议程下的工作主要集中在没有明确agent/环境边界(归化归纳法)的环境下的人工智能系统的正式模型,亚博体育苹果app官方下载而我们在新议程下的工作将更多地集中在世界模型的构建上,这些模型承认环境目标的规范,而不是简单的感知目标(本体论识别)。

有关这些研究主题之间关系的更完整的讨论,请参见亚博体育官网泰勒等人的论文


注册以获得最新的MIRI技术结果

每发表一篇新的技术论文,就会得到通知。