安全工程，目标选择，对准理论

人工智能能力研究旨在使计算机系统更加智能，能够更有效和高效地解决更广泛的问亚博体育官网题。亚博体育苹果app官方下载我们可以将这一点与专门用于在各种能力水平更安全或更多“的研亚博体育官网究中的研究亚博体育苹果app官方下载强大而有益在这篇文章中，我区分了三种可以被认为是“人工智能安全”工作的直接研究:亚博体育官网安全工程那目标选择,定位理论．

想象一下，在一个世界里，人类在对微积分或天体力学有了坚实的了解之前，不知怎么就学会了比空气还重的飞行。在这样一个世界里，需要做什么工作才能将人类安全送到月球?

在这种情况下，我们可以说手头的主要任务是制造火箭和提炼燃料，使火箭在发射时加速上升而不爆炸。空间的边界可以比作狭义智能和一般智能人工智能的边界。这两个边界都是模糊的，但具有工程重要性:航天器和飞行器有不同的用途，面临不同的约束。

与发展火箭能力的任务相配合的是安全工程的任务。安全工程是确保工程系统提供可接受的安全水平的艺术。亚博体育苹果app官方下载当谈到实现月球软着陆时，安全工程有许多不同的角色可以扮演。一个工程师团队可能会确保用于建造火箭的材料能够承受火箭发射的应力，并有很大的误差空间。另一个可能设计逃生系统亚博体育苹果app官方下载这确保了火箭中的人即使在失败的情况下也能存活下来。另一种可能是设计能够在危险环境中支持船员的生命支持系统。亚博体育苹果app官方下载

一个单独的重要任务是目标选择也就是说，选择在月球上的着陆地点。在月球任务中，目标研究可能需要设计和建造望远镜(如果它们还不存在的话)，并确定月球亚博体育官网上的着陆点。当然，只有这么多的目标可以提前完成，而月球着陆器可能需要设计，以便它可以在收到新数据的最后一分钟更改着陆目标；这同样需要高超的工程技术。

除了(安全)达到逃逸速度和确定你想去哪里的任务外，还有一个更重要的先决条件要登陆月球。这是火箭对齐亚博体育官网研究，达到正确的最终目的所需要的技术工作。我们将用这个类比来说明MIRI的研究重点，问题亚博体育官网人工智能结盟。

对齐的挑战

在月球上达到某个目标不是那么简单在相关的月球坐标上仔细指向火箭的鼻子，并击中“发射” - 即使您信任飞行员，也不需要根据需要进行课程更正。还有绘制天体之间的轨迹的重要任务。

这种火箭对齐任务可能需要一个不同的理论知识体内，这只是为了获得行星的有效载荷而要求。没有微积分，设计功能火箭会非常困难。尽管如此，有足够的韧度和足够的资源，我们可以想象在多年的审判和错误之后达到空间的文明 - 此时他们会面对达到空间的问题不足以朝着特定地点转向。¹

第一个火箭对齐研究人员可能会问：“我们将在理想条件下采亚博体育官网取哪些轨迹，而无需担心风或爆炸或燃油效率？”如果甚至那个问题超出了他们目前的能力，他们可能会进一步简化问题，询问，“在什么角度和速度下我们会发射炮弹假设地球是完美的球形，没有大气层，它会进入一个稳定的绕地球轨道吗?”

对于一名早期的火箭工程师来说，即使是制造任何能让火箭离开发射台的运载工具的问题，也仍然是一项令人沮丧的任务。工程师可能会问:“难道你不知道火箭不会从大炮里发射出来吗?”或者“绕地球转一圈和到达月球有什么关系?”然而，当涉及到实现月球软着陆时，了解火箭的排列是相当重要的。如果你还不知道以什么角度和速度发射一颗炮弹将如果最终在一个没有大气层的完美球形行星上稳定运行，那么在尝试月球任务之前，你可能需要对天体力学有更好的理解。

三种形式的人工智能安全研究亚博体育官网

这种情况与人工智能研究类似。亚博体育官网人工智能能力工作是相关安全工程任务的重要组成部分。今天工作的是人工智能安全工程师可能会专注于使大型软件的内部人员更加透明和人类解释。他们可能会确保系统在面上优雅地失败亚博体育苹果app官方下载对抗性观察．他们可以设计安全协议和早期预警系统，帮助运营商预防或处理系统故障。亚博体育苹果app官方下载²

人工智能安全工程是不可缺少的工作，将安全工程与能力工程分开是不可行的。航空航天工程中的日常安全工作并不依赖于那些越过工程师肩头窥视的伦理学家委员会。一些工程师会碰巧把他们的时间花在系统的组件上，因为安全的原因-如故障保护机制或备用生命支持-但安全工程是安全关键系统工程的一个组成部分，亚博体育苹果app官方下载而不是一个独立的学科。

在人工智能领域，目标选择解决问题：如果一个人可以构建一个强大的AI系统，应该用它来使用什么？亚博体育苹果app官方下载潜在的发展超智在理论和应用伦理学中提出了许多棘手的问题。在不久的将来，道德哲学家和心理学家以及人工智能研究界似乎可以解决其中的一些问题。亚博体育官网其他问题无疑需要留给未来解决。斯图尔特·拉塞尔甚至预测“在未来，道德哲学将是一个关键的行业领域。”我们同意这是一个重要的研究领域，但它不是机器智能研究所的主要重点。亚博体育官网

亚博体育官网MIRI的研究人员专注于人工智能问题对齐:研究如何在原则上引导一个强大的人工智能系统朝着一个特定的目标前进。亚博体育苹果app官方下载目标选择是关于“火箭”的目的地(“我们希望AI系统对我们的文明产生什么影响?”)，而AI能力工程则是关于让火箭达到逃逸速度(“我们如何让AI系统足够强大以帮助我们实现目标?”)，亚博体育苹果app官方下载对齐是关于知道如何将火箭瞄准特定的天体(“假设我们能够构建功能强大的AI系统，我们将如何将它们瞄准我们的目标?”)。亚博体育苹果app官方下载从我们对AI对齐的理解开始仍然在“什么是微积分？”阶段，我们提出类似于“在什么角度和速度的问题我们会发现炮弹将它放在稳定的轨道中，如果地球是完全球形的，没有气氛？”

选择有前途的人工智能协同研究路径不是一项简单的任务。亚博体育官网有了后见之明，我们可以很容易地说，早期的火箭对准研究人员应该从发明微积分和研究万有引力开始。亚博体育官网然而，对于那些还不清楚什么是“微积分”或“万有引力”的人来说，选择研究主题可能会相当困难。亚博体育官网有成果的研究方向需要与没有亚博体育官网成果的研究方向竞争，比如研究以太或亚里士多德物理学;哪些研究项目是没有结亚博体育官网果的，可能事先并不清楚。

朝向一个可接定剂的理论

在人工智能领域，“微积分”或“万有引力”的角色有哪些可能的候选人?

在MIRI，我们目前专注于诸如在演绎限制下的良好推理(逻辑的不确定性)，甚至对嵌入在大环境中的代理人也有效的决策理论，以及认可他们推理方式的推理程序。这项研究经亚博体育官网常涉及建立玩具模型，并在极大的简化下研究问题，类似于假设一个没有大气层的完美的球形地球。

大多数人在想到“人工智能安全研究”时，脑子里想到的并不是发展逻辑不确定性理论。亚博体育官网在这里，一个自然的想法是，如果我们不发展这样的理论，具体出了什么问题。如果一个人工智能系亚博体育苹果app官方下载统不能在数学或逻辑领域进行有限的推理，这听起来并不是特别“不安全”——一个需要进行数学推理但不能进行数学推理的系统可能是公平的无用的，但看到它变得越来越难以。

在我们看来，理解逻辑不确定性对于帮助我们很好地理解我们所构建的系统，从而合理地得出它们可以在一开始就保持一致的结论是很重要的。亚博体育苹果app官方下载在火箭对齐的情况下，可能会出现一个类似的问题:“如果您不开发微积分，您的火箭会发生什么糟糕的事情?你认为飞行员会在修正航线时遇到困难，然后发现他们无法快速计算出微小的矢量吗?”不过，问题的答案并不是飞行员可能会努力纠正他们的路线，而是你认为通向月球的轨道会让火箭偏离轨道。开发微积分的重点是不允许飞行员快速做出航向修正;问题的关键在于，在目前最好的工具都假定火箭是直线运动的情况下，我们可以讨论火箭的曲线轨迹。

这种情况与逻辑不确定性类似。问题不在于我们想象一个特定的AI系统因为处理逻辑不确定性错误而遭遇灾难性故障。亚博体育苹果app官方下载问题是，我们现有的分析理性代理的最佳工具假设这些代理在逻辑上是无所不知的，这使得我们的最佳理论与我们的最佳实用AI设计不相称。^3.

在这一点上，校准研究的目标不是为了解决特定的工程问题。亚博体育官网早期火箭对准研究的目标将是开发用于生成和评估火箭轨迹的共同语言和工具，亚博体育官网这将需要开发尚未存在的微积分和天体力学。同样，人工智能校准研究的目标是开发用于生成和评估方法的共享语言和工具，通亚博体育官网过这些方法，强大的人工智能系统可以按照预期的方式进行设计。亚博体育苹果app官方下载

有人可能会担心，很难为校准研究设定成功的基准。亚博体育官网牛顿对万有引力的理解是否足以让人尝试登陆月球?或者，在相信人可以软着陆在月球之前，必须先建立一个完整的广义相对论吗?^4.

在AI对齐的情况下，最初至少有一个明显的基准值得关注。想象一下，我们拥有一台连接互联网的强大的计算机，一个自动化的工厂，和一大笔钱。如果我们可以通过编程让计算机可靠地实现一些简单的目标(比如生产尽可能多的钻石)，那么很大一部分的人工智能校准研究将会完成。亚博体育官网这是因为很大一部分问题在于理解稳定的、容错的、明显与之一致的自治系统亚博体育苹果app官方下载一些目标。制定争夺火箭队的能力一些有信心地确定方向要比开发额外的能力将火箭导向特定的月球位置困难得多。

追求这个目标，例如这个目标是或多或少美里的方法对AI对准研究。亚博体育官网我们认为这是我们的问题，“如果燃料和风不担心，你可以用火箭击中月亮吗？”在自己的问题上回答这个问题不会确保智慧比人类的AI系统与我们的目标保持一致;亚博体育苹果app官方下载但它将代表我们目前的知识的主要进步，看起来我们可以安全地跳过的那种基本洞察力。

接下来是什么？

在过去的一年里，我们看到了巨大的增加关注确保未来的人工智能系统亚博体育苹果app官方下载强大而有益．AI安全工作正在非常认真，AI工程师正在加紧并承认这一点安全工程与能力工程是不可分离的．显而易见的是，随着人工智能成熟的领域，安全工程将成为AI文化的越来越牢固的嵌入部分。同时，对目标选择和其他安全问题的新调查将被展示人工智能与道德研讨会在AAAI-16，领域的较大年度会议之一。

第四种安全工作也接受了增加的支持：策略亚博体育官网研究。如果你的国家目前正在从事一个冷战,锁在一个太空竞赛,你很可能想咨询博弈论者和战略家,确保你试图把一个人送上月球不破坏一个微妙的政治平衡,导致核战争。^5.如果需要国际联盟以建立关于利用空间的条约，那么外交工作也可能成为安全工作的一个相关方面。同样的原则也适用于人工智能，在人工智能领域，联盟的建立和全球协调可能会在技术的开发和使用中发挥重要作用。

今年，战略研究一直亚博体育官网呈上升趋势。人工智能的影响生产战略分析是否与这种可能改变世界的技术的设计者有关，并将很快被加入战略人工智能研究中心亚博体育官网．新的利弗休姆未来情报中心将汇集许多不同学科的人来研究人工智能的社会影响，打造新的合作。的全球优先事项项目同时，分析了在确保强大的AI系统发展的积极结果方面可能最有效的干预措施。亚博体育苹果app官方下载

这一领域发展迅速，这些发展令人兴奋。然而，在整个过程中，尤其是人工智能校准研究似乎在很大程度上仍然不足。亚博体育官网

Miri并不是唯一在AI对齐工作的群体;来自其他组织和机构的少数研亚博体育官网究人员也开始提出类似的问题。Miri对AI对准研究的特殊方法绝不是唯一一种可用的方式 - 在首次思考如何将人类放在亚博体育官网月球上时，人们可能希望考虑火箭和空间电梯。无论谁在研究或他们所做的那样，对齐研究很重要。亚博体育官网

比人类更智能的人工智能系统可能还需要几十年的亚博体育苹果app官方下载时间，而且它们可能与现有的任何软件都不太相似。这限制了我们识别生产安全工程方法的能力。与此同时难以指定我们的值使得在道德理论中识别生产性研究变得困难。亚博体育官网对齐研究的优点是足够亚博体育官网抽象，可以潜在地应用于未来各种各样的计算系统，同时足够形式化，可以承认明确的进展。亚博体育苹果app官方下载因此，我们认为，通过优先考虑这些工作，人工智能安全领域将能够在不忽视人工智能中最重要的问题的情况下，在技术工作中立足。

安全工程、道德理论、战略和一般协作建设都是开发安全、有用的人工智能项目的重要组成部分。总的来说，由于最近人们对长期成果的兴趣上升，这些领域看起来有望蓬勃发展，我很高兴看到更多的努力和投资正在向这些重要任务迈进。

问题是:下一步我们需要投资什么?增长,我最希望看到的类型发生在人工智能社区未来将增长在AI对齐的研究中,通过新团体或组织的形成主要集中在AI校准和扩张现有的AI对齐团队在米里,加州大学伯克利分校、牛津大学,人类的未来研究所等机构。亚博体育官网

在尝试将火箭送上月球之前，重要的是我们知道如何将炮弹送入稳定的轨道。如果没有对火箭排列的良好理论理解，一个文明很可能最终达到逃逸速度;但要找到一个有价值、令人兴奋和新奇的地方，并可靠地到达那里，则是一个额外的挑战。

我感谢Eliezer Yudkowsky介绍这篇文章背后的想法，并向Lloyd Strohl III，Rob Bensinger等人提供帮助，以及帮助审查内容。

同样地，我们可以想象这样一种文明，它生活在太阳系中唯一的一颗行星上，或者生活在一颗永远被云覆盖的行星上，除了太阳和月亮，所有的物体都被云遮住了。亚博体育苹果app官方下载这样的文明可能对地球力学有充分的了解，但却缺乏天体力学的模型，也不知道同样的动力学定律适用于地球和空间。那么专家们对火箭对准的理论理解就会出现差距，与他们对如何达到逃逸速度的理解不同。↩
Roman Yampolskiy曾使用“人工智能安全工程”一词来指代人工智能系统的研究，这些系统可以为外部验证提供安全性证明，包括一些我们称之为“对齐研究”的理论研究。亚博体育官网亚博体育苹果app官方下载他的用法与这里的用法不同。↩
就像微积分对于建造能够达到逃逸速度的火箭和将火箭导向特定的月球坐标都很有价值一样，对逻辑不确定性的正式理解可能有助于提高人工智能的能力，并提高我们对强大的人工智能系统的匹配程度。亚博体育苹果app官方下载研究逻辑不确定性的主要动机是，许多其他的人工智能对齐问题在演绎受限推理器的模型上受阻，就像轨迹绘制在弯曲路径的模型上受阻一样。↩
当然，在这两种情况下，我们都不希望在等待量子力学和广义相对论的统一理论的同时暂停太空计划。我们不需要完美的对重力的理解。↩
这是历史上扮演的角色兰德公司．↩

你喜欢这篇文章吗?你可以享受我们的另一个yabo app 的帖子,包括:

对齐的挑战

三种形式的人工智能安全研究亚博体育官网

朝向一个可接定剂的理论

接下来是什么？

搜索

浏览

订阅