新论文:“安全可中断代理”

||论文

安全可中断的代理谷歌DeepMind研究科学家L亚博体育官网aurent Orseau和MIRI研究助理Stuart Armstrong写了一篇关于容错代理设计的新论文,”安全可中断的代理这篇论文即将在第32届人工智能不确定性会议

文摘:

与现实世界这样的复杂环境相互作用的强化学习代理不太可能一直表现最佳。如果这样一个代理的操作实时在人类的监督下,现在它可能是必要的对于人类操作员按下红色按钮为防止代理在一个有害的actions-harmful序列为代理或铅代理到一个安全的环境和情况。然而,如果学习代理希望从这个序列中获得奖励,它可能会在长期学习中避免这样的干扰,例如禁用红色按钮——这是一个不希望出现的结果。

本文探讨了一种方法,以确保学习代理将学会防止(或寻找!)被环境或人类操作者打断。我们提供了一个安全可中断性的正式定义,并利用非策略学习特性来证明,要么一些代理已经是安全可中断的,比如Q-learning,要么可以很容易地实现安全可中断,比如Sarsa。我们证明,对于(确定性的)一般可计算环境,即使是理想的、不可计算的强化学习代理也可以被安全地中断。

Orseau和Armstrong的论文是对问题的一个新的探讨可订正.一个可纠正的代理人是一个认识到自己有缺陷或正在开发中,并帮助其运营者维护、改进或替换自己,而不是抵制这种尝试的人。

在超级智能人工智能系统中,可修正性主要是为了避免不安全亚博体育苹果app官方下载收敛的工具性的政策(例如,保护当前目标系统不受未来修改的策略),因为这些系统有不正确的最终目标。亚博体育苹果app官方下载这给我们提供了更多的空间,让我们可以采用近似的、试错的和基于学习的AI解决方案价值规范

可中断性是试图将可纠正性的一个直观概念形式化。效用无差异(在苏亚雷斯、Fallenstein、尤多科夫斯基和阿姆斯特朗的可订正)是过去试图定义一种不同的可纠正性的一个例子:系统对程序员修改其最终目标的干预不感兴趣,因此将避免强迫他们的程序员做出这样的修改或避免这样的修改。亚博体育苹果app官方下载相反,“安全可中断代理”试图定义对程序员的干预不感兴趣的系统亚博体育苹果app官方下载政策,并且不会试图阻止程序员干预他们的日常活动(也不会试图他们干预)。

这里的目标是,如果agent相信未来不会有干扰,则使agent的策略收敛到最优的策略。即使代理在过去经历过中断,它的行为应该就像它将永远不会经历任何进一步的中断一样。Orseau和Armstrong证明了几种类型的代理是安全可中断的,或者很容易被做成安全可中断的。

进一步阅读:


注册以获得最新的MIRI技术结果

每发表一篇新的技术论文,就会得到通知。