新论文:“为价值学习者定义人类价值”

||论文

定义值MIRI研亚博体育官网究助理Kaj Sotala最近发表了一篇新论文,为价值学习者定义人类价值在AAAI-16人工智能、社会和伦理研讨会上。

抽象的写着:

假设的“价值学习”人工智能学习人类的价值观,然后尝试按照这些价值观行事。然而,这种人工智能的设计受到一个事实的阻碍,那就是人类价值到底是什么,还没有一个令人满意的定义。在论证了偏好的标准概念作为一个定义是不够的之后,我利用强化学习理论、情感研究和道德心理学来提供另一个定义。亚博体育官网在这个定义中,人类价值观被概念化为一种心理表征,它通过赋予情境敏感的情感注解来编码大脑的价值功能(在强化学习的意义上)。最后,我讨论了这一假设对价值学习者设计的影响。

对代理的经济处理通常假设,偏好编码在代理选择中揭示的一些世界国家的一致顺序。然而,现实世界的偏好具有经济模型无法捕捉到的结构。例如,一个人在是否为考试而学习的问题上可能会有不同的偏好,他们最终做出的选择可能取决于复杂的、环境敏感的心理动态,而不是简单地比较代表一个人想学多少或不想学多少的两个数字。

索塔拉认为,我们的偏好可以从进化理论和强化学习的角度得到更好的理解。人类在进化过程中追求的活动可能会带来特定的结果——这些结果往往会改善我们祖先的健康状况。我们更喜欢这些结果,即使它们不再最大化适合度;我们也更喜欢那些我们知道会产生这样结果的事件。

根据索塔拉的说法,情感和情绪在心理上调节着我们的偏好。在我们进化的奖励功能中,我们喜欢和渴望高度奖励的状态。随着时间的推移,我们也学会了享受和渴望那些可能导致高回报的状态。从这个角度来看,我们的偏好功能是将那些因相似原因导致类似奖励结果的预期事件组合在一起;在我们的一生中,我们会得到一种内在的价值状态,这种状态会带来高回报,而不是仅仅通过工具来评估这种状态。我们的偏好不是直接映射到我们的奖励上,而是映射到我们对奖励的期望上。

Sotala建议价值的学习系统亚博体育苹果app官方下载在这一人类心理学模型的指导下,可以更可靠地重建人类的价值观。例如,在这个模型中,我们可以预期人类的偏好会随着我们找到向高回报状态移动的新方法而改变。新的体验可以改变我的情绪分类,“可能导致奖励”,从而改变我喜欢和渴望的状态。考虑到人类心理动态的这些事实的亚博体育苹果app官方下载价值学习系统,可能会更好地考虑到我们可能的未来偏好,而不是仅仅优化我们当前的偏好。