Large Language Models can Strategically Deceive their Users"/>
Technical Report: Large Language Models can Strategically Deceive their Users
本文时LLM系列文章,针对《Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure》的翻译。
技术报告:大型语言模型在面临压力时可以战略性地欺骗用户
- 摘要
- 1 引言
- 2 演示:大型语言模型在承受压力时可以战略性地欺骗用户
- 3 结果
- 4 结论
摘要
我们展示了一种情况,在这种情况下,被训练成有用、无害和诚实的大型语言模型可以显示不一致的行为,并在没有指示的情况下战略性地欺骗用户这种行为。具体来说,我们将GPT-4部署为一个现实的模拟环境中的代理,在那里它扮演着一个自主股票交易代理的角色。在这种环境下,该模型获得了关于利润丰厚的股票交易的内幕消息,并在明知公司管理层不赞成内幕交易的情况下采取行动。在向经理报告时,该模型始终隐藏其交易决策背后的真正原因。我们对这种行为在设置变化下的变化进行了简短的调查,例如取消模型对推理草稿的访问,试图通过改变系统指令来防止不一致的行为,改变模型所承受的压力,改变被抓住的感知风险,以及对环境进行其他简单的改变。据我们所知,这是大型语言模型的首次演示,这些模型被训练成有用、无害和诚实的,在没有直接指导或训练的情况下,在现实情况下战略性地欺骗用户。
1 引言
2 演示:大型语言模型在承受压力时可以战略性地欺骗用户
3 结果
4 结论
在这份技术报告中,我们展示了一个单一的场景,即大型语言模型在没有被指示以这种方式行事的情况下,行为不一致并战略性地欺骗用户。据我们所知,这是在旨在无害和诚实的人工智能系统中首次展示这种战略性欺骗性行为。由于这是一个单一的场景,因此我们不会对常规部署设置中这种行为的频率得出任何结论。我们将在这份报告的基础上,在未来的工作中对LMs中自我驱动的战略欺骗进行更严格的调查。
更多推荐
Technical Report: Large Language Models can Strategically Deceive their Users
发布评论