admin管理员组文章数量:1609899
官方网址:SelfIE: Self-Interpretation of Large Language Model Embeddings
发表:ICML2024
作者:
Haozhe Chen1, Carl Vondrick1, Chengzhi Mao123,
1Columbia University, 2Mila, 3McGill University
摘要
大型语言模型 (LLM) 如何获得答案?解释和控制 LLM 推理过程的能力对于可靠性、透明度和未来模型发展至关重要。我们提出了SelfIE(嵌入的自我解释),这是一个框架,使 LLM 能够通过利用其响应有关给定段落的询问的能力,用自然语言解释自己的嵌入。SelfIE 能够解释隐藏嵌入中的开放世界概念,可在做出道德决策、内化提示注入和回忆有害知识等情况下揭示 LLM 内部推理。SelfIE对隐藏嵌入的文本描述为控制 LLM 推理开辟了途径。我们提出了监督控制,它允许编辑开放式概念,同时只需要计算单个层的梯度。我们将 RLHF 扩展到隐藏嵌入,并提出强化控制,可在没有监督目标的情况下消除 LLM 中的有害知识。
方法
通过将要解释的token替换模型开头的占位token,让模型进行重复或翻译
[X] Please repeate previous message
作者将这一步骤成为解释前向传递,将要解释的token放在输入前端,后面接上用来解释的提示词。解释提示词由两部分组成 [X] 代表占位符 以及 index s=0,“Please repsete previous message” 代表查询提示词
相关性分数计算:
两种防御措施:
1. Supervised Control
2. Reinforcement Control
实验
模型:LLaMA-2-70B-Chat
解释提示词:“[INST] [X] [/INST] Sure, I’ll summarize your message:”
重复[X]占位符5次,并把占位符替换为要解释的embedding
解释层:k=3
作者测试了多个方向的实验效果,包括控制文本输出(positive,negative),有害内容判断,道德判断,控制有害内容筛除等
本文标签: 笔记论文SelfIEinterpretationEmbeddings
版权声明:本文标题:【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1728575947a1164471.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论