【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings|电子爱好者

admin管理员组
文章数量:1609899

官方网址：SelfIE: Self-Interpretation of Large Language Model Embeddings

发表：ICML2024

作者：

Haozhe Chen1, Carl Vondrick1, Chengzhi Mao123,

1Columbia University, 2Mila, 3McGill University

摘要

大型语言模型 (LLM) 如何获得答案？解释和控制 LLM 推理过程的能力对于可靠性、透明度和未来模型发展至关重要。我们提出了SelfIE（嵌入的自我解释），这是一个框架，使 LLM 能够通过利用其响应有关给定段落的询问的能力，用自然语言解释自己的嵌入。SelfIE 能够解释隐藏嵌入中的开放世界概念，可在做出道德决策、内化提示注入和回忆有害知识等情况下揭示 LLM 内部推理。SelfIE对隐藏嵌入的文本描述为控制 LLM 推理开辟了途径。我们提出了监督控制，它允许编辑开放式概念，同时只需要计算单个层的梯度。我们将 RLHF 扩展到隐藏嵌入，并提出强化控制，可在没有监督目标的情况下消除 LLM 中的有害知识。

方法

通过将要解释的token替换模型开头的占位token，让模型进行重复或翻译

[X] Please repeate previous message

作者将这一步骤成为解释前向传递，将要解释的token放在输入前端，后面接上用来解释的提示词。解释提示词由两部分组成 [X] 代表占位符以及 index s=0，“Please repsete previous message” 代表查询提示词

实验

模型：LLaMA-2-70B-Chat

解释提示词：“[INST] [X] [/INST] Sure, I’ll summarize your message:”

重复[X]占位符5次，并把占位符替换为要解释的embedding

解释层：k=3

作者测试了多个方向的实验效果，包括控制文本输出（positive，negative），有害内容判断，道德判断，控制有害内容筛除等

本文标签：笔记论文 SelfIE interpretation Embeddings

版权声明：本文标题：【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728575947a1164471.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings

摘要

方法

实验

更多相关文章

Android N Combines AOT, Interpretation and JIT

【论文解读+代码实现】Neural Response Interpretation through the Lens of Critical Pathways

15Visualization and Interpretation of Latent Spaces for Controlling Expressive Speech Synthesi

论文阅读——A Disentangling Invertible Interpretation Network for Explaining Latent Representations

快速井筒测井解释工具：Basic-Well-Log-Interpretation

CS61 Structure and Interpretation of Computer Programs 学习笔记-第一章从Lamba表达式理解函数编程范式

CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation

KubeSphere Noun interpretation

signature=c6caa89b4de0f520e4ec0147d95111d3,Interpretation of the Fluorescence Signatures from Vegeta...

Statistics for MIB RFC1066-MIB-INTERPRETATION

visual scene interpretation

论文阅读：multimodal remote sensing survey 遥感多模态综述

【时间序列】KDD 2021丨时间序列相关研究论文汇总

presentation and techniques for 3d object recognition and scene interpretation一书阅读笔记（更新中）

遥感图像处理笔记之【多模态遥感图像综述】

【论文阅读】无人机定位方法调研 A review on absolute visual localization for UAV 2021

A Simple Interpretation of the 4GWM

Structure and Interpretation of Computer Programs (the Purple Book)

论文笔记：Interpretable Convolutional Neural Networks

探索CVPR2023 Paper Code Interpretation：深度学习的互动式理解平台

发表评论

推荐文章

MX_Player_Pro_专业精简版AC3DTSEAC3 By.SOLDIER-就要应用网91apps.cn

一文读懂机器学习分类全流程

首款国产操作系统面世，比Windows更美观，个人用户永久免费

TP-LINK KEY 解析工具指南

开源项目 `outlier-interpretation` 使用教程

热门文章

怎么看电脑是固态还是机械硬盘？数据丢失怎么办

apk下载链接（实时更新）

两个计算机系统安装,如何一个电脑装两个系统|一个电脑装2个系统方法

计算机开机主机不停地重启,电脑开机几秒自动重启停不下来，这是怎么回事？...

用opencv的dnn模块做yolov5目标检测

SpringBoot项目整合Nacos失败？报异常：java.net.ConnectException: Connection refused: no further information

NCRE全国计算机四级网络工程师

安装win7提示“我们无法创建新的分区，也找不到现有分区”

中国互联网20年简史

python游戏脚本之调用按键精灵插件模拟输入（二）

最新文章

在 装的Qt commercial 4.6.0 时报错

Toad DBA Suite for Oracle 12.6 64-bit Commercial 简单连接

Intel Non-Commercial Software Download

Toad for Oracle 10.5.1 Commercial

mysqlrouter、mycat+mysql8.0.30实现读写分离

电脑定时自动关机的多种实现方法

Toad for Oracle 10.5 Commercial

编译qt-win-commercial-src-4.3.0全过程。

java指令工具_jvm 指令工具 jcmd 命令（Java多功能命令行）

rpm 安装mysql的顺序_centos7 RPM方式安装MySQL5.7

Windows2000 server + Microsoft Visual Studio 6.0 + Qt-commercial4.22-src编译过程

每日论文推荐：我们距离GPT-4V有多远，最接近GPT-4V的开源多模态大模型

国际贸易术语(incoterms)

smartgit 授权文件 Free Trial License to Non-Commercial

Linux之Python代码打包工具Nuitka使用说明

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

在装的Qt commercial 4.6.0 时报错

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载