学习笔记|NLP中的注意力机制汇总|电子爱好者

admin管理员组
文章数量:1622541

说在前面的话：

前段时间因为组会要对注意力机制做一个报告，我在收集资料的时候发现，网上很多所谓的attention总结无非最后都陷入了对transformer模型和自注意力机制的解释中，其实这并没有对所有的注意力机制类型进行一个详细的总结，这对一个初学者来说很容易陷入一个思维定势中。因此我决定深入剖析各个经典文章中所使用的Attention机制，并对他们进行一个分类总结。可以说这篇文章内容是全网最全的，应该找不到比这个更全的总结了，除了参考一些综述和网上资料，我还根据自己的理解整合并加入了一些新的内容。本文参考的文献和网上资料都会在最后部分给出。

一、Attention的含义

二、Attention的可解释性

三、Attention的种类

四、Attention的网络架构及分析

五、其他Attention

六、参考文献

一、Attention的含义

Attention机制的原理来源于人脑中视觉系统通常是有选择性地关注事物的某些部分，而忽略掉无关紧要的部分，从而快速筛选出重要的信息
Attention的计算本质是根据事物之间的关系进行线性加权得到新的表示，这个表示蕴含了各个事物之间的相对重要程度
Attention是一种思想、机制，可以用到很多模型和结构中。常见的应用领域有：机器翻译、文本生成、推荐系统、图像分割、语音识别等
Attention的计算过程类似“检索”的过程，计算方式可以视作某种相似度计算。但与检索不同，检索最终要从检索库中取出与查询向量相似度最高的向量，而注意力计算只是通过计算查询向量与检索库中所有向量之间的相似度获得一个权重向量，进而将这个权重向量应用到原本向量（即线性加权）

随着Transformer的流行，因为transformer使用的是纯自注意力而不借助RNN的结构，所以有越来越多人关注自注意力机制的使用。一开始看这篇论文时，里面提到了qkv这三个向量，一开始其实并不是很明白qkv到底代表什么，在这里将Attention机制与检索进行类比：

假设给定一个要查询的向量表示q，以及对应的检索库，其中是关键字对应的评分，那么查询向量q从检索库中检索的计算过程就是：，其中是计算查询向量q和关键字的相似度函数。

二、Attention的可解释性

自2014年Bahdanau将attention作为软对齐引入神经机器翻译以来，大量的自然语言处理工作都将其作为模型中一个提高性能的重要模块，大量的实验表明attention机制是计算高效且效果显著的。Attention的另一个好处就是，attention是解释神经模型内部工作的重要方法之一，因此为了能更好的了解其内在机理来优化模型，现在也有很多研究是针对Attention机制的可解释性的探讨，解释其为什么有效，并且提供证明，这是一个很有价值的研究方向。但是，也有学者对其提出质疑，认为attention机制并不具备可解释性。

人类注意力认知过程是选择性地专注于一件或几件事物而忽略其他事物的认知过程。而注意力机制则是模拟这一过程给予序列数据不同位置不同的权重，通过权重大小突出重要信息和抑制不相关信息。

有一些研究将attention可视化了出来，比如说在目标检测中使用attention，其权重会倾向于要检测的物体本身，在翻译或理解句子时就会把注意力集中到对句子贡献大的词语上，在语音识别中注意力权重会集中到语音频谱集中的波段。这个可视化的结果和我们人类的注意力认知过程是相符合的，因为我们会选择性地将注意力分配到显眼或重要的事物而忽略掉其他事物。

现在有一些文章研究attention是否能帮助神经网络模型可解释，但是他们得出的结论有些矛盾，比如以下这两篇，第一篇的结论是attention机制不可解释，是个黑盒子。第二篇是对第一篇不可解释论证方法的反驳，但并不是证明attention可解释。

但是追究他们论证结果差异的根源，根本原因是在于对可解释性这个定义理解的不同，而且他们的论证手段是否科学也很受争议。但是attention的可解释性大体可以分为两个。

可解释性的定义：

Attention权重的高低应该与对应位置信息的重要程度正相关
高权重的输入单元对于输出结果有决定性作用

因为这些论证过程涉及很多数学知识和复杂的实验设计，所以我没有细看，了解不多。

感兴趣的同学可以自己去看这两篇文章。

不过attention机制现在是应用的越来越广了，在很多任务上都有很大的效果提升，所以在我们的研究中可以好好利用这个技巧。

三、Attention的种类

接下来是介绍attention的详细分类，主要集中于NLP领域，针对序列数据的处理。后面也会介绍一些其它领域的attention的应用。

根据目前大部分文章中所使用的attention的特点，可以从6个不同角度对Attention进行分类。

1、权重计算方式

权重计算方式也就是相似度计算。主要有以下几种：

（1）矩阵内积

（2）余弦相似度

（3）拼接方式（加性注意力）

（4）多层感知

多层感知也就是MLP，在qk向量相加后经过激活函数激活再乘上一个向量。

以上所有计算方式除了qk向量，其他向量或矩阵都是需要学习的。

最常用的是1、3、4种。

2、计算区域

计算区域是指一个查询向量q在检索库中检索时，参与计算的key的数量。

（1）Soft/Global Attention

对所有key求权重概率，也就是说在查询的时候要计算检索库里面所有的key与查询向量q之间的相似度，是一种全局的计算方式
考虑了所有信息，但计算量比较大

（2）Hard Attention

直接精准定位到某个key，这个key的概率是1，其余key的概率全部是0
不可导，一般需要用强化学习的方法进行训练（或者使用gumbel softmax采样）
这种对齐方式要求很高，要求一步到位，如果没有正确对齐，会带来很大的影响

（3）Local Attention

以上两种方式的折中，对一个窗口区域进行计算
先用Hard方式定位到某个地方，以这个点为中心可以得到一个窗口区域，在这个小区域内用Soft方式来算Attention

大部分文章中使用的是global attention

3、所用信息

所用信息是指在计算attention时是否用到外部信息或者说是否有多个输入。

（1）General/Distinctive Attention

这种方式利用到了外部信息,常用于需要构建两段文本关系的任务
query一般包含了额外信息，根据外部query对原文进行对齐
这种方式可用于机器翻译、图像字幕生成、语音识别等任务

(ps:对齐的意思是指在原文中找到与query相关度高的key，对齐这种说法通常在机器翻译或图像字幕生成中使用，指与要生成的词语相关度高的信息)

（2）Self Attention

这种方式只使用内部信息，key

本文标签：注意力学习笔记机制 NLP

版权声明：本文标题：学习笔记|NLP中的注意力机制汇总内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728872195a1177393.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

学习笔记|NLP中的注意力机制汇总

一、Attention的含义

二、Attention的可解释性

三、Attention的种类

1、权重计算方式

2、计算区域

3、所用信息

更多相关文章

Java修仙之路，十万字吐血整理全网最完整Java学习笔记（高级篇）

Spring Boot 2 基础篇学习笔记

黑马程序员3天带你玩转Python深度学习TensorFlow框架学习笔记

【学习笔记】APP测试基本流程及测试要点

内核定时机制API之current_kernel_time

PCIe扫盲——复位机制介绍（Fundamental &amp; Hot）

Fundamental of 4G LTE - 学习笔记（2）Multiple Access (FDMATDMACDMAOFDMA)

软考系统架构设计师学习笔记

hadoop大数据开发技术学习笔记第一天：数据库介绍与MySQL安装与卸载（超详细）

大学英语精读第三版（第六册）学习笔记（原文及全文翻译）——4B - Our Way of Life Makes Us Miserable（我们的生活方式把人害苦了）

大学英语精读第三版（第五册）学习笔记（原文及全文翻译）——7B -Three Days to See（假如给我三天光明）

android 11.0 去掉android正在启动弹窗 屏蔽FallbackHome机制 直接进入默认Launcher

2022 最新 Android 基础教程，从开发入门到项目实战【b站动脑学院】学习笔记——第四章：活动Activity

《C编程专家》——第一章学习笔记

Oracle ASM磁盘组冗余机制(Failure group)

一文让你轻松理解WLAN数据加密机制

转java学习笔记_.net转java学习笔记（四）：java语法基础

Unity学习笔记：设计模式-Mediator（中介）

注意力机制最新综述解读

latex简单入门学习笔记

发表评论

推荐文章

如何解决Authentication failure问题

聆听李凯院士的报告----Disruptive Innovation

redhat安装google-chrome，香香儿～～～～

u盘格式化恢复怎么做？推荐4个方法找回重要数据

联想电脑（xx%电量可用已连接适配器，未充电）解决方法

热门文章

Aerospace Integrated Networks Innovation for Empowering 6G: A Survey and Future Challenges

PHP LOL接口,电竞英雄联盟数据API接口 - 【赛事列表】API调用示例代码

Requests库应用实例4：网络图片的爬取与存储(以爬取英雄联盟皮肤图片为例)

瑞合信LED字幕WiFi卡使用教程（8.0版）

Google Chrome开发者工具-移动仿真：触摸事件仿真

mathtype破解版百度云链接mathtype 6.9永久破解版

鼎博梯控MF1卡UID卡修复

Windows11添加美式（纯英文）输入法

Histograms of Oriented Gradients for Human Detection

win10更新卡在0%如何解决？

最新文章

戴尔i3 10100处理器装win7系统及bios设置教程(支持集显安装)

Win10 linux子系统文件位置

网络发现不了其他计算机,win10网络发现不了其他电脑怎么办_win10网络里找不到其他电脑如何处理...

win10删除右键菜单多余项

Win10的投屏功能无法使用问题解决思路

服务器不能用pe安装win7系统安装,PE安装win7系统失败的完美解决方案

win10更新系统后，键盘和触摸板不能用的问题

win10 自带的远程桌面连接怎么用？

关于win10系统还原报错的解决方案

计算机怎样设置默认美式键盘,完美：如何在win10系统中将默认输入法设置为美式键盘...

win10右键文件夹无反应

解决win10右下角输入法出现一个‘拼’字图标

WIN10下ADB工具包安装的教程和总结--201809

win10设置为高性能之后，字体模糊有锯齿

win10打开软件总是弹出用户帐户控制怎么办

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

PCIe扫盲——复位机制介绍（Fundamental & Hot）

android 11.0 去掉android正在启动弹窗屏蔽FallbackHome机制直接进入默认Launcher

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载