注意力机制到底是什么——基于常识的基本结构介绍

编程入门 行业动态 更新时间:2024-10-22 20:36:59

注意力机制<a href=https://www.elefans.com/category/jswz/34/1771017.html style=到底是什么——基于常识的基本结构介绍"/>

注意力机制到底是什么——基于常识的基本结构介绍

摘要:注意力机制(Attention Mechanism)是人们在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小。本文以一个基于注意力机制的机器翻译模型为例,从人的直觉、中英文翻译的常识、特征工程等角度,对注意力机制的思想和机理进行了阐述;并介绍了一种常见的注意力机制实现形式,即基于感知机的注意力机制;还介绍了一种比较经典的注意力机制,即自注意力机制(self-attention)。

1引言

注意力机制是上世纪九十年代,一些科学家在研究人类视觉时,发现的一种信号处理机制。人工智能领域的从业者把这种机制引入到一些模型里,并取得了成功。目前,注意力机制已经成为深度学习领域,尤其是自然语言处理领域,应用最广泛的“组件”之一。这两年曝光度极高的BERT、GPT、Transformer等等模型或结构,都采用了注意力机制。

由于对计算机视觉领域不是很熟,我在学习和整理注意力机制相关内容的时候,采用了注意力机制的思想:基本忽略CV相关内容,主要精力放在NLP方面。因此,本文基本不涉及CV同志们的工作。

2认知科学、特征工程与注意力机制

“注意力机制”是上个世纪90年代,认知科学领域的学者发现的一个人类处理信息时采用的机制。我们做数据科学类任务时,经常做的特征工程,看起来很像一个模型外挂的注意力模块。

2.1人身上的注意力机制

假设我和老婆在超市里买菜。由于超市里的情况如图1-1所示,我需要时不时地从人海里找到买了跳刀的老婆。我的眼睛真厉害,可以看到这么多东西,视线范围内所有事物的形状、颜色、纹路等等全都接收进来——大脑表示压力很大,实在处理不过来,于是选择忽略一部分信号,重点看每一个人的发型、衣服颜色、站姿等,而且重点分析靠近视线范围中心的区域。我转动脑袋,帮助眼睛扫描更大的范围,从而帮助大脑分析更多的人,终于找到了目标。

图2‑1 环境噪声较大

 

像我这样,有选择性的处理信号,是包括人类在内的很多生物在处理外界信号时的策略,其背后的机制被认知科学领域的学者称为“注意力机制”。

2.2特征工程——模型外部的注意力机制

我们在用机器学习模型完成情感分析这类任务时,通常会做一点特征工程的工作,即将原始文本转换为数值向量。特征工程,就是注意力机制在数据科学领域里的一种体现,它帮助模型选择有效、适当规模的特征,进而让模型可以有效、高效地完成任务。比如说,我们用逐步回归分析方法对原始特征集进行筛选,得到一个高质量的特征子集,就可以让下游模型聚焦于和任务关系最密切的信号。

2‑2 特征工程的作用

 

良好的特征工程,依赖于工程师对业务内容的深入理解。换句话说,数据科学从业者要花一定量的时间,用于了解研究对象。研究对象千千万,留给我们了解的时间不多了。

传统特征工程采用了一种静态的观点来观察事物。我了解的特征工程方法,都假设各个特征的重要性是固

更多推荐

注意力机制到底是什么——基于常识的基本结构介绍

本文发布于:2024-03-07 20:20:50,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1718823.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:到底是什么   注意力   机制   常识   结构

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!