Rotary Position Embedding (RoPE) 旋转位置编码

编程入门 行业动态 更新时间:2024-10-10 08:27:39

Rotary Position Embedding (RoPE) 旋转<a href=https://www.elefans.com/category/jswz/34/1771147.html style=位置编码"/>

Rotary Position Embedding (RoPE) 旋转位置编码

互联网寻回犬一枚~

这个概念最先由苏神提出,发表在论文《ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING》

简单来说,RoPE用旋转矩阵对绝对位置进行编码,同时将明确的相对位置依赖性纳入到self-attention的表述中。也就是说RoPE“吸收”了绝对位置编码和相对位置编码两者的优点。和相对位置编码相比,RoPE 具有更好的外推性,目前是大模型相对位置编码中应用最广的方式之一。

备注:什么是大模型外推性?

外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。例如,如果一个模型在训练时只使用了512个 token 的文本,那么在预测时如果输入超过512个 token,模型可能无法正确处理。这就限制了大模型在处理长文本或多轮对话等任务时的效果。

更多推荐

Rotary Position Embedding (RoPE) 旋转位置编码

本文发布于:2023-11-15 23:42:14,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1609779.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:位置   Position   Rotary   RoPE   Embedding

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!