GQA: Training Generalized Multi

编程入门 行业动态 更新时间:2024-10-24 14:26:41

GQA: <a href=https://www.elefans.com/category/jswz/34/1766571.html style=Training Generalized Multi"/>

GQA: Training Generalized Multi

.13245v1

Multi-head 推理太费时间。

多查询注意力(MQA)可以减少这种开销,仅使用单个键值头极大地加快了decoder推理速度,但会降低模型的容量和性能,并目不想为了更快的推理而单独训练一个模型。

于是本文提出了一种方案,可以将现有的Multi-head 多头注意力模型升级为多查询注意力模型MQA,仅使用原始预训练计算量的5%。

本文还介绍了分组查询注意力 (GQA),这是一种广义的多查询注意力,它使用中间数量的键值头 (大于一个,小于查询头数)。本文表明,经过训练的GQA可以实现与Multi-head 相当的性能和与Multi-query相当的违度。

多头注意力有同样的查询、键和值个数。

多查询注意力在所有查询头之间共享单个键和值头。

分组查询注意力则为每组查询头共享单个键和值头。

多头注意力机制(MHA)转换为多查询注意力机制(MQA):

将所有头的键(key)和值(value)投影矩阵进行平均池化,合并成单个头部的矩阵。

为什么使用平均池化,这是消融实验。

T5 XXL模型在MQA和GQA下性能随retraining比例变化的情况。GQA在转换后已经实现了合理的性能,而MQA需要进行retraining才能有用。随着retraining比例增加至5%,MQA和GQA均有所提高,但是从10%开始回报递减。

GQA组数量对推理速度的影响,论文组数量使用8。

 

 经过5%retraining的GQA可以实现与Multi-head相当的性能和与Multi-query相当的速度。

更多推荐

GQA: Training Generalized Multi

本文发布于:2024-02-27 06:12:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1705483.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:Training   GQA   Multi   Generalized

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!