首页 > 编程入门文章详情

如何训练Embedding Model

编程入门行业动态更新时间:2024-10-25 10:29:15

如何训练<a href=https://www.elefans.com/category/jswz/34/1763850.html style= Embedding Model"/>

如何训练Embedding Model

BGE的技术亮点：

高效预训练和大规模文本微调；
在两个大规模语料集上采用了RetroMAE预训练算法，进一步增强了模型的语义表征能力；
通过负采样和难负样例挖掘，增强了语义向量的判别力；
借鉴Instruction Tuning的策略，增强了在多任务场景下的通用能力。

数据集的构成：

RetroMAE预训练

主要思想是：encoder用小一点的mask rate得到sentence embedding，然后decoder用大一点的mask rate结合encoder得到的sentence embedding进行重构

此外，为了使得每个token使用的context信息不同，RetroMAE还使用了增强解码的方法

解码的时候每一行都带，上下文信息和位置信息

微调

主要通过对比学习和Instruction Tuning的思想

对比学习是一种训练模型的方法，通过比较正例和反例来学习数据的表示。

输入数据的格式：模型接受三元组格式的数据作为输入，包括一个查询（query），一个正例（positive），和一个反例（negative）。
in-batch negatives 策略：除了上述三元组中的反例外，他们还采用了“in-batch negatives”策略，意思是在同一个批次的数据中，使用其他数据作为额外的反例。
cross-device negatives sharing method：这是一种在不同的GPU之间共享反例的方法，目的是大大增加反例的数量。
训练硬件和参数：使用了48个A100(40G)的GPU进行训练。批次大小为32,768，因此每个查询在批次中有65,535个反例。使用了AdamW优化器，学习率为1e-5。对比损失的温度为0.01。
在训练中为检索任务的查询添加了instruction。对于英语，指令是Represent this sentence for searching relevant passages: ; 对于中文，指令是为这个句子生成表示以用于检索相关文章：. 在评测中，针对段落检索任务的任务需要在查询中添加指令，但不需要为段落文档添加指令。

更多推荐

如何训练Embedding Model

本文发布于:2023-12-03 08:20:06，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1653148.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

Embedding Model

上一篇： AndroidStudio编译错误‘android.injected.build.density‘ is deprecated
下一篇： LVDS、LVPECL、CML三种高速逻辑电平的比较

发布评论取消回复

评论列表（有 0 条评论）

热门文章