LLM

编程入门 行业动态 更新时间:2024-10-28 19:26:06

<a href=https://www.elefans.com/category/jswz/34/1727168.html style=LLM"/>

LLM

 论文名:Scaling Instruction-Finetuned Language Models
 发布时间:2022年10月
 论文地址:.11416
 代码地址:.md#flan-t5-checkpoints

原文摘要:在以指令为措辞的数据集上对语言模型进行微调已被证明可以提高模型的性能和对未见任务的概括性。在本文中,我们探索了指令微调,特别关注(1)任务数量的扩展,(2)模型规模的扩展,以及(3)思维链数据的微调。我们发现,上述方面的指令微调极大地提高了各种模型类别(PaLM、T5、U-PaLM)、提示设置(零-射击、少量射击、CoT)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成)的性能。例如,Flan-PaLM 540B在1.8K任务上的指令调整比PALM 540B要好很多(平均+9.4%)。Flan-PaLM 540B在一些基准测试上达到了最先进的性能,例如在五次拍摄的

更多推荐

LLM

本文发布于:2024-03-09 11:38:56,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1724862.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:LLM

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!