admin管理员组

文章数量:1607884

原文:PaLM: Scaling Language Modeling with Pathways

作者: ∗ Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma (Google)

一、简介

大型语言模型已被证明在各种自然语言任务中使用few-shot学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对few-shot学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。

我们使用Pathways在6144个TPU v4芯片上训练PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上取得最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的

本文标签: 函数模型数量位置参数