admin管理员组

文章数量:1631241

2023 年 9 月,AI 领域的权威基准评测 MLPerf 推出了 Storage Benchmark。该基准测试通过模拟机器学习 I/O 负载的方法,在不需要 GPU 的情况下就能进行大规模的性能压测,用以评估存储系统的在 AI 模型训练场景的适用性。

目前支持两种模型训练:BERT (自然语言模型) 和 Unet3D(3D医学成像)。虽然目前不支持大语言模型如 GPT、LLaMA,但 BERT 与大语言模型同为多层 transformer 结构,大语言模型的用户仍可从 BERT 训练结果获得一定的参考。

高性能存储产品厂商 DDN、Nutanix、Weka 和 Argonne National Laboratory(简称 ANL)发布了 MLPerf 的测试结果作为行业参考,我们也使用 JuiceFS 企业版进行了测试,让用户了解它在模型训练中的表现。

测试中最直观的指标是 GPU 利用率,大于 90% 为测试通过,表示存储系统能够满足训练业务的性能需求。JuiceFS 在 Unet3D 的 500 卡规模测试中,GPU 利用率保持在 97% 以上;在 BERT 的1000 卡规模测试中,GPU 利用率保持在 98% 以上。

01 测试准备

JuiceFS 企业版是基于对象存储的并行文件系统,相比社区版它提供了更强的元数据引擎和缓存管理能力,它的架构图如下:

我们在华为云上搭建了一套企业版 JuiceFS 文件系统,使用华为云 OBS 作为数据持久层,部署了 3 节点的元数据集群和多节点的分布式缓存集群,硬件规格如下:

  • 元数据节点:m7.2xlarge.8 | 8vCPUs | 64GiB
  • 对象存储:OBS,带宽上限 300 Gb/s
  • 客户端节点:ir7.16xlarge.4 | 64vCPUs | 256GiB | Local SSD 2*1,600GiB | 网卡带宽 25 Gbps (以太网)

准备好文件系统后,我们使用 mlperf 的脚本生成后续模拟训练所需要的数据集,所有的测试中 batch size 和 steps 均采用默认设置。目前仅支持模拟 NVIDIA v100 GPU,后文中提到的 GPU 均是模拟 v100。

02 BERT 模型

MLPerf 为 BERT 模型生成数据集时,会按照每个数据集文件包含 313,532 个样本的规则来生成,每个样本大小为 2.5 KB。训练过程中每个模拟 v100 GPU 每秒能处理 50 个样本,即每个 GPU 的 IO 吞吐需求为 125 KB/s,绝大部分存储系统都能轻松满足它的模型训练需要,JuiceFS 也是一样的,能够满足 1000 卡规模的模型训练需要。

我们汇集了 MLPerf 的主要公开结果,包括 ANL、DDN、Weka 的数据,并新增了本次测试中 JuiceFS 的结果。

  • JuiceFS 在 1000 GPU 规模下保持 98% 以上 GPU 利用率
  • ANL 的结果依然非常优秀,考虑到 ANL 测试的网络条件是高带宽低延迟的 Slingshot 网络,能有这样的成绩也是意料之中的。

03 Unet3D 模型

Unet3D 模型的训练对带宽的需求高于 BERT 模型。我们首先在没有任何缓存(包括分布式缓存和单机缓存)的条件下测试了训练 Unet3D 模型的情况。在这种设置下,JuiceFS客户端将直接从对象存储中读取数据。

无缓存测试

如下图所示,随着节点数的增加,GPU 利用率(图中的绿色线条)会缓慢下降。当 GPU 增至 98 卡时,它出现了一个明显的拐点,随后 GPU 利用率随节点数的增加而急剧降低。

下图是根据 OBS 监控数据和 MLPerf 的结果绘制出来的曲线图,可以看到 OBS 带宽在 98 卡及更大规模的训练中已经不再增加,成为性能瓶颈。

因此,在没有缓存的情况下,OBS 提供的 300Gb/s 带宽在 98 卡同时训练时就已经满载。根据 MLPerf 90% 的测试通过标准来看,可以满足最多 110 卡同时训练 Unet3D 模型。

在对大型数据集进行多机多卡训练时,单机缓存由于其空间限制仅能缓存数据集的一小部分;同时,由于训练过程中数据访问的随机性,缓存命中率较低。因此,这种情况下,单机缓存对于提升整体 I/O 性能的贡献有限(如上图绿线,能看到单机的内核缓存对读带宽有提升作用,虽然内核缓存空间多达 200GB ,但效果有限),因此我们没有进行单机缓存的针对性测试。

开启分布式缓存

相比本地缓存,分布式缓存可以提供更大的缓存容量以支撑更大的训练集和更高的缓存命中率,从而提升整个 JuiceFS 集群的读带宽。

JuiceFS 的分布式缓存架构如下图所示,机器学习训练集群和 JuiceFS 的缓存集群可以是两批独立的机器组成的集群,它们通过高速网络连接。这两个集群都挂载了JuiceFS 客户端。训练任务通过 JuiceFS 在本地的挂载点访问数据。当本地挂载点需要数据时,它会首先从缓存集群请求数据;如果缓存集群中缺失所需数据,系统则会从对象存储中获取数据并更新到缓存中。如果训练集群中的 GPU 节点自身也配置了充足的 SSD 存储,那么它们可以直接用作 JuiceFS 的缓存盘并组成缓存集群,无需部署独立的缓存集群。这种配置实际上是将训练集群和缓存集群的功能合并在一起。在本次测试中,我们采用了这种混合部署方式。

分布式缓存及其容量对 GPU 利用率的影响

之前的测试表明,未开启缓存时,110 卡时的 GPU 利用率不足 90%。为了直观展示分布式缓存对性能的影响,我们对 JuiceFS 进行了进一步的测试。我们选择 180 卡 GPU 规模的集群作为测试对象进行新一轮的测试,以评估 JuiceFS 的缓存命中率时跟 GPU 利用率关系。

下图中,横坐标表示缓存空间与数据集大小的比例,纵坐标表示缓存命中率和 GPU 使用率。当完全没有缓存时,GPU 的使用率只有 49%。随着缓存空间比例的增加,缓存命中率(蓝色线条)逐渐提高,进而带动 GPU 利用率(绿色线条)上升,当缓存命中率到 85% 时, GPU 利用率到了 93.1%, 已经能够满足 180 卡的训练使用。当缓存命中率达到 100% 时,GPU 利用率达到最高的 98.8%,几乎满载运行。

为了验证 JuiceFS 的缓存系统的扩展能力,我们按照数据集的大小调整了缓存集群的容量,确保了缓存命中率达到 100%。这样,所有训练所需数据均可直接从缓存中读取,而不必从速度较慢的对象存储中读取。在这种配置下,我们测试了最多约 500 卡规模的训练任务,随着测试规模的增大,GPU 利用率的变化如下图所示

从图中红色线条可以看到,开启分布式缓存的 JuiceFS 突破了带宽瓶颈的限制, GPU 利用率会随着集群规模变大仅缓慢线性下降。按照上图的变化趋势估计,在当期的网络配置 (25Gbps) 下,JuiceFS 可以支撑约 1500 卡训练 Unet3D 时保持 GPU 利用率在 90% 以上。

对比 Unet3D 的测试结果:JuiceFS/ANL/DDN/Weka

DDN、Weka 公布的数据中最大规模的模拟 GPU 总数低于 200。

ANL 在 512 卡的规模下依然没有明显衰减,GPU 利用率能够达到 99.5%。ANL 的读写带宽为 650 GBps,理论上最多能支撑 1500 卡训练 Unet3D, 它的出色表现与充足的硬件配置密切相关。

JuiceFS 的 GPU 利用率随着集群规模变大,缓慢线性下降,在 500 卡规模时保持 97% 以上。JuiceFS 遇到的性能瓶颈主要来自于缓存节点的网络带宽。由于缓存节点的机型数量和网络带宽有限,本次测试达到的最大规模为 483 卡。在这种规模下,JuiceFS 集群的聚合带宽为 1.7 Tb,而 ANL 集群的带宽是 5.2 Tb 。

04 小结

  • 在 BERT 测试中,JuiceFS 在 1000 GPU 规模的训练中能保持 98% 以上 GPU 利用率;
  • 在 Unet3D 测试中,随着集群规模变大,JuiceFS 在接近 500 GPU 训练中保持 97% 以上 GPU 利用率。若云服务商可以提供更高的网络带宽或更多的机器,这一规模还可进一步提高;
  • 分布式缓存的优势在于极强的扩展性,可以利用更多节点上的 SSD 存储聚合更大的缓存空间,提高整个存储系统的读带宽;当然它也会带来一些 CPU 开销,但在 AI 训练场景中,使用闲置的 CPU 资源提升系统带宽是值得,甚至必要的。
  • 在云上进行机器学习训练时,高性能 GPU 机型通常都具有高性能的 SSD 和高带宽的网卡,这些设备还可以作为分布式缓存节点。因此,相比于专有的高性能存储产品,使用 JuiceFS ,更具性价比,更易扩展。

大规模的 AI 训练场景中,通常都需要专有高性能存储,或是基于全闪架构和内核态的并行文件系统才能满足性能需求。但随着计算负载增加、集群增大,全闪的高昂成本和内核客户端的运维复杂度会成为用户面临的一大挑战。而 JuiceFS ,作为一款全用户态的的云原生分布式文件系统,借助分布式缓存来大幅提升系统的 IO 吞吐量,使用便宜的对象存储完成数据存储,更适合大规模 AI 业务的整体需要。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取==🆓

本文标签: 利用率详解策略权威测试中