千卡利用率超98%，详解JuiceFS在权威AI测试中的实现策略|电子爱好者

admin管理员组
文章数量:1631241

2023 年 9 月，AI 领域的权威基准评测 MLPerf 推出了 Storage Benchmark。该基准测试通过模拟机器学习 I/O 负载的方法，在不需要 GPU 的情况下就能进行大规模的性能压测，用以评估存储系统的在 AI 模型训练场景的适用性。

目前支持两种模型训练：BERT （自然语言模型）和 Unet3D（3D医学成像）。虽然目前不支持大语言模型如 GPT、LLaMA，但 BERT 与大语言模型同为多层 transformer 结构，大语言模型的用户仍可从 BERT 训练结果获得一定的参考。

高性能存储产品厂商 DDN、Nutanix、Weka 和 Argonne National Laboratory（简称 ANL）发布了 MLPerf 的测试结果作为行业参考，我们也使用 JuiceFS 企业版进行了测试，让用户了解它在模型训练中的表现。

测试中最直观的指标是 GPU 利用率，大于 90% 为测试通过，表示存储系统能够满足训练业务的性能需求。JuiceFS 在 Unet3D 的 500 卡规模测试中，GPU 利用率保持在 97% 以上；在 BERT 的1000 卡规模测试中，GPU 利用率保持在 98% 以上。

01 测试准备

JuiceFS 企业版是基于对象存储的并行文件系统，相比社区版它提供了更强的元数据引擎和缓存管理能力，它的架构图如下：

我们在华为云上搭建了一套企业版 JuiceFS 文件系统，使用华为云 OBS 作为数据持久层，部署了 3 节点的元数据集群和多节点的分布式缓存集群，硬件规格如下：

元数据节点：m7.2xlarge.8 | 8vCPUs | 64GiB
对象存储：OBS，带宽上限 300 Gb/s
客户端节点：ir7.16xlarge.4 | 64vCPUs | 256GiB | Local SSD 2*1,600GiB | 网卡带宽 25 Gbps (以太网)

准备好文件系统后，我们使用 mlperf 的脚本生成后续模拟训练所需要的数据集，所有的测试中 batch size 和 steps 均采用默认设置。目前仅支持模拟 NVIDIA v100 GPU，后文中提到的 GPU 均是模拟 v100。

02 BERT 模型

MLPerf 为 BERT 模型生成数据集时，会按照每个数据集文件包含 313,532 个样本的规则来生成，每个样本大小为 2.5 KB。训练过程中每个模拟 v100 GPU 每秒能处理 50 个样本，即每个 GPU 的 IO 吞吐需求为 125 KB/s，绝大部分存储系统都能轻松满足它的模型训练需要，JuiceFS 也是一样的，能够满足 1000 卡规模的模型训练需要。

我们汇集了 MLPerf 的主要公开结果，包括 ANL、DDN、Weka 的数据，并新增了本次测试中 JuiceFS 的结果。

JuiceFS 在 1000 GPU 规模下保持 98% 以上 GPU 利用率。
ANL 的结果依然非常优秀，考虑到 ANL 测试的网络条件是高带宽低延迟的 Slingshot 网络，能有这样的成绩也是意料之中的。

03 Unet3D 模型

Unet3D 模型的训练对带宽的需求高于 BERT 模型。我们首先在没有任何缓存（包括分布式缓存和单机缓存）的条件下测试了训练 Unet3D 模型的情况。在这种设置下，JuiceFS客户端将直接从对象存储中读取数据。

无缓存测试

如下图所示，随着节点数的增加，GPU 利用率（图中的绿色线条）会缓慢下降。当 GPU 增至 98 卡时，它出现了一个明显的拐点，随后 GPU 利用率随节点数的增加而急剧降低。

下图是根据 OBS 监控数据和 MLPerf 的结果绘制出来的曲线图，可以看到 OBS 带宽在 98 卡及更大规模的训练中已经不再增加，成为性能瓶颈。

因此，在没有缓存的情况下，OBS 提供的 300Gb/s 带宽在 98 卡同时训练时就已经满载。根据 MLPerf 90% 的测试通过标准来看，可以满足最多 110 卡同时训练 Unet3D 模型。

在对大型数据集进行多机多卡训练时，单机缓存由于其空间限制仅能缓存数据集的一小部分；同时，由于训练过程中数据访问的随机性，缓存命中率较低。因此，这种情况下，单机缓存对于提升整体 I/O 性能的贡献有限（如上图绿线，能看到单机的内核缓存对读带宽有提升作用，虽然内核缓存空间多达 200GB ，但效果有限），因此我们没有进行单机缓存的针对性测试。

开启分布式缓存

相比本地缓存，分布式缓存可以提供更大的缓存容量以支撑更大的训练集和更高的缓存命中率，从而提升整个 JuiceFS 集群的读带宽。

JuiceFS 的分布式缓存架构如下图所示，机器学习训练集群和 JuiceFS 的缓存集群可以是两批独立的机器组成的集群，它们通过高速网络连接。这两个集群都挂载了JuiceFS 客户端。训练任务通过 JuiceFS 在本地的挂载点访问数据。当本地挂载点需要数据时，它会首先从缓存集群请求数据；如果缓存集群中缺失所需数据，系统则会从对象存储中获取数据并更新到缓存中。如果训练集群中的 GPU 节点自身也配置了充足的 SSD 存储，那么它们可以直接用作 JuiceFS 的缓存盘并组成缓存集群，无需部署独立的缓存集群。这种配置实际上是将训练集群和缓存集群的功能合并在一起。在本次测试中，我们采用了这种混合部署方式。

分布式缓存及其容量对 GPU 利用率的影响

之前的测试表明，未开启缓存时，110 卡时的 GPU 利用率不足 90%。为了直观展示分布式缓存对性能的影响，我们对 JuiceFS 进行了进一步的测试。我们选择 180 卡 GPU 规模的集群作为测试对象进行新一轮的测试，以评估 JuiceFS 的缓存命中率时跟 GPU 利用率关系。

下图中，横坐标表示缓存空间与数据集大小的比例，纵坐标表示缓存命中率和 GPU 使用率。当完全没有缓存时，GPU 的使用率只有 49%。随着缓存空间比例的增加，缓存命中率（蓝色线条）逐渐提高，进而带动 GPU 利用率（绿色线条）上升，当缓存命中率到 85% 时， GPU 利用率到了 93.1%, 已经能够满足 180 卡的训练使用。当缓存命中率达到 100% 时，GPU 利用率达到最高的 98.8%，几乎满载运行。

为了验证 JuiceFS 的缓存系统的扩展能力，我们按照数据集的大小调整了缓存集群的容量，确保了缓存命中率达到 100%。这样，所有训练所需数据均可直接从缓存中读取，而不必从速度较慢的对象存储中读取。在这种配置下，我们测试了最多约 500 卡规模的训练任务，随着测试规模的增大，GPU 利用率的变化如下图所示。

从图中红色线条可以看到，开启分布式缓存的 JuiceFS 突破了带宽瓶颈的限制， GPU 利用率会随着集群规模变大仅缓慢线性下降。按照上图的变化趋势估计，在当期的网络配置 (25Gbps) 下，JuiceFS 可以支撑约 1500 卡训练 Unet3D 时保持 GPU 利用率在 90% 以上。

对比 Unet3D 的测试结果：JuiceFS/ANL/DDN/Weka

DDN、Weka 公布的数据中最大规模的模拟 GPU 总数低于 200。

ANL 在 512 卡的规模下依然没有明显衰减，GPU 利用率能够达到 99.5%。ANL 的读写带宽为 650 GBps，理论上最多能支撑 1500 卡训练 Unet3D，它的出色表现与充足的硬件配置密切相关。

JuiceFS 的 GPU 利用率随着集群规模变大，缓慢线性下降，在 500 卡规模时保持 97% 以上。JuiceFS 遇到的性能瓶颈主要来自于缓存节点的网络带宽。由于缓存节点的机型数量和网络带宽有限，本次测试达到的最大规模为 483 卡。在这种规模下，JuiceFS 集群的聚合带宽为 1.7 Tb，而 ANL 集群的带宽是 5.2 Tb 。

04 小结

在 BERT 测试中，JuiceFS 在 1000 GPU 规模的训练中能保持 98% 以上 GPU 利用率；
在 Unet3D 测试中，随着集群规模变大，JuiceFS 在接近 500 GPU 训练中保持 97% 以上 GPU 利用率。若云服务商可以提供更高的网络带宽或更多的机器，这一规模还可进一步提高；
分布式缓存的优势在于极强的扩展性，可以利用更多节点上的 SSD 存储聚合更大的缓存空间，提高整个存储系统的读带宽；当然它也会带来一些 CPU 开销，但在 AI 训练场景中，使用闲置的 CPU 资源提升系统带宽是值得，甚至必要的。
在云上进行机器学习训练时，高性能 GPU 机型通常都具有高性能的 SSD 和高带宽的网卡，这些设备还可以作为分布式缓存节点。因此，相比于专有的高性能存储产品，使用 JuiceFS ，更具性价比，更易扩展。

大规模的 AI 训练场景中，通常都需要专有高性能存储，或是基于全闪架构和内核态的并行文件系统才能满足性能需求。但随着计算负载增加、集群增大，全闪的高昂成本和内核客户端的运维复杂度会成为用户面临的一大挑战。而 JuiceFS ，作为一款全用户态的的云原生分布式文件系统，借助分布式缓存来大幅提升系统的 IO 吞吐量，使用便宜的对象存储完成数据存储，更适合大规模 AI 业务的整体需要。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取==🆓

本文标签：利用率详解策略权威测试中

版权声明：本文标题：千卡利用率超98%，详解JuiceFS在权威AI测试中的实现策略内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729092543a1186284.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

千卡利用率超98%，详解JuiceFS在权威AI测试中的实现策略

01 测试准备

02 BERT 模型

03 Unet3D 模型

无缓存测试

开启分布式缓存

分布式缓存及其容量对 GPU 利用率的影响

对比 Unet3D 的测试结果：JuiceFS/ANL/DDN/Weka

04 小结

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多相关文章

C++ priority_queue 用法详解

C++ STL容器优先队列(priority_queue)用法详解（图文详解）（全网最详细 简单易懂）

个人台式计算机的主要安装步骤,台式机固态硬盘如何安装 台式机固态硬盘安装教程【图文详解】...

2022最全Hbuilder打包成苹果IOS-App的详解

appuploader 上架详解大全（上）

腾讯发布国内首份可解释 AI 报告：详解打开算法黑箱的理念与实践｜附报告下载...

【采用】大数据风控---身份反欺诈信贷全流程常用指标及策略

卡西欧计算机蓝屏的处理方法,电脑出现蓝屏怎么办 电脑出现蓝屏解决方法【图文详解】...

TCPUDP常用详解

idea中使用X-ChatGPT详解

ChatGPT：hankeer-chatgpt食用指南详解

Win10电脑允许应用使用麦克风设置详解

PPT怎样录制微课？步骤详解，一看就会！

应对手机存储危机，寻求数据恢复的方法，掌握3种策略

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有...

《SQL权威指南（第4版）》PDF 下载

centos磁盘安装与磁盘分区方案详解

C#调用Windows API详解（上）

Windows的各种扩展名详解

千卡利用率超98%，详解JuiceFS在权威AI测试中的实现策略

发表评论

推荐文章

U盘安装12年macbook_air双系统win7

管理路由器每次要输密码真是麻烦，自己来写个浏览器

Playing with words: child voices in British fantasy literature 1749-1906【翻译】

跨平台Office文档预览原生插件，非腾讯X5，支持离线，稳定高可用

Windows的复制粘贴快键键突然不可用的解决方案

热门文章

hp服务器330g6怎么安装系统,HP ProLiant ML330 G6配置和特点解析

什么软件可以pdf免费转word？这些工具非常实用

关于VC++6.0 安装过程中提出vssetup.tff，不能删除的问题及在WIN7兼容性设置问题。

[Windows]使用注册表解决《由于安装了格式工厂导致的右键“快速访问”使整个资源管理器崩溃重启的问题》

windows下使用pip安装pygame

C++面试宝典 知识点集锦

Chinese American literature appearances 转自金牌论文

《程序是怎样跑起来的》矢泽久雄[日] - 读书笔记

双系统Ubuntu22.04深度学习环境配置与踩坑记录

驱动开发：内核封装WSK网络通信接口

最新文章

服务器虚拟多主机,服务器虚拟多台主机

现代家用计算机的配置,家用电脑配置推荐

PHP入门-配置虚拟主机

VirtualBox 网络连接配置

计算机配置的调研,关于电脑配置的调研报告

迷你主机的AIO（All in one）实战记录【pve+openwrt+windows+centos+群晖】（一）

LED显示屏如何连接电脑主机

红帽linux改root密码,Redhat 7.6 主机强制修改root密码及配置网关

计算机主机的声音线是哪个好,电脑显示器连接线哪种接口好|VGA、HDMI视频接口选哪个好...

计算机网络 实验二 主机系统网络参数配置与测试

云主机和传统主机到底有什么区别呢？

如何将一台电脑主机分裂成两台、三台？

2012计算机配置在哪里,Windows server 2012 R2如何设置主机IP地址的具体步骤和方法...

Mysql主从复制配置方式 及 从机连不上主机 Slave_IO_Running: Connecting 状态值一直是Connecting

云服务器计算机配置,云服务器主机核数区别

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

C++ STL容器优先队列(priority_queue)用法详解（图文详解）（全网最详细简单易懂）

个人台式计算机的主要安装步骤,台式机固态硬盘如何安装台式机固态硬盘安装教程【图文详解】...

卡西欧计算机蓝屏的处理方法,电脑出现蓝屏怎么办电脑出现蓝屏解决方法【图文详解】...

C++面试宝典知识点集锦

计算机网络实验二主机系统网络参数配置与测试

Mysql主从复制配置方式及从机连不上主机 Slave_IO_Running: Connecting 状态值一直是Connecting

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载