Ceph性能测试、优化及硬件选型详解|万字长文|电子爱好者

admin管理员组
文章数量:1655377

一般基准测试原则

基准测试的主要测试案例是：

线性读写（大块，长队列），单位MB/s
IOPS（每秒输入/输出操作数）中的小块（4-8kb，iodepth=32-128）的高度并行随机读写
IOPS中的单线程事务性随机写入（4-8kb，iodepth = 1）和读取（尽管单线程读取更为罕见

测试您的磁盘

在部署Ceph之前在驱动器上运行fio：

WARNING！对于那些不明白问题的人——写测试是破坏性的。不要在包含重要数据的磁盘上运行它，例如OSD日志分区。

在测试之前尝试禁用驱动器缓存：hdparm -W 0 /dev/sdX（SATA驱动器），sdparm --set WCE=0 /dev/sdX（SAS驱动器）。通常，这是服务器固态硬盘（例如Micron 5100或Seagate Nytro）绝对需要的（请参阅#Drive缓存正在使您变慢），因为它使随机写入iops 增加了两个数量级以上（从288 iops到18000 iops！）。在某些情况下，它可能没有任何改善，因此请同时尝试使用-W0和-W1选项。
线性读取：fio -ioengine=libaio -direct=1 -invalidate=1 -name=test -bs=4M -iodepth=32 -rw=read -runtime=60 -filename=/dev/sdX
线性写入：fio -ioengine=libaio -direct=1 -invalidate=1 -name=test -bs=4M -iodepth=32 -rw=write -runtime=60 -filename=/dev/sdX
峰值并行随机读取：fio -ioengine=libaio -direct=1 -invalidate=1 -name=test -bs=4k -iodepth=128 -rw=randread -runtime=60 -filename=/dev/sdX
单线程读取延迟：fio -ioengine=libaio -sync=1 -direct=1 -invalidate=1 -name=test -bs=4k -iodepth=1 -rw=randread -runtime=60 -filename=/dev/sdX
峰值并行随机写入：fio -ioengine=libaio -direct=1 -invalidate=1 -name=test -bs=4k -iodepth=128 -rw=randwrite -runtime=60 -filename=/dev/sdX
日志写入延迟：fio -ioengine=libaio -sync=1 -direct=1 -invalidate=1 -name=test -bs=4k -iodepth=1 -rw=write -runtime=60 -filename=/dev/sdX。还可以使用-fsync=1而不是-sync=1进行尝试，并记下最差的结果，因为有时sync或fsync会被杂乱的硬件忽略。
单线程随机写入延迟fio -ioengine=libaio -sync=1 -direct=1 -invalidate=1 -name=test -bs=4k -iodepth=1 -rw=randwrite -runtime=60 -filename=/dev/sdX

您想问为什么这么慢？见下文。

一个有用的习惯是在您部署Ceph OSD的每个SSD上留一个空的分区，以便以后进行基准测试，因为某些SSD用满后会变慢。

测试您的Ceph集群

推荐的基准测试工具：

fio -ioengine=rbd。运行以下命令：

fio -ioengine=rbd -direct=1 -name=test -bs=4M -iodepth=16 -rw=write -pool=rpool_hdd -runtime=60 -rbdname=testimg
fio -ioengine=rbd -direct=1 -name=test -bs=4k -iodepth=1 -rw=randwrite -pool=rpool_hdd -runtime=60 -rbdname=testimg
fio -ioengine=rbd -direct=1 -name=test -bs=4k -iodepth=128 -rw=randwrite -pool=rpool_hdd -runtime=60 -rbdname=testimg

然后重复执行rw=read/randread。

这是为了进行如下测试：

可能的最佳延迟
线性带宽
随机访问iops

从空的RBD镜像读取非常快，因此在测试之前预先填满rbd镜像磁盘。

从您的实际RBD用户所在的节点运行测试。当您从单独的物理服务器运行测试时，结果通常会稍好一些。

从VM内部或通过内核RBD驱动程序（krbd）是相同的：

fio -ioengine=libaio -direct=1 -name=test -bs=4M -iodepth=16 -rw=write -runtime=60 -filename=/dev/rbdX
fio -ioengine=libaio -direct=1 -sync=1 -name=test -bs=4k -iodepth=1 -rw=randwrite -runtime=60 -filename=/dev/rbdX
fio -ioengine=libaio -direct=1 -name=test -bs=4k -iodepth=128 -rw=randwrite -runtime=60 -filename=/dev/rbdX
不要错过添加的-sync=1选项。它是有意添加的，以匹配ioengine=rbd测试。ioengine=rbd没有同步的概念，所有内容始终与其保持“同步”。总体而言，这种写模式（事务性单线程写）对应于DBMS。
请注意，不管将数据移入和移出内核的假定开销如何，内核客户端实际上都应该更快。

ceph-gobench
或者使用工具https://github/vitalif/ceph-bench。最初的想法来自俄语Ceph Chat中的“ Mark's bench”（https://github/socketpair/ceph-bench）。两者都使用non-replicated的Ceph池（size=1），在每个单独的OSD中创建几个4MB对象（默认为16个），并对一个OSD中随机选择的对象执行随机单线程4kb写操作。这模仿了对RBD的随机写入，并允许通过分别对它们进行基准测试来确定有问题的OSD。
要创建non-replicated的基准池，请使用ceph osd pool create bench 128 replicated; ceph osd pool set bench size 1; ceph osd pool set bench min_size 1。只需注意128（PG数量）就足以让所有OSD至少获得一个PG。

Notes：

切勿使用dd测试磁盘性能。
不要使用rados bench。它创建少量对象（每个线程1-2个），因此所有对象始终驻留在缓存中，并且改善了结果，超出了应有的范围。
您可以使用rbd bench，但是fio更好。

为什么这么慢

首先：

对于线性读写，Ceph并不慢。
Ceph在HDD上并不慢：理论上，Bluestore的单线程随机写入性能是驱动器IOPS的66％（2/3）（当前实际为33％，但是如果您在此后版本将此自动或者手动修复的话：https://github/ceph/ceph/pull/26909，性能将恢复到66％），而多线程read/write性能几乎是原始驱动器速度的100％。

但是，大家总认为当使用用SSD替换HDD并使用高速网络时，Ceph的速度应该几乎一样快。每个人都习惯了I/O速度慢而软件速度快的想法。对于Ceph，通常情况并非如此。

Ceph是一个软件定义的存储系统，其“软件”是巨大的开销。当前的一般规则是：无论使用什么驱动器或网络，使用 Ceph都很难实现0.5ms以下的随机读取延迟和1ms以下的随机写入延迟。使用一个线程，这仅代表2000个随机读取iops和1000个随机写入iops，即使您设法实现此结果，也已经处于良好状态。使用最好的硬件并进行一些调整，您也许可以进一步改进它，但只能进行两次左右。

但是延迟重要吗？是的，当涉及到单线程（synchronous）随机read/write时，它确实可以。基本上，所有希望数据持久的软件都执行fsync调用，以序列化写入。例如，所有DBMS都可以。因此，要了解这些应用程序的性能极限，您应该使用iodepth=1对群集进行基准测试。

延迟不随服务器或每个SSD的OSD或RAID0中的两个RBD的数量而定。当您使用iodepth=1对集群进行基准测试时，您一次只能对一个放置组进行基准测试（PG是一个三元组或一对OSD）。结果仅受单个OSD处理单个请求的速度影响。实际上，iodepth=1时，IOPS=1/latency。尼克·菲斯克（Nick Fisk）的演讲题目为 «Low-latency Ceph»。«Low-latency Ceph»指出0.7毫秒，仅约1500 iops。

Micron设置案例

这是Micron的案例。他们使用了2倍replication，非常昂贵的CPU（每台服务器2x28核Xeon Platinum），高速的网络（2x100G，实际上是2x2x100G ——两张带有2个端口的卡）和10倍于四个节点的最佳NVMe：https：/ /www.micron/resource-details/30c00464-e089-479c-8469-5ecb02cfe06f

在100％CPU负载下，它们仅获得了350000的具有高并行度的峰值写入iops。它看起来似乎很多，但是如果将其除以NVMe的数量（350000/40 NVMe），则每个NVMe仅8750 iops。如果我们考虑2个副本和WAL，则每个驱动器得到8750 * 2 * 2 = 35000 iops。因此，Ceph仅从可以单独提供260000 iops的NVMe 中压缩了35000 iops 。这就是Ceph的开销。

在该文章中也没有单线程延迟测试。这样的测试可能非常有趣。

更新资料

https://www.micron/-/media/client/global/documents/products/other-

本文标签：万字详解性能测试硬件长文

版权声明：本文标题：Ceph性能测试、优化及硬件选型详解|万字长文内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729694931a1210429.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Ceph性能测试、优化及硬件选型详解|万字长文

一般基准测试原则

测试您的磁盘

测试您的Ceph集群

为什么这么慢

Micron设置案例

更新资料

更多相关文章

电脑控制面板打不开：原因及解决方法详解

NVIDIA控制面板不能用的解决方法（先确保显卡硬件正常）

Windows 10四大版本区别详解：家庭版, 专业版, 企业版和教育版

【阿朱2万字长文】我做大型企业技术创新顾问的一点经验总结

计算机管理记事本,win7旗舰版系统下自带记事本的强大功能汇总【图文详解】...

LoRaWan 硬件和信道特点 TDMA的MAC协议优势

Linux 万字入门教程

前端服务上线详解node、nginx、mongo

WEB中间件Tomcat详解

中软国际Java面试题和答案，Java开发环境搭建超全详解

Java开发环境搭建超全详解(1)

【java进阶】Linux使用详解

从零开始：Windows Server 2012 系统封装流程详解 - 工作记录 - 2024-10-21

Linux杀毒软件之ClamAV使用详解

2024最优Win11版本推荐：三款精品系统详解

[杀毒防毒]用Mcafee打造自己的安全系统详解

i5集显和独显的区别_独显和集显的区别哪个好（详解两者的优劣势）

《θ电脑硬件之处理器cpu基础知识详解θ》

Ceph性能测试、优化及硬件选型详解|万字长文

如何将你的iOS应用成功上架App Store（图文详解）

发表评论

推荐文章

华为鲲鹏题库（一）

回收站清空文件的数据怎么找回

文献阅读 (CV)Camera Distance-aware Top-down Approach for 3D Multi-person Pose

惠普HP LaserJet M439dn 打印机驱动

达人评测 i5 10300H、i7 10510u和i7 11800h选哪个好

热门文章

桌面计算机里没有桌面显示不出来怎么办,电脑桌面上的图标不见了怎么回事？...

转载win7(windows7旗舰版)声卡High Definition Audio驱动不能安装(安装失败）解决方案

[转帖]加密算法之BLOWFISH算法

清华大学王晨阳：轻量级Top-K推荐框架及相关论文介绍

如何将pdf图片文字转换成word 文字word图片怎么转换pdf

『系统笔记』用U盘做系统启动盘安装系统

identify()被调用时

百度关键词抓取工具_企业网站SEO营销工具大全，快来看看你的网站到底是什么水平！...

深度学习的完整硬件指南

这是一张有意义的卡——农行万事达人民币

最新文章

08-CSS-移动WEB开发之流式布局

iOS上架App Store之Appuploader制作描述文件和证书

TVBox原代码及分享地址

第一课：什么是树莓派

React Native

一文讲清楚全文检索全部技术要点和主要技术方案实现

2023Node.js零基础教程(小白友好型)，nodejs新手到高手，（一）NodeJS入门

蓝翔开设电竞专业，从《英雄联盟》学起；360将借壳江南嘉捷登陆A股；苹果iPhone X首拆丨价值早报

零基础快速上手HarmonyOS ArkTS开发2---ArkTS开发实践

童年的游戏

向日葵linux版远程怎么打开,使用向日葵app远程控制你的Mac笔记本 之小白使用指导...

Vue学习笔记(黑马前端)

HTTP 2.0的那些事

使用 uni-starter 和 uni - admin 搭建APP（小程序）和后台管理系统，15分钟搞定，开局完成50% ，前后端包括云服务一键搞定（目前免费使用阿里云版本，腾讯云也有免费）

白话uni-app 【也是html、vue、小程序的区别】

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

向日葵linux版远程怎么打开,使用向日葵app远程控制你的Mac笔记本之小白使用指导...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载