跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉|电子爱好者

admin管理员组
文章数量:1565265

公众号关注 “Python遇见机器学习”

设为“星标”，第一时间知晓最新干货~

本文转载自机器之心

众所周知，深度学习是一个很吃算力的领域，所以，GPU 选得好不好直接决定了你的炼丹体验。那么，哪些指标是你在买 GPU 时应该重视的呢？RAM、core 还是 tensor core？如何做出一个高性价比的选择？文本将重点讨论这些问题，同时指出一些选购误区。 选择 GPU 时你需要知道的东西 在选购 GPU 之前，你需要知道一些指标在深度学习中意味着什么。首先是 Tensor Core，它可以让你在计算乘法和加法时将时钟周期降至 1/16，减少重复共享内存访问，让计算不再是整个流程中的瓶颈(瓶颈变成了获取数据的速度)。现在安培架构一出，更多的人可以用得起带 Tensor Core 的显卡了。因为处理任务方法的特性，显存是使用 Tensor Core 进行矩阵乘法的周期成本中最重要的部分。具体说来，需要关注的参数是内存带宽(Bandwidth)。如果可以减少全局内存的延迟，我们可以进一步拥有更快的 GPU。在一些案例中，我们可以体验到 Tensor Core 的强大，它是如此之快，以至于总是在等内存传来的数据——在 BERT Large 的训练中，Tensor Core 的 TFLOPS 利用率约为 30％，也就是说，70％的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时，最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s，而 V100 的内存带宽为 900 GB/s，因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。我们预计两代配备 Tensor Core 的 GPU 架构之间的差异主要在于内存带宽，其他提升来自共享内存 / L1 缓存以及 Tensor Core 中更好的寄存器使用效率，预估的提升范围约在 1.78-1.87 倍之间。在实际应用中，通过 NVLink 3.0，Tesla A100 的并联效率又要比 V100 提升 5%。我们可以根据英伟达提供的直接数据来估算特定深度学习任务上的速度。与 Tesla V100 相比，A100 的速度提升是：

SE-ResNeXt101：1.43 倍
Masked R-CNN：1.47 倍
Transformer(12 层机器翻译，在 WMT14 en-de 数据集上)：1.70 倍

看来对于计算机视觉任务来说，新架构的提升相对不明显。这可能是因为小张量尺寸、准备矩阵乘法所需的运算无法让 GPU 满负载。也可能是由于特定架构(如分组卷积)导致的结果。在 Transformer 上，预估的提升和实际跑起来非常接近，这可能是因为用于大型矩阵的算法非常简单，我们可以使用这些实际效果来计算 GPU 的成本和效率。当然，在发布会中英伟达着重指出：安培架构在稀疏网络的训练当中速度提升了一倍。稀疏训练目前应用较少，但是未来的一个趋势。安培还带有新的低精度数据类型，这会使低精度更加容易，但不一定比以前的 GPU 更快。英伟达花费大量精力介绍了新一代 RTX 3090 的风扇设计，它看起来很好，但并联起来效果如何还要打上问号。在任何情况下水冷都是效果更好的方案，如果想要并联 4 块 GPU，你需要注意水冷的解决方案——它们可能会体积过大。解决散热问题的另一种方法是购买 PCIe 扩展器，并在机箱内原先不可能的位置放 GPU。这非常有效，华盛顿大学的其他博士研究生和作者本人使用这种方法都取得了成功。它看起来不漂亮，但是可以让你的 GPU 保持凉爽！

4 块 RTX 2080Ti 创始版 GPU 的装法：虽然看起来乱作一团，但用了两年没出问题。 还有电源问题，RTX 3090 是一个 3 插槽 GPU，因此在采用英伟达默认风扇设计的情况下，你不能在 4x 的主板上使用它。这是合情合理的，因为它的标准功率是 350W，散热压力也更大。RTX 3080 的 320W TDP 压力只是稍稍小一点，想要冷却 4 块 RTX 3080 也将非常困难。在 4x RTX 3090 的情况下，你很难为 4x 350W = 1400W 的系统找到很好的供电方式。1600W 的电源或许可以，但最好选择超过 1700W 的 PSU——毕竟黄仁勋在发布中希望你给单卡的 RTX 3080 装上 700W 的电源。然而目前市面上并没有超过 1600W 的台式电脑电源，你得考虑服务器或者矿机 PSU 了。 GPU 深度学习性能排行 下图展示了当前热门的 Nvidia 显卡在深度学习方面的性能表现(以 RTX 2080 Ti 为对比基准)。从图中可以看出，A100(40GB)在深度学习方面表现最为强劲，是 RTX 2080 Ti 两倍还多；新出的 RTX 3090(24GB)排第二，是 RTX 2080 Ti 的 1.5 倍左右。但比较良心的是，RTX 3090 的价格只涨了 15%。

每一美元能买到多少算力？ 排在天梯图顶端的显卡确实是香，但普通人更关心的还是性价比，也就是一块钱能买到多少算力。在讨论这个问题之前，先来看一下各种任务的大致内存需求：

使用预训练 transformer 和从头训练小型 transformer：>= 11GB；
训练大型 transformer 或卷积网络：>= 24 GB；
原型神经网络(transformer 或卷积网络)：>= 10 GB；
Kaggle 比赛：>= 8 GB；
应用计算机视觉：>= 10GB。

下图是根据各种 GPU 在亚马逊、eBay 上的价格和上述性能排行榜算出的「每一美元的 GPU 性能

本文标签：显卡必会深度哪款模型

版权声明：本文标题：跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1725742900a1040256.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉

更多相关文章

机器学习 深度学习服务器 适合学生党的

图新地球为什么很模糊，白球、看图、下载问题深度剖析

iqooneo3 如何不用vivo账号下载外部应用_难用传言是否为真，IQOO NEO 3系统深度评测...

【实战】深度学习构建人脸面部表情识别系统

如何利用国内的镜像下载Hugging Face模型与数据集？

【硬件】搭建自己的深度学习服务器 or 高性能电脑——从0到1装机指南

联想E40笔记本电脑CPU。显卡，主硬盘温度应该各是多少为正常？

在荣耀笔记本（Linux版）中拥有深度应用商店，几步就搞定啦！

ubuntu18 双显卡安装Nvidia驱动后登录进不去桌面系统，循环登录等相似问题的解决办法

深度测评享道、萝卜快跑、小马三款Robotaxi

蜂巢输入法android,讯飞输入法Android新版蜂巢输入模型

【深度学习环境配置】手把手实战配置深度学习环境（win10版）

虚拟机套娃折腾之路：在ESXI的WIN10上跑Android模拟器并直通显卡

云电脑有显卡吗？云电脑怎么做画面处理？

德国iF多项大奖加冕，这副耳机有多强？音珀GTW 270 Hybrid深度评测

百度输入法全面升级，打造首个基于大模型的输入法原生应用

JVM——运行时数据区、双亲委派模型、垃圾回收算法、垃圾收集器(1)

借助Transformer，DeepMind新模型自动生成CAD草图，网友：建筑设计要起飞了

Navisworks软件二次开发：三维模型导入与导出技术

solidworks 3D模型文件导出到tanner ledit版图软件中

发表评论

推荐文章

手机浏览器自动打开快应用？

太方便，WIN系统CUDA12.4下使用conda便捷管理虚拟环境中的不同版本的CUDA、cuDNN、PyTorch

win7系统技巧：设置共享打印机

百度中文手写输入法linux版,[Linux]百度输入法Linux版 V1.0.1.0 [2020.05.19]

【读书笔记】IOS帝国-Apple ⅡMac皮克斯iPodiTunesiPhoneApp StoreiPad，苹果教父：史蒂夫·乔布斯传_2020.02.15

热门文章

计算机启动F1正在准备自动修复,电脑正在准备自动修复（电脑一直循环自动修复）...

解决电脑连接了WiFi，却上不了网的问题

What's The Future Of Cognitive Computing? IBM Watson

解决“错误代码0x80070035”的几种方法，一键修复错误代码问题

电脑缺少msvcp140.dll怎么办，缺少msvcp140一键修复方法

win7系统修复工具_联想出品30多款系统快速修复工具，为你的电脑保驾护航！

使用mkiso向服务器传文件,Linux mkisofs 创建光盘镜像文件(Linux指令学习笔记)

Windows10安装CMake图文教程

cad老是弹出命令中发生异常_CAD出现致命错误的解决方法

cad插件_CAD插件迷你建筑工具箱4.0

最新文章

软件工程学科的诞生

三维激光扫描后处理软件_三维激光扫描在建筑、地质、采矿及科研解决方案

盘点俄罗斯大神写的几款软件，你用过几个？最后1个是我的童年

solidworks 3D模型文件导出到tanner ledit版图软件中

“芯”自主，更安全。国产三维云CAD:CrownCAD完全自主知识产权三维几何建模内核、约束求解器。

【总结】编程语言的分类

工作站 显卡 测试软件,绝对专业！14块工作站显卡测试（图）

信奥初赛解析：1-3-计算机软件系统

计算机硬软件系统知识点,(计算机基础知识点部分.doc

《软件设计师》复习总结

苹果电脑steam和epic哪个用的人多 steam里的mac游戏比epic多吗 Mac游戏推荐 Steam官网 Epic和Steam有什么区别 Mac电脑玩Windows游戏 crossover软件

ios查看帧率的软件_iOS查看屏幕帧数工具--YYFPSLabel

CREO：CREO软件的简介、安装(七大步骤)、学习路线大全(CREO软件各模块界面解释—菜单栏&amp;快速栏&amp;工作区、草绘零件工程图装配设计讲解)、案例应用(几十个案例)之详细攻略

autocad2008+C#2008开发中设置自动加载dll

PDF转Word的15种转换方法！（免费！效果超好！）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

机器学习深度学习服务器适合学生党的

工作站显卡测试软件,绝对专业！14块工作站显卡测试（图）

CREO：CREO软件的简介、安装(七大步骤)、学习路线大全(CREO软件各模块界面解释—菜单栏&快速栏&工作区、草绘零件工程图装配设计讲解)、案例应用(几十个案例)之详细攻略

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载