admin管理员组文章数量:1565265
公众号关注 “Python遇见机器学习”
设为“星标”,第一时间知晓最新干货~
本文转载自机器之心
众所周知,深度学习是一个很吃算力的领域,所以,GPU 选得好不好直接决定了你的炼丹体验。那么,哪些指标是你在买 GPU 时应该重视的呢?RAM、core 还是 tensor core?如何做出一个高性价比的选择?文本将重点讨论这些问题,同时指出一些选购误区。 选择 GPU 时你需要知道的东西 在选购 GPU 之前,你需要知道一些指标在深度学习中意味着什么。 首先是 Tensor Core,它可以让你在计算乘法和加法时将时钟周期降至 1/16,减少重复共享内存访问,让计算不再是整个流程中的瓶颈(瓶颈变成了获取数据的速度)。现在安培架构一出,更多的人可以用得起带 Tensor Core 的显卡了。 因为处理任务方法的特性,显存是使用 Tensor Core 进行矩阵乘法的周期成本中最重要的部分。具体说来,需要关注的参数是内存带宽(Bandwidth)。如果可以减少全局内存的延迟,我们可以进一步拥有更快的 GPU。 在一些案例中,我们可以体验到 Tensor Core 的强大,它是如此之快,以至于总是在等内存传来的数据——在 BERT Large 的训练中,Tensor Core 的 TFLOPS 利用率约为 30%,也就是说,70%的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时,最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s,而 V100 的内存带宽为 900 GB/s,因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。 我们预计两代配备 Tensor Core 的 GPU 架构之间的差异主要在于内存带宽,其他提升来自共享内存 / L1 缓存以及 Tensor Core 中更好的寄存器使用效率,预估的提升范围约在 1.78-1.87 倍之间。 在实际应用中,通过 NVLink 3.0,Tesla A100 的并联效率又要比 V100 提升 5%。我们可以根据英伟达提供的直接数据来估算特定深度学习任务上的速度。与 Tesla V100 相比,A100 的速度提升是:SE-ResNeXt101:1.43 倍
Masked R-CNN:1.47 倍
Transformer(12 层机器翻译,在 WMT14 en-de 数据集上):1.70 倍
使用预训练 transformer 和从头训练小型 transformer:>= 11GB;
训练大型 transformer 或卷积网络:>= 24 GB;
原型神经网络(transformer 或卷积网络):>= 10 GB;
Kaggle 比赛:>= 8 GB;
应用计算机视觉:>= 10GB。
版权声明:本文标题:跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1725742900a1040256.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论