RTX 3090 AI性能实测:FP32训练速度提升50%

RTX 3090 AI性能实测:FP32训练速度提升50%RTX 3090 在深度学习训练任务中 性能表现究竟如何 它能否取代 Titan RTX 成为最强消费级 AI 训练卡

大家好,欢迎来到IT知识分享网。

NVIDIA最近发布了备受期待的RTX 30系列显卡。

其中,性能最强大的RTX 3090具有24GB显存10496个CUDA核心。而2018年推出的旗舰显卡Titan RTX同样具有24GB显存。

RTX 3090 AI性能实测:FP32训练速度提升50%

RTX 3090在深度学习训练任务中,性能表现究竟如何,它能否取代Titan RTX成为最强消费级AI训练卡?现在已经有了答案。

国外两位AI从业者在拿到这款显卡后,第一时间测试了其在TensorFlow上的AI训练性能。

RTX 3090 AI性能实测:FP32训练速度提升50%

由于RTX 3090现阶段不能很好地支持TensorFlow 2,因此先在TensorFlow 1.15上进行测试。

话不多说,先看数据。在FP32任务上,RTX 3090每秒可处理561张图片,Titan RTX每秒可处理373张图片,性能提升50.4%

RTX 3090 AI性能实测:FP32训练速度提升50%

而在FP16任务上,RTX 3090每秒可处理1163张图片,Titan RTX每秒可处理1082张图片,性能仅提升7.5%

RTX 3090 AI性能实测:FP32训练速度提升50%

为何在FP32任务上的性能提升比在FP16上更明显,主要是因为RTX 3090大大提高了CUDA核心的数量。但是用于处理FP16的张量核心数量明显减少,这可能会影响FP16性能。

即便如此,张量核心更少的RTX 3090在很多FP16任务上,性能依然有小幅提升。

随后,英伟达官方提供了支持RTX 3090的CUDA 11.1,谷歌官方在TensorFlow nightly版中提供了对最新显卡的支持。

又有用户再次测试了两款显卡的性能对比。

RTX 3090 AI性能实测:FP32训练速度提升50%

△ 训练性能:每秒处理的图片数量

可以看出,使用FP32进行的所有模型训练,RTX 3090都能实现40%~60%的训练提升。而大多数模型的FP16训练速度几乎不变,最多提升20%,甚至在Inception模型上还有所下降。

只能说RTX 3090在张量核心上的“刀法”颇为精准,如果你对FP16训练性能有较高要求,也许可以等待今后的升级版。

不过RTX 3090上市价格仅1499美元,比Titan RTX便宜1000美元,仍不失为“性价比”之选。

参考链接:

https://www.pugetsystems.com/labs/hpc/RTX3090-TensorFlow-NAMD-and-HPCG-Performance-on-Linux-Preliminary-1902/

https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090

— 完 —

量子位 QbitAI · 头条号签约作者

关注我们,第一时间获知前沿科技动态

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/167001.html

(0)
上一篇 2025-01-10 10:25
下一篇 2025-01-10 10:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信