3,172 讀數

Nvidia RTX A4000 ADA 可以处理机器学习任务吗？

经过 Hostkey.com15m2023/06/29

太長; 讀書

4 月，Nvidia 推出了一款新产品 RTX A4000 ADA，这是一款专为工作站应用程序设计的小型 GPU。该处理器取代了A2000，可用于复杂的任务，包括科学研究、工程计算和数据可视化。新GPU的20GB内存容量使其能够处理大型环境。

featured image - Nvidia RTX A4000 ADA 可以处理机器学习任务吗？

4 月， Nvidia推出了一款新产品 RTX A4000 ADA，这是一款专为工作站应用程序设计的小型 GPU。该处理器取代了A2000，可用于复杂的任务，包括科学研究、工程计算和数据可视化。

RTX A4000 ADA 具有 6,144 个 CUDA 核心、192 个 Tensor 和 48 个 RT 核心以及 20GB GDDR6 ECC VRAM。新型 GPU 的主要优势之一是其功效：RTX A4000 ADA 功耗仅为 70W，从而降低了功耗成本和系统热量。得益于 4x Mini-DisplayPort 1.4a 连接，GPU 还允许您驱动多个显示器。

将 RTX 4000 SFF ADA GPU 与同类其他设备进行比较时，需要注意的是，在单精度模式下运行时，它表现出与最新一代 RTX A4000 GPU 相似的性能，后者的功耗是其两倍（140W vs. 70W）。

ADA RTX 4000 SFF 基于 ADA Lovelace 架构和 5 纳米工艺技术构建。这使得下一代 Tensor Core 和光线追踪核心成为可能，通过提供比 RTX A4000 更快、更高效的光线追踪和 Tensor 核心，显着提高性能。此外，ADA 的 RTX 4000 SFF 采用小型封装 - 该卡长 168 毫米，厚度相当于两个扩展槽。

改进的光线追踪内核可在使用该技术的环境（例如 3D 设计和渲染）中实现高效性能。此外，新GPU的20GB内存容量使其能够处理大型环境。

据制造商介绍，第四代 Tensor 核心可提供极高的 AI 计算性能，比上一代性能提高了一倍。新的 Tensor 核心支持 FP8 加速。这一创新功能可能非常适合那些在基因组学和计算机视觉等环境中开发和部署人工智能模型的人。

还值得注意的是，编码和解码机制的增加使 RTX 4000 SFF ADA 成为视频等多媒体工作负载的良好解决方案。

NVIDIA RTX A4000 和 RTX A5000 显卡、RTX 3090 的技术规格

	RTX A4000 ADA	NVIDIA RTX A4000	NVIDIA RTX A5000	RTX 3090
建筑学	艾达·洛夫莱斯	安培	安培	安培
技术流程	5纳米	8纳米	8纳米	8纳米
图形处理器	AD104	GA102	GA104	GA102
晶体管数量（百万）	35,800	17,400	28,300	28,300
内存带宽（Gb/秒）	280.0	第448章	第768章	936.2
显存容量（位）	160	256	第384章	第384章
GPU内存（GB）	20	16	24	24
内存类型	GDDR6	GDDR6	GDDR6	GDDR6X
CUDA 核心	6,144	6 144	8192	10496
张量核心	192	192	256	328
RT 核心	48	48	64	82
SP 性能（万亿次浮点运算）	19.2	19,2	27,8	35,6
RT 核心性能（万亿次浮点运算）	44.3	37,4	54,2	69,5
张量性能（万亿次浮点运算）	306.8	153,4	222,2	第285章
最大功率（瓦）	70	140	230	350
界面	PCIe 4.0×16	PCI-E 4.0 x16	PCI-E 4.0 x16	PCIe 4.0 x16
连接器	4 个迷你 DisplayPort 1.4a	DP 1.4 (4)	DP 1.4 (4)	DP 1.4 (4)
构成因素	2 个插槽	1 个插槽	2 个插槽	2-3个插槽
vGPU软件	不	不	是的，无限制	是的。有限制
NVlink	不	不	2 个 RTX A5000	是的
CUDA支持	11.6	8.6	8.6	8.6
VULKAN 支持	1.3	是的	是的	是的，1.2
价格（美元）	1,250 人	1000	2500	1400

测试环境描述

	RTX A4000 ADA	RTX A4000
中央处理器	AMD 锐龙 9 5950X 3.4GHz（16 核）	八核英特尔至强 E-2288G，3.5 GHz
内存	4 个 32 Gb DDR4 ECC SO-DIMM	2 个 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 MHz
驾驶	1Tb NVMe 固态硬盘	三星 SSD 980 PRO 1TB
母板	华擎 X570D4I-2T	华硕P11C-I系列
操作系统	微软Windows 10	微软Windows 10

检测结果

V-Ray 5 基准测试

V-Ray GPU CUDA 和 RTX 测试测量相对 GPU 渲染性能。 RTX A4000 GPU 略落后于 RTX A4000 ADA（分别为 4% 和 11%）。

机器学习

《狗与猫》

为了比较神经网络 GPU 的性能，我们使用了“狗与猫”数据集 - 该测试分析照片的内容并区分照片显示的是猫还是狗。可以找到所有必要的原始数据这里。我们在不同的 GPU 和云服务上运行此测试，得到以下结果：

在本次测试中，RTX A4000 ADA 的性能略胜 RTX A4000 9%，但请记住新 GPU 的小尺寸和低功耗。

人工智能基准测试

AI-Benchmark 允许您在 AI 模型输出任务期间测量设备的性能。测量单位可能会根据测试的不同而有所不同，但通常是每秒操作数（OPS）或每秒帧数（FPS）。

	RTX A4000	RTX A4000 ADA
1/19。移动网络-V2	1.1——推论\|批次 = 50，大小 = 224x224：38.5 ± 2.4 ms1.2 — 训练 \|批次 = 50，大小 = 224x224：109 ± 4 毫秒	1.1——推论\|批次 = 50，大小 = 224x224：53.5 ± 0.7 ms1.2 — 训练 \|批次 = 50，大小 = 224x224：130.1 ± 0.6 毫秒
2/19。盗梦空间-V3	2.1 — 推理 \|批次 = 20，大小 = 346x346：36.1 ± 1.8 ms2.2 — 训练 \|批次 = 20，大小 = 346x346：137.4 ± 0.6 毫秒	2.1 — 推理 \|批次 = 20，大小 = 346x346：36.8 ± 1.1 ms2.2 — 训练 \|批次=20，大小=346x346：147.5 ± 0.8 毫秒
3/19。盗梦空间-V4	3.1——推理\|批次 = 10，大小 = 346x346：34.0 ± 0.9 ms3.2 — 训练 \|批次=10，大小=346x346：139.4 ± 1.0 毫秒	3.1——推理\|批次 = 10，大小 = 346x346：33.0 ± 0.8 ms3.2 — 训练 \|批次=10，大小=346x346：135.7 ± 0.9 毫秒
4/19。 Inception-ResNet-V2	4.1 — 推理 \|批次 = 10，大小 = 346x346：45.7 ± 0.6 ms4.2 — 训练 \|批次=8，大小=346x346：153.4 ± 0.8 毫秒	4.1 — 推理批次=10，大小=346x346：33.6 ± 0.7 ms4.2 — 训练批次=8，大小=346x346：132 ± 1 ms
5/19。 ResNet-V2-50	5.1 — 推理 \|批次 = 10，大小 = 346x346：25.3 ± 0.5 ms5.2 — 训练 \|批次 = 10，大小 = 346x346：91.1 ± 0.8 毫秒	5.1 — 推理 \|批次 = 10，大小 = 346x346：26.1 ± 0.5 ms5.2 — 训练 \|批次 = 10，大小 = 346x346：92.3 ± 0.6 毫秒
6/19。 ResNet-V2-152	6.1 — 推理 \|批次 = 10，大小 = 256x256：32.4 ± 0.5 ms6.2 — 训练 \|批次=10，大小=256x256：131.4 ± 0.7 毫秒	6.1 — 推理 \|批次 = 10，大小 = 256x256：23.7 ± 0.6 ms6.2 — 训练 \|批次=10，大小=256x256：107.1 ± 0.9 毫秒
7/19。 VGG-16	7.1 — 推理 \|批次 = 20，大小 = 224x224：54.9 ± 0.9 ms7.2 — 训练 \|批次=2，大小=224x224：83.6 ± 0.7 毫秒	7.1 — 推理 \|批次 = 20，大小 = 224x224：66.3 ± 0.9 ms7.2 — 训练 \|批次=2，大小=224x224：109.3 ± 0.8 毫秒
8/19。 SRCNN 9-5-5	8.1 — 推理 \|批次 = 10，大小 = 512x512：51.5 ± 0.9 ms8.2 — 推理 \|批次 = 1，大小 = 1536x1536：45.7 ± 0.9 ms8.3 — 训练 \|批次=10，大小=512x512：183 ± 1 毫秒	8.1 — 推理 \|批次 = 10，大小 = 512x512：59.9 ± 1.6 ms8.2 — 推理 \|批次 = 1，大小 = 1536x1536：53.1 ± 0.7 ms8.3 — 训练 \|批次=10，大小=512x512：176 ± 2 毫秒
9/19。 VGG-19 超高清	9.1 — 推理 \|批次 = 10，大小 = 256x256：99.5 ± 0.8 ms9.2 — 推理 \|批次 = 1，大小 = 1024x1024：162 ± 1 ms9.3 — 训练 \|批次 = 10，大小 = 224x224：204 ± 2 毫秒
10/19。 ResNet-SRGAN	10.1 — 推论 \|批次 = 10，大小 = 512x512：85.8 ± 0.6 ms10.2 — 推理 \|批次 = 1，大小 = 1536x1536：82.4 ± 1.9 ms10.3 — 训练 \|批次 = 5，大小 = 512x512：133 ± 1 毫秒	10.1 — 推论 \|批次 = 10，大小 = 512x512：98.9 ± 0.8 ms10.2 — 推理 \|批次 = 1，大小 = 1536x1536：86.1 ± 0.6 ms10.3 — 训练 \|批次 = 5，大小 = 512x512：130.9 ± 0.6 毫秒
11/19。 ResNet-DPED	11.1 — 推论 \|批次 = 10，大小 = 256x256：114.9 ± 0.6 ms11.2 — 推理 \|批次 = 1，大小 = 1024x1024：182 ± 2 ms11.3 — 训练 \|批次=15，大小=128x128：178.1 ± 0.8 毫秒	11.1 — 推论 \|批次 = 10，大小 = 256x256：146.4 ± 0.5 ms11.2 — 推理 \|批次 = 1，大小 = 1024x1024：234.3 ± 0.5 ms11.3 — 训练 \|批次=15，大小=128x128：234.7 ± 0.6 毫秒
12/19。优网	12.1 — 推论 \|批次 = 4，大小 = 512x512：180.8 ± 0.7 ms12.2 — 推理 \|批次=1，大小=1024x1024：177.0 ± 0.4 ms12.3 — 训练 \|批次=4，大小=256x256：198.6 ± 0.5 毫秒	12.1 — 推论 \|批次 = 4，大小 = 512x512：222.9 ± 0.5 ms12.2 — 推理 \|批次 = 1，大小 = 1024x1024：220.4 ± 0.6 ms12.3 — 训练 \|批次 = 4，大小 = 256x256：229.1 ± 0.7 毫秒
13/19。 Nvidia-SPADE	13.1 — 推论 \|批次 = 5，大小 = 128x128：54.5 ± 0.5 ms13.2 — 训练 \|批次=1，大小=128x128：103.6 ± 0.6 毫秒	13.1 — 推论 \|批次 = 5，大小 = 128x128：59.6 ± 0.6 ms13.2 — 训练 \|批次=1，大小=128x128：94.6 ± 0.6 毫秒
14/19。集成电路网	14.1 — 推论 \|批次 = 5，大小 = 1024x1536：126.3 ± 0.8 ms14.2 — 训练 \|批次 = 10，大小 = 1024x1536：426 ± 9 毫秒	14.1 — 推论 \|批次 = 5，大小 = 1024x1536：144 ± 4 ms14.2 — 训练 \|批次 = 10，大小 = 1024x1536：475 ± 17 毫秒
15/19。 PSP网络	15.1 — 推论 \|批次 = 5，大小 = 720x720：249 ± 12 ms15.2 — 训练 \|批次=1，大小=512x512：104.6 ± 0.6 毫秒	15.1 — 推论 \|批次 = 5，大小 = 720x720：291.4 ± 0.5 ms15.2 — 训练 \|批次=1，大小=512x512：99.8 ± 0.9 毫秒
16/19。深度实验室	16.1 — 推论 \|批次 = 2，大小 = 512x512：71.7 ± 0.6 ms16.2 — 训练 \|批次=1，大小=384x384：84.9 ± 0.5 毫秒	16.1 — 推论 \|批次 = 2，大小 = 512x512：71.5 ± 0.7 ms16.2 — 训练 \|批次=1，大小=384x384：69.4 ± 0.6 毫秒
17/19。像素RNN	17.1 — 推论 \|批次 = 50，大小 = 64x64：299 ± 14 ms17.2 — 训练 \|批次=10，大小=64x64：1258 ± 64 毫秒	17.1 — 推论 \|批次 = 50，大小 = 64x64：321 ± 30 ms17.2 — 训练 \|批次=10，大小=64x64：1278 ± 74 毫秒
18/19。 LSTM-情感	18.1 — 推论 \|批次=100，大小=1024x300：395 ± 11 ms18.2 — 训练 \|批次=10，大小=1024x300：676 ± 15 毫秒	18.1 — 推论 \|批次=100，大小=1024x300：345 ± 10 ms18.2 — 训练 \|批次=10，大小=1024x300：774 ± 17 毫秒
19/19。 GNMT-翻译	19.1 — 推论 \|批次=1，大小=1x20：119 ± 2 毫秒	19.1 — 推论 \|批次=1，大小=1x20：156 ± 1 毫秒

该测试结果表明，RTX A4000 的性能比 RTX A4000 ADA 高出 6%，但需要注意的是，测试结果可能会根据具体任务和所采用的操作条件而有所不同。

火炬

RTX A 4000

标杆管理	模型平均训练时间（毫秒）
训练双精度类型mnasnet0_5	62.995805740356445
训练双精度类型mnasnet0_75	98.39066505432129
训练双精度类型mnasnet1_0	126.60405158996582
训练双精度类型mnasnet1_3	186.89460277557373
训练双精度类型resnet18	428.08079719543457
训练双精度类型resnet34	883.5790348052979
训练双精度类型resnet50	1016.3950300216675
训练双精度类型resnet101	1927.2308254241943
训练双精度类型resnet152	2815.663013458252
训练双精度类型resnext50_32x4d	1075.4373741149902
训练双精度类型resnext101_32x8d	4050.0641918182373
训练双精度类型wide_resnet50_2	2615.9953451156616
训练双精度类型wide_resnet101_2	5218.524832725525
训练双精度类型densenet121	751.9759511947632
训练双精度类型densenet169	910.3225564956665
训练双精度类型densenet201	1163.036551475525
训练双精度类型densenet161	2141.505298614502
训练双精度类型squeezenet1_0	203.14435005187988
训练双精度类型squeezenet1_1	98.04857730865479
训练双精度类型vgg11	1697.710485458374
训练双精度类型vgg11_bn	1729.2972660064697
训练双精度类型vgg13	2491.615080833435
训练双精度类型vgg13_bn	2545.1631927490234
训练双精度类型vgg16	3371.1953449249268
训练双精度类型vgg16_bn	3423.8639068603516
训练双精度类型vgg19_bn	4314.5153522491455
训练双精度类型vgg19	4249.422650337219
训练双精度类型mobilenet_v3_large	105.54619789123535
训练双精度类型mobilenet_v3_small	37.6680850982666
训练双精度类型 shufflenet_v2_x0_5	26.51611328125
训练双精度类型shufflenet_v2_x1_0	61.260504722595215
训练双精度类型 shufflenet_v2_x1_5	105.30067920684814
训练双精度类型shufflenet_v2_x2_0	181.03694438934326
推理双精度类型 mnasnet0_5	17.397074699401855
推理双精度类型 mnasnet0_75	28.902697563171387
推理双精度类型 mnasnet1_0	38.387718200683594
推理双精度类型 mnasnet1_3	58.228821754455566
推理双精度类型resnet18	147.95727252960205
推理双精度类型resnet34	293.519492149353
推理双精度类型resnet50	336.44991874694824
推理双精度类型resnet101	637.9982376098633
推理双精度类型resnet152	948.9351654052734
推理双精度类型 resnext50_32x4d	372.80876636505127
推理双精度类型 resnext101_32x8d	1385.1624917984009
推理双精度类型wide_resnet50_2	873.048791885376
推理双精度类型wide_resnet101_2	1729.2765426635742
推理双精度类型densenet121	270.13323307037354
推理双精度类型densenet169	327.1932888031006
推理双精度型densenet201	414.733362197876
推理双精度类型densenet161	766.3542318344116
推理双精度类型squeezenet1_0	74.86292839050293
推理双精度类型squeezenet1_1	34.04905319213867
推理双精度类型 vgg11	576.3767147064209
推理双精度类型 vgg11_bn	580.5839586257935
推理双精度类型 vgg13	853.4365510940552
推理双精度类型 vgg13_bn	860.3136301040649
推理双精度类型 vgg16	1145.091052055359
推理双精度类型 vgg16_bn	1152.8028392791748
推理双精度类型 vgg19_bn	1444.9562692642212
推理双精度类型 vgg19	1437.0987701416016
推理双精度类型 mobilenet_v3_large	30.876317024230957
推理双精度类型 mobilenet_v3_small	11.234536170959473
推理双精度类型 shufflenet_v2_x0_5	7.425284385681152
推理双精度类型 shufflenet_v2_x1_0	18.25782299041748
推理双精度类型 shufflenet_v2_x1_5	33.34946632385254
推理双精度类型 shufflenet_v2_x2_0	57.84676551818848

RTX A4000 ADA

标杆管理	模型平均列车时间
训练半精度类型mnasnet0_5	20.266618728637695
训练半精度类型mnasnet0_75	21.445374488830566
训练半精度类型mnasnet1_0	26.714019775390625
训练半精度类型mnasnet1_3	26.5126371383667
训练半精度类型resnet18	19.624991416931152
训练半精度类型resnet34	32.46446132659912
训练半精度型resnet50	57.17473030090332
训练半精度型resnet101	98.20127010345459
训练半精度类型resnet152	138.18389415740967
训练半精度类型resnext50_32x4d	75.56005001068115
训练半精度类型resnext101_32x8d	228.8706636428833
训练半精度类型wide_resnet50_2	113.76442432403564
训练半精度类型wide_resnet101_2	204.17311191558838
训练半精度类型densenet121	68.97401332855225
训练半精度类型densenet169	85.16453742980957
训练半精度型densenet201	103.299241065979
训练半精度类型densenet161	137.54578113555908
训练半精度类型squeezenet1_0	16.71830177307129
训练半精度类型squeezenet1_1	12.906527519226074
训练半精度类型vgg11	51.7004919052124
训练半精度类型vgg11_bn	57.63327598571777
训练半精度类型vgg13	86.10869407653809
训练半精度类型vgg13_bn	95.86676120758057
训练半精度类型vgg16	102.91589260101318
训练半精度类型vgg16_bn	113.74778270721436
训练半精度类型vgg19_bn	131.56734943389893
训练半精度类型vgg19	119.70191955566406
训练半精度类型mobilenet_v3_large	31.30636692047119
训练半精度类型mobilenet_v3_small	19.44464683532715
训练半精度类型shufflenet_v2_x0_5	13.710575103759766
训练半精度类型shufflenet_v2_x1_0	23.608479499816895
训练半精度类型shufflenet_v2_x1_5	26.793746948242188
训练半精度类型shufflenet_v2_x2_0	24.550962448120117
推理半精度类型 mnasnet0_5	4.418272972106934
推理半精度类型 mnasnet0_75	4.021778106689453
推理半精度类型 mnasnet1_0	4.42598819732666
推理半精度类型 mnasnet1_3	4.618926048278809
推理半精度类型resnet18	5.803341865539551
推理半精度类型resnet34	9.756693840026855
推理半精度型resnet50	15.873079299926758
推理半精度型resnet101	28.268003463745117
推理半精度类型resnet152	40.04594326019287
推理半精度类型 resnext50_32x4d	19.53421115875244
推理半精度类型 resnext101_32x8d	62.44826316833496
推理半精度类型wide_resnet50_2	33.533992767333984
推理半精度类型wide_resnet101_2	59.60897445678711
推理半精度类型densenet121	18.052735328674316
推理半精度类型densenet169	21.956982612609863
推理半精度型densenet201	27.85182476043701
推理半精度类型densenet161	37.41891860961914
推理半精度类型squeezenet1_0	4.391803741455078
推理半精度类型squeezenet1_1	2.4281740188598633
推理半精度类型 vgg11	17.11493968963623
推理半精度类型 vgg11_bn	18.40585231781006
推理半精度类型 vgg13	28.438148498535156
推理半精度类型 vgg13_bn	30.672597885131836
推理半精度类型 vgg16	34.43562984466553
推理半精度类型 vgg16_bn	36.92122936248779
推理半精度类型 vgg19_bn	43.144264221191406
推理半精度类型 vgg19	40.5385684967041
推理半精度类型 mobilenet_v3_large	5.350713729858398
推理半精度类型 mobilenet_v3_small	4.016985893249512
推理半精度类型 shufflenet_v2_x0_5	5.079126358032227
推理半精度类型 shufflenet_v2_x1_0	5.593156814575195
推理半精度类型 shufflenet_v2_x1_5	5.649552345275879
推理半精度类型 shufflenet_v2_x2_0	5.355663299560547
训练双精度类型mnasnet0_5	50.2386999130249
训练双精度类型 mnasnet0_75	80.66896915435791
训练双精度类型 mnasnet1_0	103.32422733306885
训练双精度类型 mnasnet1_3	154.6230697631836
训练双精度类型resnet18	337.94031620025635
训练双精度类型resnet34	677.7706575393677
训练双精度类型resnet50	789.9243211746216
训练双精度类型resnet101	1484.3351316452026
训练双精度类型resnet152	2170.570478439331
训练双精度类型resnext50_32x4d	877.3719882965088
训练双精度类型resnext101_32x8d	3652.4944639205933
训练双精度类型wide_resnet50_2	2154.612874984741
训练双精度类型wide_resnet101_2	4176.522083282471
训练双精度类型densenet121	607.8699731826782
训练双精度类型densenet169	744.6409797668457
训练双精度类型densenet201	962.677731513977
训练双精度类型densenet161	1759.772515296936
训练双精度类型squeezenet1_0	164.3690824508667
训练双精度类型squeezenet1_1	78.70647430419922
训练双精度类型vgg11	1362.6095294952393
训练双精度类型vgg11_bn	1387.2539138793945
训练双精度类型vgg13	2006.0230445861816
训练双精度类型vgg13_bn	2047.526364326477
训练双精度类型vgg16	2702.2086429595947
训练双精度类型vgg16_bn	2747.241234779358
训练双精度类型vgg19_bn	3447.1724700927734
训练双精度类型vgg19	3397.990345954895
训练双精度类型mobilenet_v3_large	84.65698719024658
训练双精度类型mobilenet_v3_small	29.816465377807617
训练双精度类型 shufflenet_v2_x0_5	27.401342391967773
训练双精度类型shufflenet_v2_x1_0	48.322744369506836
训练双精度类型 shufflenet_v2_x1_5	82.22103118896484
训练双精度类型shufflenet_v2_x2_0	141.7021369934082
推理双精度类型 mnasnet0_5	12.988653182983398
推理双精度类型 mnasnet0_75	22.422199249267578
推理双精度类型 mnasnet1_0	30.056486129760742
推理双精度类型 mnasnet1_3	46.953935623168945
推理双精度类型resnet18	118.04479122161865
推理双精度类型resnet34	231.52336597442627
推理双精度类型resnet50	268.63497734069824
推理双精度类型resnet101	495.2010440826416
推理双精度类型resnet152	726.4922094345093
推理双精度类型 resnext50_32x4d	291.47679328918457
推理双精度类型 resnext101_32x8d	1055.10901927948
推理双精度类型wide_resnet50_2	690.6917667388916
推理双精度类型wide_resnet101_2	1347.5529861450195
推理双精度类型densenet121	224.35829639434814
推理双精度类型densenet169	268.9145278930664
推理双精度型densenet201	343.1972026824951
推理双精度类型densenet161	635.866231918335
推理双精度类型squeezenet1_0	61.92759037017822
推理双精度类型squeezenet1_1	27.009410858154297
推理双精度类型 vgg11	462.3375129699707
推理双精度类型 vgg11_bn	468.4495782852173
推理双精度类型 vgg13	692.8219032287598
推理双精度类型 vgg13_bn	703.3538103103638
推理双精度类型 vgg16	924.4353818893433
推理双精度类型 vgg16_bn	936.5075063705444
推理双精度类型 vgg19_bn	1169.098300933838
推理双精度类型 vgg19	1156.3771772384644
推理双精度类型 mobilenet_v3_large	24.2356014251709
推理双精度类型 mobilenet_v3_small	8.85490894317627
推理双精度类型 shufflenet_v2_x0_5	6.360034942626953
推理双精度类型 shufflenet_v2_x1_0	14.301743507385254
推理双精度类型 shufflenet_v2_x1_5	24.863481521606445
推理双精度类型 shufflenet_v2_x2_0	43.8505744934082

结论

事实证明，新显卡是许多工作任务的有效解决方案。由于其紧凑的尺寸，它非常适合功能强大的 SFF（小型）计算机。此外，值得注意的是，6,144 个 CUDA 核心和 20GB 内存以及 160 位总线使该卡成为市场上生产力最高的卡之一。此外，70W的低TDP有助于降低功耗成本。四个 Mini-DisplayPort 端口允许该卡与多个显示器一起使用或作为多通道图形解决方案。

RTX 4000 SFF ADA 比前几代产品取得了重大进步，其性能相当于卡的两倍，功耗却是后者的两倍。 RTX 4000 SFF ADA 无需 PCIe 电源连接器，可轻松集成到低功耗工作站中，而无需牺牲高性能。

L O A D I N G
. . . comments & more!

About Author

Hostkey.com@hostkey

Dedicated high-performance GPU servers and private cloud solutions. Colocation and Remote Smart hands.

Read my stories

这篇文章刊登在...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

	RTX A4000	RTX A4000 ADA
1/19。移动网络-V2	1.1——推论\|批次 = 50，大小 = 224x224：38.5 ± 2.4 ms1.2 — 训练 \|批次 = 50，大小 = 224x224：109 ± 4 毫秒	1.1——推论\|批次 = 50，大小 = 224x224：53.5 ± 0.7 ms1.2 — 训练 \|批次 = 50，大小 = 224x224：130.1 ± 0.6 毫秒
2/19。盗梦空间-V3	2.1 — 推理 \|批次 = 20，大小 = 346x346：36.1 ± 1.8 ms2.2 — 训练 \|批次 = 20，大小 = 346x346：137.4 ± 0.6 毫秒	2.1 — 推理 \|批次 = 20，大小 = 346x346：36.8 ± 1.1 ms2.2 — 训练 \|批次=20，大小=346x346：147.5 ± 0.8 毫秒
3/19。盗梦空间-V4	3.1——推理\|批次 = 10，大小 = 346x346：34.0 ± 0.9 ms3.2 — 训练 \|批次=10，大小=346x346：139.4 ± 1.0 毫秒	3.1——推理\|批次 = 10，大小 = 346x346：33.0 ± 0.8 ms3.2 — 训练 \|批次=10，大小=346x346：135.7 ± 0.9 毫秒
4/19。 Inception-ResNet-V2	4.1 — 推理 \|批次 = 10，大小 = 346x346：45.7 ± 0.6 ms4.2 — 训练 \|批次=8，大小=346x346：153.4 ± 0.8 毫秒	4.1 — 推理批次=10，大小=346x346：33.6 ± 0.7 ms4.2 — 训练批次=8，大小=346x346：132 ± 1 ms
5/19。 ResNet-V2-50	5.1 — 推理 \|批次 = 10，大小 = 346x346：25.3 ± 0.5 ms5.2 — 训练 \|批次 = 10，大小 = 346x346：91.1 ± 0.8 毫秒	5.1 — 推理 \|批次 = 10，大小 = 346x346：26.1 ± 0.5 ms5.2 — 训练 \|批次 = 10，大小 = 346x346：92.3 ± 0.6 毫秒
6/19。 ResNet-V2-152	6.1 — 推理 \|批次 = 10，大小 = 256x256：32.4 ± 0.5 ms6.2 — 训练 \|批次=10，大小=256x256：131.4 ± 0.7 毫秒	6.1 — 推理 \|批次 = 10，大小 = 256x256：23.7 ± 0.6 ms6.2 — 训练 \|批次=10，大小=256x256：107.1 ± 0.9 毫秒
7/19。 VGG-16	7.1 — 推理 \|批次 = 20，大小 = 224x224：54.9 ± 0.9 ms7.2 — 训练 \|批次=2，大小=224x224：83.6 ± 0.7 毫秒	7.1 — 推理 \|批次 = 20，大小 = 224x224：66.3 ± 0.9 ms7.2 — 训练 \|批次=2，大小=224x224：109.3 ± 0.8 毫秒
8/19。 SRCNN 9-5-5	8.1 — 推理 \|批次 = 10，大小 = 512x512：51.5 ± 0.9 ms8.2 — 推理 \|批次 = 1，大小 = 1536x1536：45.7 ± 0.9 ms8.3 — 训练 \|批次=10，大小=512x512：183 ± 1 毫秒	8.1 — 推理 \|批次 = 10，大小 = 512x512：59.9 ± 1.6 ms8.2 — 推理 \|批次 = 1，大小 = 1536x1536：53.1 ± 0.7 ms8.3 — 训练 \|批次=10，大小=512x512：176 ± 2 毫秒
9/19。 VGG-19 超高清	9.1 — 推理 \|批次 = 10，大小 = 256x256：99.5 ± 0.8 ms9.2 — 推理 \|批次 = 1，大小 = 1024x1024：162 ± 1 ms9.3 — 训练 \|批次 = 10，大小 = 224x224：204 ± 2 毫秒
10/19。 ResNet-SRGAN	10.1 — 推论 \|批次 = 10，大小 = 512x512：85.8 ± 0.6 ms10.2 — 推理 \|批次 = 1，大小 = 1536x1536：82.4 ± 1.9 ms10.3 — 训练 \|批次 = 5，大小 = 512x512：133 ± 1 毫秒	10.1 — 推论 \|批次 = 10，大小 = 512x512：98.9 ± 0.8 ms10.2 — 推理 \|批次 = 1，大小 = 1536x1536：86.1 ± 0.6 ms10.3 — 训练 \|批次 = 5，大小 = 512x512：130.9 ± 0.6 毫秒
11/19。 ResNet-DPED	11.1 — 推论 \|批次 = 10，大小 = 256x256：114.9 ± 0.6 ms11.2 — 推理 \|批次 = 1，大小 = 1024x1024：182 ± 2 ms11.3 — 训练 \|批次=15，大小=128x128：178.1 ± 0.8 毫秒	11.1 — 推论 \|批次 = 10，大小 = 256x256：146.4 ± 0.5 ms11.2 — 推理 \|批次 = 1，大小 = 1024x1024：234.3 ± 0.5 ms11.3 — 训练 \|批次=15，大小=128x128：234.7 ± 0.6 毫秒
12/19。优网	12.1 — 推论 \|批次 = 4，大小 = 512x512：180.8 ± 0.7 ms12.2 — 推理 \|批次=1，大小=1024x1024：177.0 ± 0.4 ms12.3 — 训练 \|批次=4，大小=256x256：198.6 ± 0.5 毫秒	12.1 — 推论 \|批次 = 4，大小 = 512x512：222.9 ± 0.5 ms12.2 — 推理 \|批次 = 1，大小 = 1024x1024：220.4 ± 0.6 ms12.3 — 训练 \|批次 = 4，大小 = 256x256：229.1 ± 0.7 毫秒
13/19。 Nvidia-SPADE	13.1 — 推论 \|批次 = 5，大小 = 128x128：54.5 ± 0.5 ms13.2 — 训练 \|批次=1，大小=128x128：103.6 ± 0.6 毫秒	13.1 — 推论 \|批次 = 5，大小 = 128x128：59.6 ± 0.6 ms13.2 — 训练 \|批次=1，大小=128x128：94.6 ± 0.6 毫秒
14/19。集成电路网	14.1 — 推论 \|批次 = 5，大小 = 1024x1536：126.3 ± 0.8 ms14.2 — 训练 \|批次 = 10，大小 = 1024x1536：426 ± 9 毫秒	14.1 — 推论 \|批次 = 5，大小 = 1024x1536：144 ± 4 ms14.2 — 训练 \|批次 = 10，大小 = 1024x1536：475 ± 17 毫秒
15/19。 PSP网络	15.1 — 推论 \|批次 = 5，大小 = 720x720：249 ± 12 ms15.2 — 训练 \|批次=1，大小=512x512：104.6 ± 0.6 毫秒	15.1 — 推论 \|批次 = 5，大小 = 720x720：291.4 ± 0.5 ms15.2 — 训练 \|批次=1，大小=512x512：99.8 ± 0.9 毫秒
16/19。深度实验室	16.1 — 推论 \|批次 = 2，大小 = 512x512：71.7 ± 0.6 ms16.2 — 训练 \|批次=1，大小=384x384：84.9 ± 0.5 毫秒	16.1 — 推论 \|批次 = 2，大小 = 512x512：71.5 ± 0.7 ms16.2 — 训练 \|批次=1，大小=384x384：69.4 ± 0.6 毫秒
17/19。像素RNN	17.1 — 推论 \|批次 = 50，大小 = 64x64：299 ± 14 ms17.2 — 训练 \|批次=10，大小=64x64：1258 ± 64 毫秒	17.1 — 推论 \|批次 = 50，大小 = 64x64：321 ± 30 ms17.2 — 训练 \|批次=10，大小=64x64：1278 ± 74 毫秒
18/19。 LSTM-情感	18.1 — 推论 \|批次=100，大小=1024x300：395 ± 11 ms18.2 — 训练 \|批次=10，大小=1024x300：676 ± 15 毫秒	18.1 — 推论 \|批次=100，大小=1024x300：345 ± 10 ms18.2 — 训练 \|批次=10，大小=1024x300：774 ± 17 毫秒
19/19。 GNMT-翻译	19.1 — 推论 \|批次=1，大小=1x20：119 ± 2 毫秒	19.1 — 推论 \|批次=1，大小=1x20：156 ± 1 毫秒