4 月, Nvidia推出了一款新产品 RTX A4000 ADA,这是一款专为工作站应用程序设计的小型 GPU。该处理器取代了A2000,可用于复杂的任务,包括科学研究、工程计算和数据可视化。
RTX A4000 ADA 具有 6,144 个 CUDA 核心、192 个 Tensor 和 48 个 RT 核心以及 20GB GDDR6 ECC VRAM。新型 GPU 的主要优势之一是其功效:RTX A4000 ADA 功耗仅为 70W,从而降低了功耗成本和系统热量。得益于 4x Mini-DisplayPort 1.4a 连接,GPU 还允许您驱动多个显示器。
将 RTX 4000 SFF ADA GPU 与同类其他设备进行比较时,需要注意的是,在单精度模式下运行时,它表现出与最新一代 RTX A4000 GPU 相似的性能,后者的功耗是其两倍(140W vs. 70W)。
ADA RTX 4000 SFF 基于 ADA Lovelace 架构和 5 纳米工艺技术构建。这使得下一代 Tensor Core 和光线追踪核心成为可能,通过提供比 RTX A4000 更快、更高效的光线追踪和 Tensor 核心,显着提高性能。此外,ADA 的 RTX 4000 SFF 采用小型封装 - 该卡长 168 毫米,厚度相当于两个扩展槽。
改进的光线追踪内核可在使用该技术的环境(例如 3D 设计和渲染)中实现高效性能。此外,新GPU的20GB内存容量使其能够处理大型环境。
据制造商介绍,第四代 Tensor 核心可提供极高的 AI 计算性能,比上一代性能提高了一倍。新的 Tensor 核心支持 FP8 加速。这一创新功能可能非常适合那些在基因组学和计算机视觉等环境中开发和部署人工智能模型的人。
还值得注意的是,编码和解码机制的增加使 RTX 4000 SFF ADA 成为视频等多媒体工作负载的良好解决方案。
| RTX A4000 ADA | NVIDIA RTX A4000 | NVIDIA RTX A5000 | RTX 3090 |
---|---|---|---|---|
建筑学 | 艾达·洛夫莱斯 | 安培 | 安培 | 安培 |
技术流程 | 5纳米 | 8纳米 | 8纳米 | 8纳米 |
图形处理器 | AD104 | GA102 | GA104 | GA102 |
晶体管数量(百万) | 35,800 | 17,400 | 28,300 | 28,300 |
内存带宽(Gb/秒) | 280.0 | 第448章 | 第768章 | 936.2 |
显存容量(位) | 160 | 256 | 第384章 | 第384章 |
GPU内存(GB) | 20 | 16 | 24 | 24 |
内存类型 | GDDR6 | GDDR6 | GDDR6 | GDDR6X |
CUDA 核心 | 6,144 | 6 144 | 8192 | 10496 |
张量核心 | 192 | 192 | 256 | 328 |
RT 核心 | 48 | 48 | 64 | 82 |
SP 性能(万亿次浮点运算) | 19.2 | 19,2 | 27,8 | 35,6 |
RT 核心性能(万亿次浮点运算) | 44.3 | 37,4 | 54,2 | 69,5 |
张量性能(万亿次浮点运算) | 306.8 | 153,4 | 222,2 | 第285章 |
最大功率(瓦) | 70 | 140 | 230 | 350 |
界面 | PCIe 4.0×16 | PCI-E 4.0 x16 | PCI-E 4.0 x16 | PCIe 4.0 x16 |
连接器 | 4 个迷你 DisplayPort 1.4a | DP 1.4 (4) | DP 1.4 (4) | DP 1.4 (4) |
构成因素 | 2 个插槽 | 1 个插槽 | 2 个插槽 | 2-3个插槽 |
vGPU软件 | 不 | 不 | 是的,无限制 | 是的。有限制 |
NVlink | 不 | 不 | 2 个 RTX A5000 | 是的 |
CUDA支持 | 11.6 | 8.6 | 8.6 | 8.6 |
VULKAN 支持 | 1.3 | 是的 | 是的 | 是的,1.2 |
价格(美元) | 1,250 人 | 1000 | 2500 | 1400 |
| RTX A4000 ADA | RTX A4000 |
---|---|---|
中央处理器 | AMD 锐龙 9 5950X 3.4GHz(16 核) | 八核英特尔至强 E-2288G,3.5 GHz |
内存 | 4 个 32 Gb DDR4 ECC SO-DIMM | 2 个 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 MHz |
驾驶 | 1Tb NVMe 固态硬盘 | 三星 SSD 980 PRO 1TB |
母板 | 华擎 X570D4I-2T | 华硕P11C-I系列 |
操作系统 | 微软Windows 10 | 微软Windows 10 |
V-Ray 5 基准测试
V-Ray GPU CUDA 和 RTX 测试测量相对 GPU 渲染性能。 RTX A4000 GPU 略落后于 RTX A4000 ADA(分别为 4% 和 11%)。
机器学习
《狗与猫》
为了比较神经网络 GPU 的性能,我们使用了“狗与猫”数据集 - 该测试分析照片的内容并区分照片显示的是猫还是狗。可以找到所有必要的原始数据
在本次测试中,RTX A4000 ADA 的性能略胜 RTX A4000 9%,但请记住新 GPU 的小尺寸和低功耗。
AI-Benchmark 允许您在 AI 模型输出任务期间测量设备的性能。测量单位可能会根据测试的不同而有所不同,但通常是每秒操作数(OPS)或每秒帧数(FPS)。
| RTX A4000 | RTX A4000 ADA |
---|---|---|
1/19。移动网络-V2 | 1.1——推论|批次 = 50,大小 = 224x224:38.5 ± 2.4 ms1.2 — 训练 |批次 = 50,大小 = 224x224:109 ± 4 毫秒 | 1.1——推论|批次 = 50,大小 = 224x224:53.5 ± 0.7 ms1.2 — 训练 |批次 = 50,大小 = 224x224:130.1 ± 0.6 毫秒 |
2/19。盗梦空间-V3 | 2.1 — 推理 |批次 = 20,大小 = 346x346:36.1 ± 1.8 ms2.2 — 训练 |批次 = 20,大小 = 346x346:137.4 ± 0.6 毫秒 | 2.1 — 推理 |批次 = 20,大小 = 346x346:36.8 ± 1.1 ms2.2 — 训练 |批次=20,大小=346x346:147.5 ± 0.8 毫秒 |
3/19。盗梦空间-V4 | 3.1——推理|批次 = 10,大小 = 346x346:34.0 ± 0.9 ms3.2 — 训练 |批次=10,大小=346x346:139.4 ± 1.0 毫秒 | 3.1——推理|批次 = 10,大小 = 346x346:33.0 ± 0.8 ms3.2 — 训练 |批次=10,大小=346x346:135.7 ± 0.9 毫秒 |
4/19。 Inception-ResNet-V2 | 4.1 — 推理 |批次 = 10,大小 = 346x346:45.7 ± 0.6 ms4.2 — 训练 |批次=8,大小=346x346:153.4 ± 0.8 毫秒 | 4.1 — 推理批次=10,大小=346x346:33.6 ± 0.7 ms4.2 — 训练批次=8,大小=346x346:132 ± 1 ms |
5/19。 ResNet-V2-50 | 5.1 — 推理 |批次 = 10,大小 = 346x346:25.3 ± 0.5 ms5.2 — 训练 |批次 = 10,大小 = 346x346:91.1 ± 0.8 毫秒 | 5.1 — 推理 |批次 = 10,大小 = 346x346:26.1 ± 0.5 ms5.2 — 训练 |批次 = 10,大小 = 346x346:92.3 ± 0.6 毫秒 |
6/19。 ResNet-V2-152 | 6.1 — 推理 |批次 = 10,大小 = 256x256:32.4 ± 0.5 ms6.2 — 训练 |批次=10,大小=256x256:131.4 ± 0.7 毫秒 | 6.1 — 推理 |批次 = 10,大小 = 256x256:23.7 ± 0.6 ms6.2 — 训练 |批次=10,大小=256x256:107.1 ± 0.9 毫秒 |
7/19。 VGG-16 | 7.1 — 推理 |批次 = 20,大小 = 224x224:54.9 ± 0.9 ms7.2 — 训练 |批次=2,大小=224x224:83.6 ± 0.7 毫秒 | 7.1 — 推理 |批次 = 20,大小 = 224x224:66.3 ± 0.9 ms7.2 — 训练 |批次=2,大小=224x224:109.3 ± 0.8 毫秒 |
8/19。 SRCNN 9-5-5 | 8.1 — 推理 |批次 = 10,大小 = 512x512:51.5 ± 0.9 ms8.2 — 推理 |批次 = 1,大小 = 1536x1536:45.7 ± 0.9 ms8.3 — 训练 |批次=10,大小=512x512:183 ± 1 毫秒 | 8.1 — 推理 |批次 = 10,大小 = 512x512:59.9 ± 1.6 ms8.2 — 推理 |批次 = 1,大小 = 1536x1536:53.1 ± 0.7 ms8.3 — 训练 |批次=10,大小=512x512:176 ± 2 毫秒 |
9/19。 VGG-19 超高清 | 9.1 — 推理 |批次 = 10,大小 = 256x256:99.5 ± 0.8 ms9.2 — 推理 |批次 = 1,大小 = 1024x1024:162 ± 1 ms9.3 — 训练 |批次 = 10,大小 = 224x224:204 ± 2 毫秒 | |
10/19。 ResNet-SRGAN | 10.1 — 推论 |批次 = 10,大小 = 512x512:85.8 ± 0.6 ms10.2 — 推理 |批次 = 1,大小 = 1536x1536:82.4 ± 1.9 ms10.3 — 训练 |批次 = 5,大小 = 512x512:133 ± 1 毫秒 | 10.1 — 推论 |批次 = 10,大小 = 512x512:98.9 ± 0.8 ms10.2 — 推理 |批次 = 1,大小 = 1536x1536:86.1 ± 0.6 ms10.3 — 训练 |批次 = 5,大小 = 512x512:130.9 ± 0.6 毫秒 |
11/19。 ResNet-DPED | 11.1 — 推论 |批次 = 10,大小 = 256x256:114.9 ± 0.6 ms11.2 — 推理 |批次 = 1,大小 = 1024x1024:182 ± 2 ms11.3 — 训练 |批次=15,大小=128x128:178.1 ± 0.8 毫秒 | 11.1 — 推论 |批次 = 10,大小 = 256x256:146.4 ± 0.5 ms11.2 — 推理 |批次 = 1,大小 = 1024x1024:234.3 ± 0.5 ms11.3 — 训练 |批次=15,大小=128x128:234.7 ± 0.6 毫秒 |
12/19。优网 | 12.1 — 推论 |批次 = 4,大小 = 512x512:180.8 ± 0.7 ms12.2 — 推理 |批次=1,大小=1024x1024:177.0 ± 0.4 ms12.3 — 训练 |批次=4,大小=256x256:198.6 ± 0.5 毫秒 | 12.1 — 推论 |批次 = 4,大小 = 512x512:222.9 ± 0.5 ms12.2 — 推理 |批次 = 1,大小 = 1024x1024:220.4 ± 0.6 ms12.3 — 训练 |批次 = 4,大小 = 256x256:229.1 ± 0.7 毫秒 |
13/19。 Nvidia-SPADE | 13.1 — 推论 |批次 = 5,大小 = 128x128:54.5 ± 0.5 ms13.2 — 训练 |批次=1,大小=128x128:103.6 ± 0.6 毫秒 | 13.1 — 推论 |批次 = 5,大小 = 128x128:59.6 ± 0.6 ms13.2 — 训练 |批次=1,大小=128x128:94.6 ± 0.6 毫秒 |
14/19。集成电路网 | 14.1 — 推论 |批次 = 5,大小 = 1024x1536:126.3 ± 0.8 ms14.2 — 训练 |批次 = 10,大小 = 1024x1536:426 ± 9 毫秒 | 14.1 — 推论 |批次 = 5,大小 = 1024x1536:144 ± 4 ms14.2 — 训练 |批次 = 10,大小 = 1024x1536:475 ± 17 毫秒 |
15/19。 PSP网络 | 15.1 — 推论 |批次 = 5,大小 = 720x720:249 ± 12 ms15.2 — 训练 |批次=1,大小=512x512:104.6 ± 0.6 毫秒 | 15.1 — 推论 |批次 = 5,大小 = 720x720:291.4 ± 0.5 ms15.2 — 训练 |批次=1,大小=512x512:99.8 ± 0.9 毫秒 |
16/19。深度实验室 | 16.1 — 推论 |批次 = 2,大小 = 512x512:71.7 ± 0.6 ms16.2 — 训练 |批次=1,大小=384x384:84.9 ± 0.5 毫秒 | 16.1 — 推论 |批次 = 2,大小 = 512x512:71.5 ± 0.7 ms16.2 — 训练 |批次=1,大小=384x384:69.4 ± 0.6 毫秒 |
17/19。像素RNN | 17.1 — 推论 |批次 = 50,大小 = 64x64:299 ± 14 ms17.2 — 训练 |批次=10,大小=64x64:1258 ± 64 毫秒 | 17.1 — 推论 |批次 = 50,大小 = 64x64:321 ± 30 ms17.2 — 训练 |批次=10,大小=64x64:1278 ± 74 毫秒 |
18/19。 LSTM-情感 | 18.1 — 推论 |批次=100,大小=1024x300:395 ± 11 ms18.2 — 训练 |批次=10,大小=1024x300:676 ± 15 毫秒 | 18.1 — 推论 |批次=100,大小=1024x300:345 ± 10 ms18.2 — 训练 |批次=10,大小=1024x300:774 ± 17 毫秒 |
19/19。 GNMT-翻译 | 19.1 — 推论 |批次=1,大小=1x20:119 ± 2 毫秒 | 19.1 — 推论 |批次=1,大小=1x20:156 ± 1 毫秒 |
该测试结果表明,RTX A4000 的性能比 RTX A4000 ADA 高出 6%,但需要注意的是,测试结果可能会根据具体任务和所采用的操作条件而有所不同。
RTX A 4000
标杆管理 | 模型平均训练时间(毫秒) |
---|---|
训练双精度类型mnasnet0_5 | 62.995805740356445 |
训练双精度类型mnasnet0_75 | 98.39066505432129 |
训练双精度类型mnasnet1_0 | 126.60405158996582 |
训练双精度类型mnasnet1_3 | 186.89460277557373 |
训练双精度类型resnet18 | 428.08079719543457 |
训练双精度类型resnet34 | 883.5790348052979 |
训练双精度类型resnet50 | 1016.3950300216675 |
训练双精度类型resnet101 | 1927.2308254241943 |
训练双精度类型resnet152 | 2815.663013458252 |
训练双精度类型resnext50_32x4d | 1075.4373741149902 |
训练双精度类型resnext101_32x8d | 4050.0641918182373 |
训练双精度类型wide_resnet50_2 | 2615.9953451156616 |
训练双精度类型wide_resnet101_2 | 5218.524832725525 |
训练双精度类型densenet121 | 751.9759511947632 |
训练双精度类型densenet169 | 910.3225564956665 |
训练双精度类型densenet201 | 1163.036551475525 |
训练双精度类型densenet161 | 2141.505298614502 |
训练双精度类型squeezenet1_0 | 203.14435005187988 |
训练双精度类型squeezenet1_1 | 98.04857730865479 |
训练双精度类型vgg11 | 1697.710485458374 |
训练双精度类型vgg11_bn | 1729.2972660064697 |
训练双精度类型vgg13 | 2491.615080833435 |
训练双精度类型vgg13_bn | 2545.1631927490234 |
训练双精度类型vgg16 | 3371.1953449249268 |
训练双精度类型vgg16_bn | 3423.8639068603516 |
训练双精度类型vgg19_bn | 4314.5153522491455 |
训练双精度类型vgg19 | 4249.422650337219 |
训练双精度类型mobilenet_v3_large | 105.54619789123535 |
训练双精度类型mobilenet_v3_small | 37.6680850982666 |
训练双精度类型 shufflenet_v2_x0_5 | 26.51611328125 |
训练双精度类型shufflenet_v2_x1_0 | 61.260504722595215 |
训练双精度类型 shufflenet_v2_x1_5 | 105.30067920684814 |
训练双精度类型shufflenet_v2_x2_0 | 181.03694438934326 |
推理双精度类型 mnasnet0_5 | 17.397074699401855 |
推理双精度类型 mnasnet0_75 | 28.902697563171387 |
推理双精度类型 mnasnet1_0 | 38.387718200683594 |
推理双精度类型 mnasnet1_3 | 58.228821754455566 |
推理双精度类型resnet18 | 147.95727252960205 |
推理双精度类型resnet34 | 293.519492149353 |
推理双精度类型resnet50 | 336.44991874694824 |
推理双精度类型resnet101 | 637.9982376098633 |
推理双精度类型resnet152 | 948.9351654052734 |
推理双精度类型 resnext50_32x4d | 372.80876636505127 |
推理双精度类型 resnext101_32x8d | 1385.1624917984009 |
推理双精度类型wide_resnet50_2 | 873.048791885376 |
推理双精度类型wide_resnet101_2 | 1729.2765426635742 |
推理双精度类型densenet121 | 270.13323307037354 |
推理双精度类型densenet169 | 327.1932888031006 |
推理双精度型densenet201 | 414.733362197876 |
推理双精度类型densenet161 | 766.3542318344116 |
推理双精度类型squeezenet1_0 | 74.86292839050293 |
推理双精度类型squeezenet1_1 | 34.04905319213867 |
推理双精度类型 vgg11 | 576.3767147064209 |
推理双精度类型 vgg11_bn | 580.5839586257935 |
推理双精度类型 vgg13 | 853.4365510940552 |
推理双精度类型 vgg13_bn | 860.3136301040649 |
推理双精度类型 vgg16 | 1145.091052055359 |
推理双精度类型 vgg16_bn | 1152.8028392791748 |
推理双精度类型 vgg19_bn | 1444.9562692642212 |
推理双精度类型 vgg19 | 1437.0987701416016 |
推理双精度类型 mobilenet_v3_large | 30.876317024230957 |
推理双精度类型 mobilenet_v3_small | 11.234536170959473 |
推理双精度类型 shufflenet_v2_x0_5 | 7.425284385681152 |
推理双精度类型 shufflenet_v2_x1_0 | 18.25782299041748 |
推理双精度类型 shufflenet_v2_x1_5 | 33.34946632385254 |
推理双精度类型 shufflenet_v2_x2_0 | 57.84676551818848 |
RTX A4000 ADA
标杆管理 | 模型平均列车时间 |
---|---|
训练半精度类型mnasnet0_5 | 20.266618728637695 |
训练半精度类型mnasnet0_75 | 21.445374488830566 |
训练半精度类型mnasnet1_0 | 26.714019775390625 |
训练半精度类型mnasnet1_3 | 26.5126371383667 |
训练半精度类型resnet18 | 19.624991416931152 |
训练半精度类型resnet34 | 32.46446132659912 |
训练半精度型resnet50 | 57.17473030090332 |
训练半精度型resnet101 | 98.20127010345459 |
训练半精度类型resnet152 | 138.18389415740967 |
训练半精度类型resnext50_32x4d | 75.56005001068115 |
训练半精度类型resnext101_32x8d | 228.8706636428833 |
训练半精度类型wide_resnet50_2 | 113.76442432403564 |
训练半精度类型wide_resnet101_2 | 204.17311191558838 |
训练半精度类型densenet121 | 68.97401332855225 |
训练半精度类型densenet169 | 85.16453742980957 |
训练半精度型densenet201 | 103.299241065979 |
训练半精度类型densenet161 | 137.54578113555908 |
训练半精度类型squeezenet1_0 | 16.71830177307129 |
训练半精度类型squeezenet1_1 | 12.906527519226074 |
训练半精度类型vgg11 | 51.7004919052124 |
训练半精度类型vgg11_bn | 57.63327598571777 |
训练半精度类型vgg13 | 86.10869407653809 |
训练半精度类型vgg13_bn | 95.86676120758057 |
训练半精度类型vgg16 | 102.91589260101318 |
训练半精度类型vgg16_bn | 113.74778270721436 |
训练半精度类型vgg19_bn | 131.56734943389893 |
训练半精度类型vgg19 | 119.70191955566406 |
训练半精度类型mobilenet_v3_large | 31.30636692047119 |
训练半精度类型mobilenet_v3_small | 19.44464683532715 |
训练半精度类型shufflenet_v2_x0_5 | 13.710575103759766 |
训练半精度类型shufflenet_v2_x1_0 | 23.608479499816895 |
训练半精度类型shufflenet_v2_x1_5 | 26.793746948242188 |
训练半精度类型shufflenet_v2_x2_0 | 24.550962448120117 |
推理半精度类型 mnasnet0_5 | 4.418272972106934 |
推理半精度类型 mnasnet0_75 | 4.021778106689453 |
推理半精度类型 mnasnet1_0 | 4.42598819732666 |
推理半精度类型 mnasnet1_3 | 4.618926048278809 |
推理半精度类型resnet18 | 5.803341865539551 |
推理半精度类型resnet34 | 9.756693840026855 |
推理半精度型resnet50 | 15.873079299926758 |
推理半精度型resnet101 | 28.268003463745117 |
推理半精度类型resnet152 | 40.04594326019287 |
推理半精度类型 resnext50_32x4d | 19.53421115875244 |
推理半精度类型 resnext101_32x8d | 62.44826316833496 |
推理半精度类型wide_resnet50_2 | 33.533992767333984 |
推理半精度类型wide_resnet101_2 | 59.60897445678711 |
推理半精度类型densenet121 | 18.052735328674316 |
推理半精度类型densenet169 | 21.956982612609863 |
推理半精度型densenet201 | 27.85182476043701 |
推理半精度类型densenet161 | 37.41891860961914 |
推理半精度类型squeezenet1_0 | 4.391803741455078 |
推理半精度类型squeezenet1_1 | 2.4281740188598633 |
推理半精度类型 vgg11 | 17.11493968963623 |
推理半精度类型 vgg11_bn | 18.40585231781006 |
推理半精度类型 vgg13 | 28.438148498535156 |
推理半精度类型 vgg13_bn | 30.672597885131836 |
推理半精度类型 vgg16 | 34.43562984466553 |
推理半精度类型 vgg16_bn | 36.92122936248779 |
推理半精度类型 vgg19_bn | 43.144264221191406 |
推理半精度类型 vgg19 | 40.5385684967041 |
推理半精度类型 mobilenet_v3_large | 5.350713729858398 |
推理半精度类型 mobilenet_v3_small | 4.016985893249512 |
推理半精度类型 shufflenet_v2_x0_5 | 5.079126358032227 |
推理半精度类型 shufflenet_v2_x1_0 | 5.593156814575195 |
推理半精度类型 shufflenet_v2_x1_5 | 5.649552345275879 |
推理半精度类型 shufflenet_v2_x2_0 | 5.355663299560547 |
训练双精度类型mnasnet0_5 | 50.2386999130249 |
训练双精度类型 mnasnet0_75 | 80.66896915435791 |
训练双精度类型 mnasnet1_0 | 103.32422733306885 |
训练双精度类型 mnasnet1_3 | 154.6230697631836 |
训练双精度类型resnet18 | 337.94031620025635 |
训练双精度类型resnet34 | 677.7706575393677 |
训练双精度类型resnet50 | 789.9243211746216 |
训练双精度类型resnet101 | 1484.3351316452026 |
训练双精度类型resnet152 | 2170.570478439331 |
训练双精度类型resnext50_32x4d | 877.3719882965088 |
训练双精度类型resnext101_32x8d | 3652.4944639205933 |
训练双精度类型wide_resnet50_2 | 2154.612874984741 |
训练双精度类型wide_resnet101_2 | 4176.522083282471 |
训练双精度类型densenet121 | 607.8699731826782 |
训练双精度类型densenet169 | 744.6409797668457 |
训练双精度类型densenet201 | 962.677731513977 |
训练双精度类型densenet161 | 1759.772515296936 |
训练双精度类型squeezenet1_0 | 164.3690824508667 |
训练双精度类型squeezenet1_1 | 78.70647430419922 |
训练双精度类型vgg11 | 1362.6095294952393 |
训练双精度类型vgg11_bn | 1387.2539138793945 |
训练双精度类型vgg13 | 2006.0230445861816 |
训练双精度类型vgg13_bn | 2047.526364326477 |
训练双精度类型vgg16 | 2702.2086429595947 |
训练双精度类型vgg16_bn | 2747.241234779358 |
训练双精度类型vgg19_bn | 3447.1724700927734 |
训练双精度类型vgg19 | 3397.990345954895 |
训练双精度类型mobilenet_v3_large | 84.65698719024658 |
训练双精度类型mobilenet_v3_small | 29.816465377807617 |
训练双精度类型 shufflenet_v2_x0_5 | 27.401342391967773 |
训练双精度类型shufflenet_v2_x1_0 | 48.322744369506836 |
训练双精度类型 shufflenet_v2_x1_5 | 82.22103118896484 |
训练双精度类型shufflenet_v2_x2_0 | 141.7021369934082 |
推理双精度类型 mnasnet0_5 | 12.988653182983398 |
推理双精度类型 mnasnet0_75 | 22.422199249267578 |
推理双精度类型 mnasnet1_0 | 30.056486129760742 |
推理双精度类型 mnasnet1_3 | 46.953935623168945 |
推理双精度类型resnet18 | 118.04479122161865 |
推理双精度类型resnet34 | 231.52336597442627 |
推理双精度类型resnet50 | 268.63497734069824 |
推理双精度类型resnet101 | 495.2010440826416 |
推理双精度类型resnet152 | 726.4922094345093 |
推理双精度类型 resnext50_32x4d | 291.47679328918457 |
推理双精度类型 resnext101_32x8d | 1055.10901927948 |
推理双精度类型wide_resnet50_2 | 690.6917667388916 |
推理双精度类型wide_resnet101_2 | 1347.5529861450195 |
推理双精度类型densenet121 | 224.35829639434814 |
推理双精度类型densenet169 | 268.9145278930664 |
推理双精度型densenet201 | 343.1972026824951 |
推理双精度类型densenet161 | 635.866231918335 |
推理双精度类型squeezenet1_0 | 61.92759037017822 |
推理双精度类型squeezenet1_1 | 27.009410858154297 |
推理双精度类型 vgg11 | 462.3375129699707 |
推理双精度类型 vgg11_bn | 468.4495782852173 |
推理双精度类型 vgg13 | 692.8219032287598 |
推理双精度类型 vgg13_bn | 703.3538103103638 |
推理双精度类型 vgg16 | 924.4353818893433 |
推理双精度类型 vgg16_bn | 936.5075063705444 |
推理双精度类型 vgg19_bn | 1169.098300933838 |
推理双精度类型 vgg19 | 1156.3771772384644 |
推理双精度类型 mobilenet_v3_large | 24.2356014251709 |
推理双精度类型 mobilenet_v3_small | 8.85490894317627 |
推理双精度类型 shufflenet_v2_x0_5 | 6.360034942626953 |
推理双精度类型 shufflenet_v2_x1_0 | 14.301743507385254 |
推理双精度类型 shufflenet_v2_x1_5 | 24.863481521606445 |
推理双精度类型 shufflenet_v2_x2_0 | 43.8505744934082 |
事实证明,新显卡是许多工作任务的有效解决方案。由于其紧凑的尺寸,它非常适合功能强大的 SFF(小型)计算机。此外,值得注意的是,6,144 个 CUDA 核心和 20GB 内存以及 160 位总线使该卡成为市场上生产力最高的卡之一。此外,70W的低TDP有助于降低功耗成本。四个 Mini-DisplayPort 端口允许该卡与多个显示器一起使用或作为多通道图形解决方案。
RTX 4000 SFF ADA 比前几代产品取得了重大进步,其性能相当于卡的两倍,功耗却是后者的两倍。 RTX 4000 SFF ADA 无需 PCIe 电源连接器,可轻松集成到低功耗工作站中,而无需牺牲高性能。