paint-brush
Nvidia RTX A4000 ADA は機械学習タスクを処理できますか?@hostkey
2,582 測定値
2,582 測定値

Nvidia RTX A4000 ADA は機械学習タスクを処理できますか?

Hostkey.com15m2023/06/29
Read on Terminal Reader

長すぎる; 読むには

4 月、Nvidia はワークステーション アプリケーション向けに設計されたスモール フォーム ファクター GPU である新製品 RTX A4000 ADA を発売しました。このプロセッサは A2000 に代わるもので、科学研究、工学計算、データ視覚化などの複雑なタスクに使用できます。新しい GPU の 20 GB メモリ容量により、大規模な環境に対応できます。
featured image - Nvidia RTX A4000 ADA は機械学習タスクを処理できますか?
Hostkey.com HackerNoon profile picture
0-item

4 月、 Nvidia はワークステーション アプリケーション向けに設計されたスモール フォーム ファクター GPU である新製品 RTX A4000 ADA を発売しました。このプロセッサは A2000 に代わるもので、科学研究、工学計算、データ視覚化などの複雑なタスクに使用できます。


RTX A4000 ADA は、6,144 個の CUDA コア、192 個の Tensor コアと 48 個の RT コア、および 20GB GDDR6 ECC VRAM を備えています。新しい GPU の主な利点の 1 つは電力効率です。RTX A4000 ADA の消費電力はわずか 70 W で、電力コストとシステムの発熱の両方が低減されます。 GPU では、4x Mini-DisplayPort 1.4a 接続により、複数のディスプレイを駆動することもできます。





RTX 4000 SFF ADA GPU を同じクラスの他のデバイスと比較する場合、単精度モードで実行すると、2 倍の電力を消費する最新世代の RTX A4000 GPU と同様のパフォーマンスを示すことに注意してください (140W 対 140W)。 70W)。





ADA RTX 4000 SFF は、ADA Lovelace アーキテクチャと 5nm プロセス テクノロジーに基づいて構築されています。これにより、次世代の Tensor コアとレイ トレーシング コアが有効になり、RTX A4000 よりも高速かつ効率的なレイ トレーシング コアと Tensor コアを提供することでパフォーマンスが大幅に向上します。さらに、ADA の RTX 4000 SFF は小さなパッケージで提供されます。カードの長さは 168 mm、拡張スロット 2 つと同じ厚さです。





改善されたレイ トレーシング カーネルにより、3D デザインやレンダリングなど、テクノロジーが使用される環境で効率的なパフォーマンスが可能になります。さらに、新しい GPU の 20GB メモリ容量により、大規模な環境に対応できます。





メーカーによれば、第 4 世代 Tensor コアは、前世代に比べて 2 倍の高い AI 計算パフォーマンスを実現します。新しい Tensor コアは FP8 アクセラレーションをサポートします。この革新的な機能は、ゲノミクスやコンピューター ビジョンなどの環境で AI モデルを開発および展開する場合にうまく機能する可能性があります。


エンコードおよびデコード メカニズムの増加により、RTX 4000 SFF ADA がビデオなどのマルチメディア ワークロードに適したソリューションになっている点にも注目してください。



NVIDIA RTX A4000 および RTX A5000 グラフィックス カード、RTX 3090 の技術仕様


RTX A4000 ADA

NVIDIA RTX A4000

NVIDIA RTX A5000

RTX3090

建築

エイダ・ラブレス

アンペア

アンペア

アンペア

技術プロセス

5nm

8nm

8nm

8nm

GPU

AD104

GA102

GA104

GA102

トランジスタの数 (百万)

35,800

17,400

28,300

28,300

メモリ帯域幅 (Gb/秒)

280.0

448

768

936.2

ビデオメモリ容量(ビット)

160

256

384

384

GPUメモリ(GB)

20

16

24

24

メモリの種類

GDDR6

GDDR6

GDDR6

GDDR6X

CUDAコア

6,144

6 144

8192

10496

テンソルコア

192

192

256

328

RTコア

48

48

64

82

SP パフォーマンス (テラフロップス)

19.2

19,2

27.8

35,6

RT コアのパフォーマンス (テラフロップス)

44.3

37,4

54,2

69,5

テンソルのパフォーマンス (テラフロップス)

306.8

153,4

222,2

285

最大電力 (ワット)

70

140

230

350

インターフェース

PCIe4.0×16

PCI-E 4.0 x16

PCI-E 4.0 x16

PCIe 4.0 x16

コネクタ

4x ミニ DisplayPort 1.4a

DP 1.4 (4)

DP 1.4 (4)

DP 1.4 (4)

フォームファクタ

2スロット

1スロット

2スロット

2~3スロット

vGPU ソフトウェア

いいえ

いいえ

はい、無制限です

はい。制限付き

Nvlink

いいえ

いいえ

2x RTX A5000

はい

CUDAのサポート

11.6

8.6

8.6

8.6

バルカンのサポート

1.3

はい

はい

はい、1.2

価格 (米ドル)

1,250

1000

2500

1400



テスト環境の説明


RTX A4000 ADA

RTX A4000

CPU

AMD Ryzen 9 5950X 3.4GHz (16コア)

オクタコア インテル Xeon E-2288G、3.5 GHz

RAM

4x 32 Gb DDR4 ECC SO-DIMM

2x 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 MHz

ドライブ

1Tb NVMe SSD

サムスン SSD 980 PRO 1TB

マザーボード

ASRock X570D4I-2T

ASUS P11C-Iシリーズ

オペレーティング·システム

マイクロソフト Windows 10

マイクロソフト Windows 10



試験結果


V-Ray 5 ベンチマーク

得点


得点


V-Ray GPU CUDA および RTX テストは、相対的な GPU レンダリング パフォーマンスを測定します。 RTX A4000 GPU は RTX A4000 ADA よりわずかに遅れています (それぞれ 4% と 11%)。


機械学習


「犬vs猫」

ニューラル ネットワークの GPU のパフォーマンスを比較するために、「犬 vs 猫」データセットを使用しました。テストでは写真の内容を分析し、写真に猫が写っているのか犬が写っているのかを区別します。必要な生データはすべて見つかりますここ。このテストをさまざまな GPU とクラウド サービスで実行し、次の結果が得られました。


このテストでは、RTX A4000 ADA のパフォーマンスは RTX A4000 をわずかに 9% 上回りましたが、新しい GPU の小型サイズと低消費電力に留意してください。



AIベンチマーク


AI-Benchmark を使用すると、AI モデル出力タスク中にデバイスのパフォーマンスを測定できます。測定単位はテストによって異なりますが、通常は 1 秒あたりの操作数 (OPS) または 1 秒あたりのフレーム数 (FPS) です。


得点




RTX A4000

RTX A4000 ADA

1/19。モバイルネット V2

1.1 — 推論 |バッチ=50、サイズ=224x224: 38.5 ± 2.4 ms1.2 — トレーニング |バッチ=50、サイズ=224x224: 109 ± 4 ミリ秒

1.1 — 推論 |バッチ = 50、サイズ = 224x224: 53.5 ± 0.7 ms1.2 — トレーニング |バッチ=50、サイズ=224x224: 130.1 ± 0.6 ミリ秒

2/19。インセプション V3

2.1 — 推論 |バッチ = 20、サイズ = 346x346: 36.1 ± 1.8 ms2.2 — トレーニング |バッチ=20、サイズ=346x346: 137.4 ± 0.6 ミリ秒

2.1 — 推論 |バッチ = 20、サイズ = 346x346: 36.8 ± 1.1 ms2.2 — トレーニング |バッチ=20、サイズ=346x346: 147.5 ± 0.8 ミリ秒

3/19。インセプション V4

3.1 — 推論 |バッチ = 10、サイズ = 346x346: 34.0 ± 0.9 ms3.2 — トレーニング |バッチ=10、サイズ=346x346: 139.4 ± 1.0 ミリ秒

3.1 — 推論 |バッチ=10、サイズ=346x346: 33.0 ± 0.8 ms3.2 — トレーニング |バッチ=10、サイズ=346x346: 135.7 ± 0.9 ミリ秒

4/19。インセプション-ResNet-V2

4.1 — 推論 |バッチ = 10、サイズ = 346x346: 45.7 ± 0.6 ms4.2 — トレーニング |バッチ=8、サイズ=346x346: 153.4 ± 0.8 ミリ秒

4.1 — 推論バッチ = 10、サイズ = 346x346: 33.6 ± 0.7 ミリ秒4.2 — トレーニング バッチ = 8、サイズ = 346x346: 132 ± 1 ミリ秒

5/19。レスネット-V2-50

5.1 — 推論 |バッチ = 10、サイズ = 346x346: 25.3 ± 0.5 ミリ秒5.2 — トレーニング |バッチ=10、サイズ=346x346: 91.1 ± 0.8 ミリ秒

5.1 — 推論 |バッチ=10、サイズ=346x346: 26.1 ± 0.5 ms5.2 — トレーニング |バッチ=10、サイズ=346x346: 92.3 ± 0.6 ミリ秒

6/19。レスネット-V2-152

6.1 — 推論 |バッチ=10、サイズ=256x256: 32.4 ± 0.5 ms6.2 — トレーニング |バッチ=10、サイズ=256x256: 131.4 ± 0.7 ミリ秒

6.1 — 推論 |バッチ=10、サイズ=256x256: 23.7 ± 0.6 ms6.2 — トレーニング |バッチ=10、サイズ=256x256: 107.1 ± 0.9 ミリ秒

7/19。 VGG-16

7.1 — 推論 |バッチ = 20、サイズ = 224x224: 54.9 ± 0.9 ミリ秒7.2 — トレーニング |バッチ=2、サイズ=224x224: 83.6 ± 0.7 ミリ秒

7.1 — 推論 |バッチ = 20、サイズ = 224x224: 66.3 ± 0.9 ミリ秒7.2 — トレーニング |バッチ=2、サイズ=224x224: 109.3 ± 0.8 ミリ秒

8/19。 SRCNN 9-5-5

8.1 — 推論 |バッチ = 10、サイズ = 512x512: 51.5 ± 0.9 ミリ秒8.2 — 推論 |バッチ = 1、サイズ = 1536x1536: 45.7 ± 0.9 ミリ秒8.3 — トレーニング |バッチ=10、サイズ=512x512: 183 ± 1 ミリ秒

8.1 — 推論 |バッチ = 10、サイズ = 512x512: 59.9 ± 1.6 ミリ秒8.2 — 推論 |バッチ = 1、サイズ = 1536x1536: 53.1 ± 0.7 ミリ秒8.3 — トレーニング |バッチ=10、サイズ=512x512: 176 ± 2 ミリ秒

9/19。 VGG-19 超解像度

9.1 — 推論 |バッチ=10、サイズ=256x256: 99.5 ± 0.8 ms9.2 — 推論 |バッチ = 1、サイズ = 1024x1024: 162 ± 1 ミリ秒9.3 — トレーニング |バッチ=10、サイズ=224x224: 204 ± 2 ミリ秒


10/19。 ResNet-SRGAN

10.1 — 推論 |バッチ=10、サイズ=512x512: 85.8 ± 0.6 ms10.2 — 推論 |バッチ = 1、サイズ = 1536x1536: 82.4 ± 1.9 ミリ秒10.3 — トレーニング |バッチ=5、サイズ=512x512: 133 ± 1 ミリ秒

10.1 — 推論 |バッチ=10、サイズ=512x512: 98.9 ± 0.8 ms10.2 — 推論 |バッチ = 1、サイズ = 1536x1536: 86.1 ± 0.6 ミリ秒10.3 — トレーニング |バッチ=5、サイズ=512x512: 130.9 ± 0.6 ミリ秒

11/19。 ResNet-DPED

11.1 — 推論 |バッチ = 10、サイズ = 256x256: 114.9 ± 0.6 ミリ秒11.2 — 推論 |バッチ = 1、サイズ = 1024x1024: 182 ± 2 ミリ秒11.3 — トレーニング |バッチ=15、サイズ=128x128: 178.1 ± 0.8 ミリ秒

11.1 — 推論 |バッチ = 10、サイズ = 256x256: 146.4 ± 0.5 ミリ秒11.2 — 推論 |バッチ = 1、サイズ = 1024x1024: 234.3 ± 0.5 ミリ秒11.3 — トレーニング |バッチ=15、サイズ=128x128: 234.7 ± 0.6 ミリ秒

12/19。ユーネット

12.1 — 推論 |バッチ = 4、サイズ = 512x512: 180.8 ± 0.7 ミリ秒12.2 — 推論 |バッチ = 1、サイズ = 1024x1024: 177.0 ± 0.4 ミリ秒12.3 — トレーニング |バッチ=4、サイズ=256x256: 198.6 ± 0.5 ミリ秒

12.1 — 推論 |バッチ = 4、サイズ = 512x512: 222.9 ± 0.5 ミリ秒12.2 — 推論 |バッチ = 1、サイズ = 1024x1024: 220.4 ± 0.6 ミリ秒12.3 — トレーニング |バッチ=4、サイズ=256x256: 229.1 ± 0.7 ミリ秒

13/19。 Nvidia-SPADE

13.1 — 推論 |バッチ = 5、サイズ = 128x128: 54.5 ± 0.5 ミリ秒13.2 — トレーニング |バッチ=1、サイズ=128x128: 103.6 ± 0.6 ミリ秒

13.1 — 推論 |バッチ = 5、サイズ = 128x128: 59.6 ± 0.6 ミリ秒13.2 — トレーニング |バッチ=1、サイズ=128x128: 94.6 ± 0.6 ミリ秒

14/19。 ICネット

14.1 — 推論 |バッチ = 5、サイズ = 1024x1536: 126.3 ± 0.8 ミリ秒14.2 — トレーニング |バッチ=10、サイズ=1024x1536: 426 ± 9 ミリ秒

14.1 — 推論 |バッチ = 5、サイズ = 1024x1536: 144 ± 4 ミリ秒14.2 — トレーニング |バッチ=10、サイズ=1024x1536: 475 ± 17 ミリ秒

15/19。 PSPネット

15.1 — 推論 |バッチ = 5、サイズ = 720x720: 249 ± 12 ミリ秒15.2 — トレーニング |バッチ=1、サイズ=512x512: 104.6 ± 0.6 ミリ秒

15.1 — 推論 |バッチ = 5、サイズ = 720x720: 291.4 ± 0.5 ミリ秒15.2 — トレーニング |バッチ=1、サイズ=512x512: 99.8 ± 0.9 ミリ秒

16/19。ディープラボ

16.1 — 推論 |バッチ = 2、サイズ = 512x512: 71.7 ± 0.6 ミリ秒16.2 — トレーニング |バッチ=1、サイズ=384x384: 84.9 ± 0.5 ミリ秒

16.1 — 推論 |バッチ = 2、サイズ = 512x512: 71.5 ± 0.7 ミリ秒16.2 — トレーニング |バッチ=1、サイズ=384x384: 69.4 ± 0.6 ミリ秒

17/19。ピクセルRNN

17.1 — 推論 |バッチ = 50、サイズ = 64x64: 299 ± 14 ミリ秒17.2 — トレーニング |バッチ=10、サイズ=64x64: 1258 ± 64 ミリ秒

17.1 — 推論 |バッチ = 50、サイズ = 64x64: 321 ± 30 ミリ秒17.2 — トレーニング |バッチ=10、サイズ=64x64: 1278 ± 74 ミリ秒

18/19。 LSTM-センチメント

18.1 — 推論 |バッチ = 100、サイズ = 1024x300: 395 ± 11 ミリ秒18.2 — トレーニング |バッチ=10、サイズ=1024x300: 676 ± 15 ミリ秒

18.1 — 推論 |バッチ = 100、サイズ = 1024x300: 345 ± 10 ミリ秒18.2 — トレーニング |バッチ=10、サイズ=1024x300: 774 ± 17 ミリ秒

19/19。 GNMT-翻訳

19.1 — 推論 |バッチ=1、サイズ=1x20: 119 ± 2 ミリ秒

19.1 — 推論 |バッチ=1、サイズ=1x20: 156 ± 1 ミリ秒


このテストの結果は、RTX A4000 のパフォーマンスが RTX A4000 ADA よりも 6% 高いことを示していますが、テスト結果は使用する特定のタスクや動作条件によって異なる可能性があることに注意してください。


パイトーチ


RTXA4000

ベンチマーク

モデルの平均トレーニング時間 (ミリ秒)

学習倍精度型 mnasnet0_5

62.995805740356445

トレーニング倍精度型 mnasnet0_75

98.39066505432129

学習倍精度型 mnasnet1_0

126.60405158996582

学習倍精度型 mnasnet1_3

186.89460277557373

トレーニング倍精度型 resnet18

428.08079719543457

トレーニング倍精度型 resnet34

883.5790348052979

トレーニング倍精度型 resnet50

1016.3950300216675

トレーニング倍精度型 resnet101

1927.2308254241943

トレーニング倍精度型 resnet152

2815.663013458252

トレーニング倍精度型 resnext50_32x4d

1075.4373741149902

トレーニング倍精度型 resnext101_32x8d

4050.0641918182373

トレーニング倍精度型 Wide_resnet50_2

2615.9953451156616

トレーニング倍精度型 Wide_resnet101_2

5218.524832725525

トレーニング倍精度型densenet121

751.9759511947632

トレーニング倍精度型densenet169

910.3225564956665

学習倍精度型densenet201

1163.036551475525

トレーニング倍精度型densenet161

2141.505298614502

学習倍精度型squeezenet1_0

203.14435005187988

学習倍精度型squeezenet1_1

98.04857730865479

トレーニング倍精度型 vgg11

1697.710485458374

トレーニング倍精度型 vgg11_bn

1729.2972660064697

トレーニング倍精度型 vgg13

2491.615080833435

トレーニング倍精度型 vgg13_bn

2545.1631927490234

トレーニング倍精度型 vgg16

3371.1953449249268

トレーニング倍精度型 vgg16_bn

3423.8639068603516

トレーニング倍精度型 vgg19_bn

4314.5153522491455

トレーニング倍精度型 vgg19

4249.422650337219

トレーニング倍精度型 mobilenet_v3_large

105.54619789123535

トレーニング倍精度型 mobilenet_v3_small

37.6680850982666

トレーニング倍精度型 shufflenet_v2_x0_5

26.51611328125

トレーニング倍精度型 shufflenet_v2_x1_0

61.260504722595215

トレーニング倍精度型 shufflenet_v2_x1_5

105.30067920684814

トレーニング倍精度型 shufflenet_v2_x2_0

181.03694438934326

推論倍精度型 mnasnet0_5

17.397074699401855

推論倍精度型 mnasnet0_75

28.902697563171387

推論倍精度型 mnasnet1_0

38.387718200683594

推論倍精度型 mnasnet1_3

58.228821754455566

推論倍精度型 resnet18

147.95727252960205

推論倍精度型 resnet34

293.519492149353

推論倍精度型 resnet50

336.44991874694824

推論倍精度型 resnet101

637.9982376098633

推論倍精度型 resnet152

948.9351654052734

推論倍精度型 resnext50_32x4d

372.80876636505127

推論倍精度型 resnext101_32x8d

1385.1624917984009

推論倍精度型 Wide_resnet50_2

873.048791885376

推論倍精度型 Wide_resnet101_2

1729.2765426635742

推論倍精度型densenet121

270.13323307037354

推論倍精度型densenet169

327.1932888031006

推論倍精度型densenet201

414.733362197876

推論倍精度型densenet161

766.3542318344116

推論倍精度型squeezenet1_0

74.86292839050293

推論倍精度型squeezenet1_1

34.04905319213867

推論倍精度型 vgg11

576.3767147064209

推論倍精度型 vgg11_bn

580.5839586257935

推論倍精度型 vgg13

853.4365510940552

推論倍精度型 vgg13_bn

860.3136301040649

推論倍精度型 vgg16

1145.091052055359

推論倍精度型 vgg16_bn

1152.8028392791748

推論倍精度型 vgg19_bn

1444.9562692642212

推論倍精度型 vgg19

1437.0987701416016

推論倍精度型 mobilenet_v3_large

30.876317024230957

推論倍精度型 mobilenet_v3_small

11.234536170959473

推論倍精度型 shufflenet_v2_x0_5

7.425284385681152

推論倍精度型 shufflenet_v2_x1_0

18.25782299041748

推論倍精度型 shufflenet_v2_x1_5

33.34946632385254

推論倍精度型 shufflenet_v2_x2_0

57.84676551818848


RTX A4000 ADA


ベンチマーク

モデルの平均列車時間

トレーニング半精度型 mnasnet0_5

20.266618728637695

トレーニング半精度型 mnasnet0_75

21.445374488830566

トレーニング半精度型 mnasnet1_0

26.714019775390625

トレーニング半精度型 mnasnet1_3

26.5126371383667

トレーニング半精度型 resnet18

19.624991416931152

トレーニング半精度型 resnet34

32.46446132659912

トレーニング半精度型 resnet50

57.17473030090332

トレーニング半精度型 resnet101

98.20127010345459

トレーニング半精度型 resnet152

138.18389415740967

トレーニング半精度型 resnext50_32x4d

75.56005001068115

トレーニング半精度型 resnext101_32x8d

228.8706636428833

トレーニング半精度型 Wide_resnet50_2

113.76442432403564

トレーニング半精度型 Wide_resnet101_2

204.17311191558838

トレーニング半精度型densenet121

68.97401332855225

トレーニング半精度型densenet169

85.16453742980957

トレーニング半精度型densenet201

103.299241065979

トレーニング半精度型densenet161

137.54578113555908

学習用半精度型squeezenet1_0

16.71830177307129

学習用半精度型squeezenet1_1

12.906527519226074

トレーニング半精度タイプ vgg11

51.7004919052124

トレーニング半精度型 vgg11_bn

57.63327598571777

トレーニング半精度タイプ vgg13

86.10869407653809

トレーニング半精度型 vgg13_bn

95.86676120758057

トレーニング半精度タイプ vgg16

102.91589260101318

トレーニング半精度型 vgg16_bn

113.74778270721436

トレーニング半精度型 vgg19_bn

131.56734943389893

トレーニング半精度タイプ vgg19

119.70191955566406

トレーニング半精度型 mobilenet_v3_large

31.30636692047119

トレーニング半精度型 mobilenet_v3_small

19.44464683532715

トレーニング半精度型 shufflenet_v2_x0_5

13.710575103759766

トレーニング半精度型 shufflenet_v2_x1_0

23.608479499816895

トレーニング半精度型 shufflenet_v2_x1_5

26.793746948242188

トレーニング半精度型 shufflenet_v2_x2_0

24.550962448120117

推論半精度型 mnasnet0_5

4.418272972106934

推論半精度型 mnasnet0_75

4.021778106689453

推論半精度型 mnasnet1_0

4.42598819732666

推論半精度型 mnasnet1_3

4.618926048278809

推論半精度型 resnet18

5.803341865539551

推論半精度型 resnet34

9.756693840026855

推論半精度型 resnet50

15.873079299926758

推論半精度型 resnet101

28.268003463745117

推論半精度型 resnet152

40.04594326019287

推論半精度型 resnext50_32x4d

19.53421115875244

推論半精度型 resnext101_32x8d

62.44826316833496

推論半精度型 Wide_resnet50_2

33.533992767333984

推論半精度型 Wide_resnet101_2

59.60897445678711

推論半精度型densenet121

18.052735328674316

推論半精度型densenet169

21.956982612609863

推論半精度型densenet201

27.85182476043701

推論半精度型densenet161

37.41891860961914

推論半精度型squeezenet1_0

4.391803741455078

推論半精度型squeezenet1_1

2.4281740188598633

推論半精度型 vgg11

17.11493968963623

推論半精度型 vgg11_bn

18.40585231781006

推論半精度型 vgg13

28.438148498535156

推論半精度型 vgg13_bn

30.672597885131836

推論半精度型 vgg16

34.43562984466553

推論半精度型 vgg16_bn

36.92122936248779

推論半精度型 vgg19_bn

43.144264221191406

推論半精度型 vgg19

40.5385684967041

推論半精度型 mobilenet_v3_large

5.350713729858398

推論半精度型 mobilenet_v3_small

4.016985893249512

推論半精度型 shufflenet_v2_x0_5

5.079126358032227

推論半精度型 shufflenet_v2_x1_0

5.593156814575195

推論半精度型 shufflenet_v2_x1_5

5.649552345275879

推論半精度型 shufflenet_v2_x2_0

5.355663299560547

学習倍精度型 mnasnet0_5

50.2386999130249

トレーニング倍精度型 mnasnet0_75

80.66896915435791

学習倍精度型 mnasnet1_0

103.32422733306885

学習倍精度型 mnasnet1_3

154.6230697631836

トレーニング倍精度型 resnet18

337.94031620025635

トレーニング倍精度型 resnet34

677.7706575393677

トレーニング倍精度型 resnet50

789.9243211746216

トレーニング倍精度型 resnet101

1484.3351316452026

トレーニング倍精度型 resnet152

2170.570478439331

トレーニング倍精度型 resnext50_32x4d

877.3719882965088

トレーニング倍精度型 resnext101_32x8d

3652.4944639205933

トレーニング倍精度型 Wide_resnet50_2

2154.612874984741

トレーニング倍精度型 Wide_resnet101_2

4176.522083282471

トレーニング倍精度型densenet121

607.8699731826782

トレーニング倍精度型densenet169

744.6409797668457

学習倍精度型densenet201

962.677731513977

トレーニング倍精度型densenet161

1759.772515296936

学習倍精度型squeezenet1_0

164.3690824508667

学習倍精度型squeezenet1_1

78.70647430419922

トレーニング倍精度型 vgg11

1362.6095294952393

トレーニング倍精度型 vgg11_bn

1387.2539138793945

トレーニング倍精度型 vgg13

2006.0230445861816

トレーニング倍精度型 vgg13_bn

2047.526364326477

トレーニング倍精度型 vgg16

2702.2086429595947

トレーニング倍精度型 vgg16_bn

2747.241234779358

トレーニング倍精度型 vgg19_bn

3447.1724700927734

トレーニング倍精度型 vgg19

3397.990345954895

トレーニング倍精度型 mobilenet_v3_large

84.65698719024658

トレーニング倍精度型 mobilenet_v3_small

29.816465377807617

トレーニング倍精度型 shufflenet_v2_x0_5

27.401342391967773

トレーニング倍精度型 shufflenet_v2_x1_0

48.322744369506836

トレーニング倍精度型 shufflenet_v2_x1_5

82.22103118896484

トレーニング倍精度型 shufflenet_v2_x2_0

141.7021369934082

推論倍精度型 mnasnet0_5

12.988653182983398

推論倍精度型 mnasnet0_75

22.422199249267578

推論倍精度型 mnasnet1_0

30.056486129760742

推論倍精度型 mnasnet1_3

46.953935623168945

推論倍精度型 resnet18

118.04479122161865

推論倍精度型 resnet34

231.52336597442627

推論倍精度型 resnet50

268.63497734069824

推論倍精度型 resnet101

495.2010440826416

推論倍精度型 resnet152

726.4922094345093

推論倍精度型 resnext50_32x4d

291.47679328918457

推論倍精度型 resnext101_32x8d

1055.10901927948

推論倍精度型 Wide_resnet50_2

690.6917667388916

推論倍精度型 Wide_resnet101_2

1347.5529861450195

推論倍精度型densenet121

224.35829639434814

推論倍精度型densenet169

268.9145278930664

推論倍精度型densenet201

343.1972026824951

推論倍精度型densenet161

635.866231918335

推論倍精度型squeezenet1_0

61.92759037017822

推論倍精度型squeezenet1_1

27.009410858154297

推論倍精度型 vgg11

462.3375129699707

推論倍精度型 vgg11_bn

468.4495782852173

推論倍精度型 vgg13

692.8219032287598

推論倍精度型 vgg13_bn

703.3538103103638

推論倍精度型 vgg16

924.4353818893433

推論倍精度型 vgg16_bn

936.5075063705444

推論倍精度型 vgg19_bn

1169.098300933838

推論倍精度型 vgg19

1156.3771772384644

推論倍精度型 mobilenet_v3_large

24.2356014251709

推論倍精度型 mobilenet_v3_small

8.85490894317627

推論倍精度型 shufflenet_v2_x0_5

6.360034942626953

推論倍精度型 shufflenet_v2_x1_0

14.301743507385254

推論倍精度型 shufflenet_v2_x1_5

24.863481521606445

推論倍精度型 shufflenet_v2_x2_0

43.8505744934082


結論

新しいグラフィックス カードは、多くの作業タスクに対して効果的なソリューションであることが証明されています。コンパクトなサイズのため、強力な SFF (スモール フォーム ファクター) コンピュータに最適です。また、6,144 の CUDA コアと 160 ビット バスの 20 GB のメモリにより、このカードが市場で最も生産性の高いカードの 1 つになっている点も注目に値します。さらに、TDP が 70W と低いため、消費電力コストの削減に役立ちます。 4 つの Mini-DisplayPort ポートにより、カードを複数のモニターで使用したり、マルチチャネル グラフィックス ソリューションとして使用したりできます。


RTX 4000 SFF ADA は前世代に比べて大幅な進歩を示し、消費電力が 2 倍のカードと同等のパフォーマンスを実現します。 PCIe 電源コネクタがないため、RTX 4000 SFF ADA は、高性能を犠牲にすることなく低電力ワークステーションに簡単に統合できます。