2024-03-05
規避出口禁令的 D 計劃
Inno3D GeForce RTX 4090 D X3 顯示卡實測
文: John Lam / 評測中心


為規避美國出口管制,NVIDIA 特別為中國市場推出 GeForce RTX 4090 D 型號,D 字是 Dragon 的意思,因為今年是龍年嘛,改用了採用 AD102-250 GPU,由 128 個 SM 減至 114 個 SM,擁有 14,592 個 CUDA Cores、114 個 RT Cores、456 個 Tensor Cores,相較 RTX 4090 運算單元數目減少了 10.94%,HKEPC 編輯部收到 Inno3D 送測 GeForce RT 4090 D X3,與 RTX 4080 SUPER 及 RTX 4090 作對比測試。



規避出口禁令的 D 計劃

 

去年 10 月,美國商務部更新 ECCN 3A090 高科技出口管制要求,將會進一步收緊對中國禁運要求,新規定下連遊戲市場的 GeForce RTX 4090 也不能銷往中國,包括香港及澳門亦受到影響,由於中國市場相當龐大,NVIDIA 當然不願意失去這塊肥肉,因此 NVIDIA 決定針對中國市場再變陣, 推出中國獨家 GeForce RTX 4090 D 型號,D 字是 Dragon 的意思,因為今年是龍年嘛,將 GPU 運算性能降低以符合法口法規。

 

 

IT快訊

 

 

據了解,GeForce RTX 4090 運算性能為 TPP = 2642.56*、PD = 4.34*,根據 ECCN 3A090b 次要高性能晶片規定,則要求晶片如介乎 TPP 2400 至 4800 之間同時 PD 介乎 1.6 至 5.92 之間,除非取得美國商務部許可,否則不准出口中國,因此 GeForce RTX 4090 D 的性能規格必需下降約 10% 才能滿足要求。

 

*TPP =FP32 TFLOPS x 32 (Bit)

*PD = TPP / Die Size

 

 

 

NVIDIA AD102-250 繪圖核心

 

GeForce RTX 4090 D 與 RTX 4090 一樣,採用 NVIDIA AD102 繪圖核心、型號為 AD102-250,為了滿足 ECCN 3A090b 次要高性能晶片規定,GeForce RTX 4090 D 運算單元作出了進一步屏蔽,刪減至 57 個 TPC 紋理處理群集及 114 個 SM 串流多處理器,具備 14,592 個 CUDA Cores、114 個 RT Cores 及 456 個 Tensor Cores。

 

 

RTX 4090 D

▲ NVIDIA AD102-250 繪圖核心

 

核心時脈方面,GeForce RTX 4090 D 預設時脈為 2,280MHz Base Clock、2,520MHz Boost Clock,為了令 RTX 4090 D 完全不會超出美國商務部的禁運要求,NVIDIA 限制了 RTX 4090 D 超頻功能,以確保任何情況下都不會超標。

 

RTX 4090 D

 

 

經過刪減後,GeForce RTX 4090 D 的 FP32 TFLOPS 運算能力被降至 73.54,按照 TPP = FP32 TFLOPS x 32 (Bit) 計算公式,GeForce RTX 4090 D 的 TPP 為 2,353.28,完全符合 ECCN 3A090b 次要高性能晶片不超過 TPP 2,400 的規定。

 

記憶體子系統方面,GeForce RTX 4090 D 與 RTX 4090 完全一樣,具備 24GB GDDR6X 記憶體容量,21Gbps GDDR6X 速度、384-bit 記憶體介面,總頻寬同樣為 1.008GB/s,L2 Cache 容量保持在 72MB 水平。

 

 

NVIDIA GeForce RTX 40 Family Full Specifications

Graphics CardGeForce
RTX 4090 D
GeForce
RTX 4090
GPU CodenameAD102-250AD102-300
GPU ArchitectureNVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
TPCs5764
SMs114128
CUDA Cores / SM128128
CUDA Cores / GPU1459216384
Tensor Cores / SM4 (4th Gen)4 (4th Gen)
Tensor Cores / GPU456 (4th Gen)512 (4th Gen)
RT Cores114 (3rd Gen)128 (3rd Gen)
GPU Boost Clock (MHz)25202520
Pixel Fill Rate443.5443.5
Texture Fill Rate1,1491,290
Peak FP16 TFLOPS (non-Tensor)73.5482.6
Peak FP32 TFLOPS (non-Tensor)73.5482.6
Peak FP64 TFLOPS (non-Tensor)1,1491,290
Frame Buffer Memory Size and Type24GB GDDR6X24GB GDDR6X
Memory Interface384-bit384-bit
Memory Clock (Data Rate)21 Gbps21 Gbps
Memory Bandwidth1,008 GB/sec1,008 GB/sec
ROPs176176
Texture Units456512
L2 Cache72 MB72 MB
Video Engines2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1X NVDEC (Gen 5)
TGP Power425W450W
Transistor Count76.3 Billion76.3 Billion
Die Size608.5 mm²608.5 mm²
Manufacturing ProcessTSMC 4NTSMC 4N
PCIe InterfaceGen4Gen4

 

 

 

 

Inno3D GeForce RTX 4090 D X3 顯示卡

 

RTX 4090 D

 

 

由於 GeForce RTX 4090 D 並沒有 Founder Edition,所以我們找來 Inno3D GeForce RTX 4090 D X3 顯示卡進行測試,整卡設計與 RTX 4090 X3 版本完全相同,3 Slot 散熱器設計,採用 3 Slot 散熱器設計在眾多 AIC 卡之中已經是最薄身了,但它的散熱表現卻非常理想,具備巨型 Vapor Chamber 大型均熱板配搭 9 支純銅導熱管,升級 3 顆 10cm 軸向式 Scythe 順逆向鐮刀扇葉風扇,要應負 425W TDP 絕對不成問題。

 

 

RTX 4090 D

 

Inno3D GeForce RTX 4090 D X3 顯示卡尺寸為 336mm x 145mm x 60mm、重量約 1765g、三槽設計,黑、鈦金色外殼配色,上半加入斜向拉絲紋表面處理,整體的外觀設計具有時尚科技感,並充滿硬朗的質感。

 

 

RTX 4090 X3 OCRTX 4090 X3 OC

 

 

Inno3D RTX 4090 D X3 系列有個特別設計,顯示卡在 Bracket 位置預載了金屬負重支架,能夠加強 PCB 剛性並增強承托力,從而避免 PCB 彎曲損壞,整張卡運作時只有頂端 INNO3D 字樣會透出白色燈光,相當簡約。

 

RTX 4090 D

 

▲ 3 Slot 設計

 

 

Inno3D GeForce RTX 4090 D X3 OC 顯示卡採用 3 Slot 設計,在眾多 RTX 4090 D 之中算薄了,不過它的卡高也有14.5cm,由於要預留空間給 12VHPWR 接口,最好機箱 CPU 散熱器支援 16.5cm 或以上,就能減低轉接口嚴重屈曲的風險。

 

RTX 4090 D

 

顯示卡背面設有金屬背板,能夠加強 PCB 剛性並增強承托力,從而避免 PCB 彎曲損壞,金屬背板加入了導熱散熱貼,可為顯示卡背面 PCB 的被動元件作少許被動散熱,特別加入 Hot Air Extraction 散熱設計,背面開口將熱力直接穿越至機箱上方,可讓機箱內部溫度變得較平均。

 

 

 

NVIDIA PG139 公板設計

RTX 4090 D

 

Inno3D GeForce RTX 4090 D X3 完全採用 NVIDIA PG139 公板設計,供電設計方面, 14 相為 GPU 供電、3 相為 GDDR6X 供電,全面採用 Alpha & OMEGA BLN0 (AOZ5311NQI) Synchronous Buck Regulator,在單一封裝內加入上下橋 MOSFET 及集成驅動器,單相能提供 50A 持續電流輸出,配搭全封閉合金功率電感及固態電容,充份滿足 AD102-250 顯示核心的供電需求。

 

 

 

NVIDIA AD102-250 繪圖核心

 

 

RTX 4090 D

 

 

 

 

 

NVIDIA GeForce RTX 4090 D 採用了經刪減後的 AD102-250 繪圖核心,採用 TSMC 4N 制程、擁有 763 億個電晶體、Die Size 約為 608.5mm²,部份單元作出了屏蔽,刪減至 57 個 TPC 紋理處理群集及 114 個 SM 串流多處理器,具備 14,592 個 CUDA Cores、114 個 RT Cores 及 456 個 Tensor Cores。

 

 

RTX 4090 DRTX 4090 D

 

 

時脈方面,Inno3D GeForce RTX 4090 D X3顯示卡預設核心時脈為 2,280MHz Base Clock、2,520MHz Boost Clock,不提供任何超頻選項,最高 Power Limit 預設為 425W,Power Limit 被鎖上無法再調高 Power Limit。

 

 

 

384-bit 24GB GDDR6X 記憶體容量

 

記憶體方面,NVIDIA GeForce RTX 4090 D 具備 24GB GDDR6X 記憶體容量及 384-bit 記憶體控制器,記憶體頻寬與 RTX 4090 一樣保持 1008GB/s (1TB/s),L2 Cache  則由 74MB 略減至 72MB 容量。

 

 

RTX 4090 D

▲ Micron D8BZC 21Gbps GDDR6X 記憶體

 

 

採用了12 顆 Micron D8BZC GDDR6X 顆粒編號,為 MT61K512M32KPA-21:U 並支援 ECC 功能,每顆單顆容量為 16Gbit (2GB),總供 24GB 繪圖記憶體容量,採用單面 24GB GDDR6X 記憶體配置。和 RTX 4090 一樣支援 ECC 功能,用家可以在 NVIDIA Control Panel 程式中打開選項。

 

 

3 Slot 均熱板 + 9 Heatpipe 散熱器

 

 RTX 4090 D

 

Inno3D GeForce RTX 4090 D X3 顯示卡的散熱器,設計與 RTX 4090 版本完全相同,採用 3 Slot 均熱板 + 9 Heatpipe 散熱器,巨型 8500mm² Vapor Chamber 均熱板,以其封閉於板狀腔體中作動流體之蒸發凝結循環運作,擁有快速均熱、快速熱傳導及熱擴散的特性和功能,更能平衡及迅速把核心晶片的廢熱傳遞到整個散熱器上。

 

 

 

RTX 4090 DRTX 4090 D

 

 

均熱板連接 9 支 6mm 純銅導熱管並貫穿到整個大面積散熱鰭片散熱器,整個 Heatpipe 長度達 2716 mm,整個鋁散熱鰭片面積高達 1,006,164 mm²,能完全滿足 425W TDP 的 RTX 4090 D 散熱需求。

 

 

 

採用 12VHPWR / 12V2x6 供電接口

 

 

RTX 4090 D

 

 

使用了經過改進的 12VHPWR / 12V-2x6 連接器,相較舊有 12VHPWR 感應引腳僅向入偏移量 0.45mm,因此 RTX 40 新卡已使用具有向入偏移 1.7 mm 的感應引腳,更短的感應引腳可以檢測連接器是否完全插入。如果沒有完全插入這樣,GPU 就不會被限制最大功率負載,理論上講應該可解決過去發生連接器燒毀問題,然而效果仍有待觀察,隨產品就附連了一條 PCIe 8-Pin x 3 轉 12VHPWR / 12V2x6 轉接線 (450W)。

RTX 4090 D

 

提供了 3 組 Display Port 1.4a + DSC 及 1 組 HDMI 2.1 影像輸出接口,兩種輸出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度輸出,支援 VESA DSC 1.2 無損壓縮顯示功能,單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 接口提供單一 8K@120Hz HDR 輸出。

 

 

效能測試︰

 

HKEPC 編輯部收到由 Inno3D GeForce RTX 4090 D X3 顯示卡樣本,同時亦找來同時亦找來 RTX 4070 Ti、RTX 4080 作對比測試,以了解這 NVIDIA GeForce RTX 4070 Ti SUPER 的效能水平。

 

 

 

 

RTX 4090 D

▲ Furmark 2 測試最高溫度 63°C

 

 

散熱方面,顯示卡在約 22°C 的室溫環境下閒置約 30分鐘,GPU溫度維持在 39°C。接著採用 Furmark 進行 3D 負載測試,將 GPU 完全負載 30 分鐘後,溫度會提升至 63°C,GPU 時脈保持在 2,385MHz,TDP 450W / TGP 393W。

 

 

 

測試平台︰

 

Intel Core i9-12900K CPU

ASUS ROG Z790 Maximus APEX

ANACOMDA DDR5-6400 CL36-38-38-68 32GB x 2 @1.35V

Windows 11 Professional 23H2

NVIDIA GeForce Driver 551.23 WHQL

 

 

RTX 4090 D

 

 

RTX 4090 D

 

 

RTX 4090 D

 

 

RTX 4090 D

 

 

RTX 4090 D

 

 

3DMark Ray-Tracing 測試︰

 

RTX 4090 D

 

 

RTX 4090 D

 

 

 

3DMark DLSS 測試︰

 

RTX 4090 D

 

 

 

 

 

3DMark DirectX Raytracing feature test 測試

 

RTX 4090 D

 

 

遊戲效能測試:

 

以下的遊戲測試除另外指明外,全部皆以 3840 x 2160 解析度全屏幕執行,畫質皆設定為最高品質,若遊戲支援光線追蹤技術則同時將光追品質全開。而 DLSS 方面則統一使用 Performance 設定,當中 GeForce RTX 40 系列會啟用 DLSS 3 中新增的 Frame Generation 技術。

 

 

A Plague Tale:Requiem 瘟疫傳說:安魂曲 (RT + DLSS 3)

 

 

 

Control (RT + DLSS2)

 

 

 

CyberPunk 2077 RT Ultra (RT+ DLSS 3)

 

 

 

F1 22 (RT + DLSS 3)

 

 

 

Forza Horizon 5 (DLSS 3)

 

 

 

Tom Clancy's Rainbow Six Siege 虹彩六號:圍攻行動

 

 

 

Microsoft Flight Simulator 微軟模擬飛行 (DLSS 3)

 

 

 

Watch Dogs Legion (RT + DLSS)

 

 

 

 

UL Procyon AI 測試

 

NVIDIA RTX 4090 DNVIDIA RTX 4090 D

▲ RTX 4090

 

NVIDIA RTX 4090 DNVIDIA RTX 4090 D

▲ RTX 4090 D

 

 

在 UL Procyon AI Inference Benchmark (Windows) AI 推理基準測試中,使用常見的電腦視覺的神經網絡模型,透過 CPU 或 GPU 運行相同操作進行比較,以測量 AI 加速器的性能,並設有浮點數或整數的測試方式。

 

測試採用 14700K、RTX 4090 / RTX 4090 D 配置、float32 精度。在 Microsoft Windows ML 版本及 NVIDIA Tensor RT 版本中,RTX 4090 分別獲得 1353 和 1951 分數,而 RTX 4090 D 分別獲得 1325 和 1878 分數。AI 運算性能跑分方面,全新的 RTX 4090 D 相比 RTX 4090 大約相差 2% ~ 4%效能。

 

 

 

Stable Diffusion AI 生成應用測試

 

ROG Strix RTX 4090 OC EVA-02

 

 

Stable Diffusion 是於 2022 年發佈的深度學習 text-to-image 模型工具,只需要輸入文字內容,配合含有大量素材的訓練模型,便可即時繪畫(AI 生成)圖像。透過不同的文字內容和特定主題的訓練模型,Stable Diffusion 主要用於生成真實人像、二次元人像、不同藝術風格等圖像類型,帶來千變萬化、創意無限的圖片內容,更是現時 2023 年熱門使用的 AI 創作工具。

 

 

RTX 4080 SUPER

 

 

Stable Diffusion 支援 WebUI 介面,可在瀏覽器中顯示圖形化界面,能讓一般電腦用家也能輕鬆使用及調整不同的選項,亦相容不同的系統平台及電腦硬件,加上不是太過複雜的安裝過程,深受不同程度的電腦用家歡迎。不過 Stable Diffusion 對於電腦硬件中的 GPU VRAM 容量有一定的需求,太低 VRAM 容量將會影響圖片生成時的速度或是生成變化,普偏建議使用 8GB VRAM 容量或以上的顯示卡。

 

 

NVIDIA RTX 4090 D

 

 

筆者參考至這個網站文章,採用 Stable Diffusion + ControlNet 以生成麵包文字主題圖片,僅以簡單設定來執行標準 Stable Diffusion GPU Benchmark 跑分測試,可讓其他使用者也能模擬參考比較,並以首次生成之後的生成的完成時間為數據,而整個 AI 生成的峰值 VRAM 容量不超過 8GB。

*ControlNet 使用素材

 

在不超過 8GB VRAM 容量下,RTX 4090 24GB 完成時間為 7.7 秒,而 RTX 4090 D 24GB 為 8.0 秒,兩者相差 0.3 秒。RTX 4090 與少許規格下降的 RTX 4090 D 24GB 在低需求的 AI 圖像生成只有非常輕微的差異。

 

 

RTX 4080 SUPER

RTX 4080 SUPER

 

 

NVIDIA 於 2023 年 11 月推出全新 TensorRT Extension 工具,適用於 Stable Diffusion WebUI 安裝及使用的擴充插件。TensorRT Extension 可把一般的 Checkpoint 或 LoRA等模型,轉換到 TensorRT 格式的設定檔,並可自訂設定檔的數值設定,目前支援 Text-2-image、Image-2-image、Stable Diffusion 1.5 / 2.1 / XL、LoRA 等。NVIVIDA 表示運行 TensorRT Extension 時,將會使用 NVIDIA GPU 的 Tensor Core 計算,Stable Diffusion 的效能可提升 1 倍以上。

 

 

RTX 4080 SUPER

 

 

測試使用 Stable Diffusuion 模組的 SDXL Turbo 1.0,並使用 TensorRT Extension 工具,轉換合適的設定置。以 1024x1024 解析度、Step 20、Batch count 10、Batch size 1、CFG Scale 7、簡單的提示詞等設定運行,並分別開啟或關閉 xformers 指令、開啟或關閉 TensorRT 功能。

 

 

NVIDIA RTX 4090 D

 

 

在運行 SDXL Turbo 模式時,預載時已超過 8GB VRAM 容量,以 1024x1024 解析度算圖時,更會超出 12GB 或以上 VRAM 容量。在 PyTorch、PyTorch + xformers、TensorRT 框架運算下,RTX 4090 24GB 完成時間為 51.7 秒、41.6 秒、33.4 秒,而 RTX 4080 16GB 完成時間分別為 52.3 秒、42.4 秒、34.7 秒,兩者時間相差 1% ~ 4%。相比 RTX 4090 24GB,少許規格下降的 RTX 4090 D 24GB 實際完時間只是慢一點點,效能下降並不太明顯。

 

在使用 Stable Diffusion 高需求模組並以高解析度運行時,所需的 VRAM 容量隨即增加,在使用 xfomers 指令後,雖然完成時間減少了,但 VRAM 容量佔用反而更多,失去了原來減少 VRAM 佔用的優點。在使用 TensorRT 框架後,相比純 PyTorch 運算,VRAM 容量佔用明顯降低,而且縮減了 30% ~ 40% 完成時間,對於 AI 生產圖片更有幫助。

 

 

Inno3D GeForce RTX 4090 D X3 顯示卡實測

售價︰HK$13,200

查詢︰ESONEX (2728-2109)

 

 

編輯評語︰

 

雖然運算單元數目減少了 10.94%,但測試結果性能下降約 5~7% 左右,NVIDIA 解釋是遊戲和程序不可能每一次都完全充份填滿,因此減少了的單元數目不會完全轉化成性能的損失,因此 GeForce RTX 4090 D 與 RTX 4090 的差距並沒有想像中大。

 

由於香港市場上的 RTX 4090 現貨越來越少,售價變得相當昂貴,相反 RTX 4090 D 沒什麼炒價,如果以性價比來說可能更高,由於美國 - 香港政策法已被取消,美國對中國的科技禁運將包括香港地區在內,現有 RTX 4090 D 作為代替品已經不錯了,下一代性能更強可能連 80 都買不到了,香港人就面對現實吧。

 

文: John Lam/評測中心
發表評論