2025-01-24
全新 Blackwell GPU 架構 !!
NVIDIA GeForce RTX 5090 D 顯示卡實測
文: Dominic Chan / 評測中心


是的,HKEPC 沒有 RTX 5090 FE !! NVIDIA 正式發佈 GeForce RTX 5090 / 5090 D 顯示卡,採用全新 GB202 繪圖核心、升級新一代 Blackwell GPU 微架構,增至 21,760 CUDA Core、第 4 代 RT Core、第 5 代 Tensor Core 及 32GB GDDR7 記憶體。全新的神經渲染架構與 RTX 神經著色器開啟了生成式 AI 遊戲渲染新世代,加上 DLSS 4 的多幀生成功能令 FPS 幀率大幅提升。HKEPC 編輯部收到 NVIDIA 送測  RTX 5090 D 新卡,並與上代 RTX 4090 FE 進行對比測試。



GeForce RTX 50 系列登場 !! 

 

 

 RTX 5090

▲ GeForce RTX 5090 (Blackwell GPU)

 

 

終於來了 !! NVIDIA 在 24 日正式發佈首款採用 Blackwell GPU 架構、核心代號 GB202 的旗艦級 GeForce RTX 5090 / RTX 5090 D 顯示卡。由於摩爾定律逐漸失效,傳統 GPU 設計已經無法以原生渲染方式維持理想的遊戲幀率,因此 NVIDIA 與遊戲業界正朝向 Neural Rendering 神經渲染技術發展,將 AI 技術導入遊戲應用中。Microsoft 亦宣布在未來的 DirectX 中正式支援向量運算協作,完全解放 Tensor Cores 用於遊戲運算,PC 遊戲界正迎來重大變革。

 

 

 RTX 5090 RTX 5090

 

 

因此,NVIDIA 新一代 Blackwell GPU 非常著重於 Neural Rendering 神經渲染的性能提升,透過原生傳統渲染的一小部分成本生成絕大多數圖元。配合 DLSS 4 超解析度和 MFG 多幀生成技術,大幅提高遊戲幀率;再透過 DLSS 光線重建(RR),通過使用先進的 AI 方法對缺失的細節進行降噪和重建,以更低的運算成本和記憶體佔用達成原生渲染級畫質。

 

此外,全新 Neural Rendering 神經渲染與 Neural Shaders 神經著色技術將加速遊戲開發人員對 AI 的應用,例如即時生成和創建各種地形、物理模擬、更複雜的 NPC 角色行為,甚至即時生成遊戲背景故事等等。Blackwell GPU 正在改變整個 PC 遊戲的生態發展。

 

 RTX 5090 RTX 5090

 

 

與上代相比,NVIDIA Blackwell GPU 在 Shader Cores 性能提升大約為 20~25%,雖然幅度不算顯著,但在 RT Core 和 Tensor Core 的全新 FP4 技術支持下,遊戲性能卻能實現倍數增長。以下是 Blackwell GPU 的主要關鍵創新:

 

 

為神經渲染而生的全新 SM 單元︰大幅增強神經渲染運算能力。與 NVIDIA Ada GPU 相比,NVIDIA RTX Blackwell SM 在每個時鐘週期的整數數學輸送量提高了一倍,這對於提高神經著色中至關重要的位址生成工作負載性能極為有利。

 

全新第 4 代 RT Core︰Blackwell GPU 對 RT Core 架構進行了重大革新,帶來全新的光線追蹤體驗和神經渲染技術,進一步提升圖形性能。

 

全新第 5 代Tensor Core︰引入全新的 FP4 功能,能將 AI 輸送量提升一倍,同時將記憶體需求減半。此外,Blackwell 的數據中心級 GPU 還搭載第二代 FP8 Transformer 引擎,進一步提升處理效能。

 

NVIDIA DLSS 4︰全新 NVIDIA RTX Blackwell 架構支援 AI 多幀生成功能,能將 DLSS 4 的幀速率提升至上一代 DLSS 3/3.5 的兩倍,同時保持甚至超越原生畫質,並確保低系統延遲。

 

RTX 神經著色器︰引入小型神經網路至可程式設計著色器,開啟 GPU 圖形運算的新時代,為遊戲開發者提供更靈活的創作工具。

 

AI 管理處理器(AMP) - AMP 支援多個 AI 模型(包括語音、翻譯、視覺、動畫、行為等)與圖形工作負載同時共用 GPU,提升多任務處理能力。

 

GDDR7 Memory - GDDR7 ︰採用全新的超低電壓 GDDR 顯存標準,並使用 PAM3(脈衝幅度調製)信號技術,實現更高速的顯存子系統,同時進一步提升能效。

 

Mega Geometry 技術︰一種新的 RTX 技術,旨在大幅提升光線追蹤應用中的幾何細節,帶來更逼真的視覺效果。

 

 

 

GeForce RTX 50 新卡定價

 

定價方面,NVIDIA 將會於 1 月 30 日正式發佈 GeForce RTX 5080 及 GeForce RTX 5090 / 5090 D 顯示卡。GeForce RTX 5080 型號基於 GB203 繪圖核心,擁有 10,752 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$999。官方宣稱其性能等同於 RTX 4080 的兩倍。GeForce RTX 5090 / 5090 D 型號則基於 GB202 繪圖核心,擁有 21,760 個 CUDA Cores、32GB GDDR7 記憶體,MSRP 定價 US$1,999,官方聲稱可實現 4K 240Hz 特效全開並啟用 Path Tracing。

 

 

 RTX 5090

 

 

緊接著,NVIDIA 將於 2 月發佈 GeForce RTX 5070 及 GeForce RTX 5070 Ti 顯示卡。兩者同樣採用 GB205 繪圖核心。GeForce RTX 5070 型號擁有 6,144 個 CUDA Cores、12GB GDDR7 記憶體,MSRP 定價 US$549,官方聲稱其性能等同於 RTX 4090。GeForce RTX 5070 Ti 型號則擁有 8,960 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$749,官方宣稱其性能等同於 RTX 4070 Ti 的兩倍。

 

需要注意的是,以上性能宣稱均基於 DLSS 4 的情況下作出的。

 

 

TSMC 4N 制程、NVIDIA GB202 繪圖核心

 

NVIDIA GB202 繪圖核心基於全新 Blackwell 微架構,並應用於 GeForce RTX 5090 系列產品之中。由於今代仍然維持採用 TSMC 4N 制程,CUDA Core 運算單元的提升幅度並沒有上代那麼明顯,加上時脈反而有所下降,傳統光柵圖形運算性能提升約 20~25%。因此,今代主要的遊戲性能提升來自第 4 代 RT Cores 與第 5 代 Tensor Cores,光線追蹤性能以及神經渲染運算能力大約提升了近 1 倍。

 

GB202 GPU 晶片尺寸由 AD102 的 608mm² 大幅增至 750mm²,已達 Max Reticle Area 的 87%。電晶體數目亦由 763 億個增至 922 億個。完整的 GB202 晶片包含了 12 個圖形處理集群 (GPC)、96 個紋理處理集群 (TPC)、192 個串流多處理器 (SM),總計 24,576 個 CUDA Cores、192 個 RT Cores、768 個 Tensor Cores 及 768 個 Texture Units。

 

 

RTX 5090

▲ NVIDIA GB202 Block Diagram

 

 

 

GB202 GPU 還包括 384 個 FP64 核心(每個 SM 配備兩個),這些核心並未在上圖中描繪。此外,FP64 的 TFLOP 速率是 FP32 操作 TFLOP 速率的 1/64,並包含少量 FP64 核心及極少量的 FP64 Tensor Core,以確保任何包含 FP64 代碼的程式能夠正常運行。

 

值得注意的是,GeForce RTX 5090 所採用的 GB202-300 晶片大約屏蔽了 11.5% 的運算單元,減少至僅有 11 個 GPC 單元、85 個 TPC 紋理處理群集及 170 個 SM 串流多處理器,總計 21,760 個 CUDA Cores、170 個 RT Cores 及 680 個 Tensor Cores。

 

IT快訊

 

 

在核心時脈方面,由於 GPU 規模進一步提升,因此時脈相較上代略有下降。GeForce RTX 5090 的預設時脈為 2,017MHz,Boost 時脈為 2,407MHz,最高 TGP 為 575W。

 

此外,GeForce RTX 5090 採用了 28Gbps 的 GDDR7 記憶體,配備 512-bit 記憶體介面,總頻寬達 1,792GB/s,L2 Cache 容量大幅增加至 96MB。如此大的 Cache 緩存容量令所有應用程式均能受益,尤其是在光線追蹤(特別是路徑追蹤)等複雜操作中,將帶來巨大的性能提升。

 

 

GeForce RTX 5090 / 5090 D vs GeForce RTX 4090 vs GeForce RTX 3090 Specs

Graphics CardNVIDIA
GeForce RTX 3090
NVIDIA
GeForce RTX 4090
NVIDIA
GeForce RTX 5090 / 5090 D
GPU CodenameGA102AD102GB202
GPU ArchitectureNVIDIA AmpereNVIDIA Ada LovelaceNVIDIA Blackwell
GPCs71111
TPCs416485
SMs82128170
CUDA Cores / SM128128128
CUDA Cores / GPU104961638421760
Tensor Cores / SM4 (3rd Gen)4 (4th Gen)4 (5th Gen)
Tensor Cores / GPU328 (3rd Gen)512 (4th Gen)680 (5th Gen)
RT Cores82 (2nd Gen)128 (3rd Gen)170 (4th Gen)
GPU Boost Clock (MHz)169525202407
Peak FP32 TFLOPS (non-Tensor)35.682.6104.8
Peak FP16 TFLOPS (non-Tensor)35.682.6104.8
Peak BF16 TFLOPS (non-Tensor)35.682.6104.8
Peak INT32 TOPS (non-Tensor)17.841.3104.8
RT TFLOPS69.5191317.5
Peak FP4 Tensor TFLOPS with FP32 Accumulate (FP4 AI TOPS)N/AN/A1676/3352
Peak FP8 Tensor TFLOPS with FP16 AccumulateN/A660.6/1321.2N/A
Peak FP8 Tensor TFLOPS with FP32 AccumulateN/A30.3/660.6.2419/838
Peak FP16 Tensor TFLOPS with FP16 Accumulate142.3/284.6330.3/660.6N/A
Peak FP16 Tensor TFLOPS with FP32 Accumulate71.2/142.4165.2/330.4209.5/419
Peak BF16 Tensor TFLOPS with FP32 Accumulate71.2/142.4165.2/330.4209.5/419
Peak TF32 Tensor TFLOPS¹35.6/71.282.6/165.2104.8/209.5
Peak INT8 Tensor TOPS¹284.7/569.4660.6/1321.2838/1676
Frame Buffer Memory Size and Type24 GB GDDR6X24 GB GDDR6X32 GB GDDR7
Memory Interface384-bit384-bit512-bit
Memory Clock (Data Rate)19.5 Gbps21 Gbps28 Gbps
Memory Bandwidth936 GB/sec1008 GB/sec1792 GB/sec
ROPs112176176
Pixel Fill-rate (Gigapixels/sec)189.8443.5423.6
Texture Units328512680
Texel Fill-rate (Gigatexels/sec)555.961290.21636.8
L1 Data Cache/Shared Memory10496 KB16384 KB21760 KB
L2 Cache Size6144 KB73728 KB98304 KB
Register File Size20992 KB32768 KB43520 KB
Video Engines1 x NVENC (7th Gen) 1 x NVDEC (5th Gen)2 x NVENC (8th Gen) 1 x NVDEC (5th Gen)3 x NVENC (9th Gen) 2 x NVDEC (6th Gen)
TGP (Total Graphics Power)350 W450 W575 W
Transistor Count28.3 Billion76.3 Billion92.2 Billion
Die Size628.4 mm²608.5 mm²750 mm²
Manufacturing ProcessSamsung 8nm Custom ProcessTSMC 4nm 4N NVIDIA Custom ProcessTSMC 4nm 4N NVIDIA Custom Process
PCI Express InterfaceGen 4Gen 4Gen 5

 

◾Peak rates are based on GPU Boost Clock

◾Effective TOPS / TFLOPS using the Sparsity Feature

 

 

 

發表評論