
是的,HKEPC 沒有 RTX 5090 FE !! NVIDIA 正式發佈 GeForce RTX 5090 / 5090 D 顯示卡,採用全新 GB202 繪圖核心、升級新一代 Blackwell GPU 微架構,增至 21,760 CUDA Core、第 4 代 RT Core、第 5 代 Tensor Core 及 32GB GDDR7 記憶體。全新的神經渲染架構與 RTX 神經著色器開啟了生成式 AI 遊戲渲染新世代,加上 DLSS 4 的多幀生成功能令 FPS 幀率大幅提升。HKEPC 編輯部收到 NVIDIA 送測 RTX 5090 D 新卡,並與上代 RTX 4090 FE 進行對比測試。
GeForce RTX 50 系列登場 !!
▲ GeForce RTX 5090 (Blackwell GPU)
終於來了 !! NVIDIA 在 24 日正式發佈首款採用 Blackwell GPU 架構、核心代號 GB202 的旗艦級 GeForce RTX 5090 / RTX 5090 D 顯示卡。由於摩爾定律逐漸失效,傳統 GPU 設計已經無法以原生渲染方式維持理想的遊戲幀率,因此 NVIDIA 與遊戲業界正朝向 Neural Rendering 神經渲染技術發展,將 AI 技術導入遊戲應用中。Microsoft 亦宣布在未來的 DirectX 中正式支援向量運算協作,完全解放 Tensor Cores 用於遊戲運算,PC 遊戲界正迎來重大變革。
因此,NVIDIA 新一代 Blackwell GPU 非常著重於 Neural Rendering 神經渲染的性能提升,透過原生傳統渲染的一小部分成本生成絕大多數圖元。配合 DLSS 4 超解析度和 MFG 多幀生成技術,大幅提高遊戲幀率;再透過 DLSS 光線重建(RR),通過使用先進的 AI 方法對缺失的細節進行降噪和重建,以更低的運算成本和記憶體佔用達成原生渲染級畫質。
此外,全新 Neural Rendering 神經渲染與 Neural Shaders 神經著色技術將加速遊戲開發人員對 AI 的應用,例如即時生成和創建各種地形、物理模擬、更複雜的 NPC 角色行為,甚至即時生成遊戲背景故事等等。Blackwell GPU 正在改變整個 PC 遊戲的生態發展。
與上代相比,NVIDIA Blackwell GPU 在 Shader Cores 性能提升大約為 20~25%,雖然幅度不算顯著,但在 RT Core 和 Tensor Core 的全新 FP4 技術支持下,遊戲性能卻能實現倍數增長。以下是 Blackwell GPU 的主要關鍵創新:
◾為神經渲染而生的全新 SM 單元︰大幅增強神經渲染運算能力。與 NVIDIA Ada GPU 相比,NVIDIA RTX Blackwell SM 在每個時鐘週期的整數數學輸送量提高了一倍,這對於提高神經著色中至關重要的位址生成工作負載性能極為有利。
◾全新第 4 代 RT Core︰Blackwell GPU 對 RT Core 架構進行了重大革新,帶來全新的光線追蹤體驗和神經渲染技術,進一步提升圖形性能。
◾全新第 5 代Tensor Core︰引入全新的 FP4 功能,能將 AI 輸送量提升一倍,同時將記憶體需求減半。此外,Blackwell 的數據中心級 GPU 還搭載第二代 FP8 Transformer 引擎,進一步提升處理效能。
◾NVIDIA DLSS 4︰全新 NVIDIA RTX Blackwell 架構支援 AI 多幀生成功能,能將 DLSS 4 的幀速率提升至上一代 DLSS 3/3.5 的兩倍,同時保持甚至超越原生畫質,並確保低系統延遲。
◾RTX 神經著色器︰引入小型神經網路至可程式設計著色器,開啟 GPU 圖形運算的新時代,為遊戲開發者提供更靈活的創作工具。
◾AI 管理處理器(AMP) - AMP 支援多個 AI 模型(包括語音、翻譯、視覺、動畫、行為等)與圖形工作負載同時共用 GPU,提升多任務處理能力。
◾GDDR7 Memory - GDDR7 ︰採用全新的超低電壓 GDDR 顯存標準,並使用 PAM3(脈衝幅度調製)信號技術,實現更高速的顯存子系統,同時進一步提升能效。
◾Mega Geometry 技術︰一種新的 RTX 技術,旨在大幅提升光線追蹤應用中的幾何細節,帶來更逼真的視覺效果。
GeForce RTX 50 新卡定價
定價方面,NVIDIA 將會於 1 月 30 日正式發佈 GeForce RTX 5080 及 GeForce RTX 5090 / 5090 D 顯示卡。GeForce RTX 5080 型號基於 GB203 繪圖核心,擁有 10,752 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$999。官方宣稱其性能等同於 RTX 4080 的兩倍。GeForce RTX 5090 / 5090 D 型號則基於 GB202 繪圖核心,擁有 21,760 個 CUDA Cores、32GB GDDR7 記憶體,MSRP 定價 US$1,999,官方聲稱可實現 4K 240Hz 特效全開並啟用 Path Tracing。
緊接著,NVIDIA 將於 2 月發佈 GeForce RTX 5070 及 GeForce RTX 5070 Ti 顯示卡。兩者同樣採用 GB205 繪圖核心。GeForce RTX 5070 型號擁有 6,144 個 CUDA Cores、12GB GDDR7 記憶體,MSRP 定價 US$549,官方聲稱其性能等同於 RTX 4090。GeForce RTX 5070 Ti 型號則擁有 8,960 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$749,官方宣稱其性能等同於 RTX 4070 Ti 的兩倍。
需要注意的是,以上性能宣稱均基於 DLSS 4 的情況下作出的。
TSMC 4N 制程、NVIDIA GB202 繪圖核心
NVIDIA GB202 繪圖核心基於全新 Blackwell 微架構,並應用於 GeForce RTX 5090 系列產品之中。由於今代仍然維持採用 TSMC 4N 制程,CUDA Core 運算單元的提升幅度並沒有上代那麼明顯,加上時脈反而有所下降,傳統光柵圖形運算性能提升約 20~25%。因此,今代主要的遊戲性能提升來自第 4 代 RT Cores 與第 5 代 Tensor Cores,光線追蹤性能以及神經渲染運算能力大約提升了近 1 倍。
GB202 GPU 晶片尺寸由 AD102 的 608mm² 大幅增至 750mm²,已達 Max Reticle Area 的 87%。電晶體數目亦由 763 億個增至 922 億個。完整的 GB202 晶片包含了 12 個圖形處理集群 (GPC)、96 個紋理處理集群 (TPC)、192 個串流多處理器 (SM),總計 24,576 個 CUDA Cores、192 個 RT Cores、768 個 Tensor Cores 及 768 個 Texture Units。
▲ NVIDIA GB202 Block Diagram
GB202 GPU 還包括 384 個 FP64 核心(每個 SM 配備兩個),這些核心並未在上圖中描繪。此外,FP64 的 TFLOP 速率是 FP32 操作 TFLOP 速率的 1/64,並包含少量 FP64 核心及極少量的 FP64 Tensor Core,以確保任何包含 FP64 代碼的程式能夠正常運行。
值得注意的是,GeForce RTX 5090 所採用的 GB202-300 晶片大約屏蔽了 11.5% 的運算單元,減少至僅有 11 個 GPC 單元、85 個 TPC 紋理處理群集及 170 個 SM 串流多處理器,總計 21,760 個 CUDA Cores、170 個 RT Cores 及 680 個 Tensor Cores。
在核心時脈方面,由於 GPU 規模進一步提升,因此時脈相較上代略有下降。GeForce RTX 5090 的預設時脈為 2,017MHz,Boost 時脈為 2,407MHz,最高 TGP 為 575W。
此外,GeForce RTX 5090 採用了 28Gbps 的 GDDR7 記憶體,配備 512-bit 記憶體介面,總頻寬達 1,792GB/s,L2 Cache 容量大幅增加至 96MB。如此大的 Cache 緩存容量令所有應用程式均能受益,尤其是在光線追蹤(特別是路徑追蹤)等複雜操作中,將帶來巨大的性能提升。
GeForce RTX 5090 / 5090 D vs GeForce RTX 4090 vs GeForce RTX 3090 Specs
Graphics Card | NVIDIA GeForce RTX 3090 | NVIDIA GeForce RTX 4090 | NVIDIA GeForce RTX 5090 / 5090 D |
GPU Codename | GA102 | AD102 | GB202 |
GPU Architecture | NVIDIA Ampere | NVIDIA Ada Lovelace | NVIDIA Blackwell |
GPCs | 7 | 11 | 11 |
TPCs | 41 | 64 | 85 |
SMs | 82 | 128 | 170 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 10496 | 16384 | 21760 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (4th Gen) | 4 (5th Gen) |
Tensor Cores / GPU | 328 (3rd Gen) | 512 (4th Gen) | 680 (5th Gen) |
RT Cores | 82 (2nd Gen) | 128 (3rd Gen) | 170 (4th Gen) |
GPU Boost Clock (MHz) | 1695 | 2520 | 2407 |
Peak FP32 TFLOPS (non-Tensor) | 35.6 | 82.6 | 104.8 |
Peak FP16 TFLOPS (non-Tensor) | 35.6 | 82.6 | 104.8 |
Peak BF16 TFLOPS (non-Tensor) | 35.6 | 82.6 | 104.8 |
Peak INT32 TOPS (non-Tensor) | 17.8 | 41.3 | 104.8 |
RT TFLOPS | 69.5 | 191 | 317.5 |
Peak FP4 Tensor TFLOPS with FP32 Accumulate (FP4 AI TOPS) | N/A | N/A | 1676/3352 |
Peak FP8 Tensor TFLOPS with FP16 Accumulate | N/A | 660.6/1321.2 | N/A |
Peak FP8 Tensor TFLOPS with FP32 Accumulate | N/A | 30.3/660.6.2 | 419/838 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 142.3/284.6 | 330.3/660.6 | N/A |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 71.2/142.4 | 165.2/330.4 | 209.5/419 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 71.2/142.4 | 165.2/330.4 | 209.5/419 |
Peak TF32 Tensor TFLOPS¹ | 35.6/71.2 | 82.6/165.2 | 104.8/209.5 |
Peak INT8 Tensor TOPS¹ | 284.7/569.4 | 660.6/1321.2 | 838/1676 |
Frame Buffer Memory Size and Type | 24 GB GDDR6X | 24 GB GDDR6X | 32 GB GDDR7 |
Memory Interface | 384-bit | 384-bit | 512-bit |
Memory Clock (Data Rate) | 19.5 Gbps | 21 Gbps | 28 Gbps |
Memory Bandwidth | 936 GB/sec | 1008 GB/sec | 1792 GB/sec |
ROPs | 112 | 176 | 176 |
Pixel Fill-rate (Gigapixels/sec) | 189.8 | 443.5 | 423.6 |
Texture Units | 328 | 512 | 680 |
Texel Fill-rate (Gigatexels/sec) | 555.96 | 1290.2 | 1636.8 |
L1 Data Cache/Shared Memory | 10496 KB | 16384 KB | 21760 KB |
L2 Cache Size | 6144 KB | 73728 KB | 98304 KB |
Register File Size | 20992 KB | 32768 KB | 43520 KB |
Video Engines | 1 x NVENC (7th Gen) 1 x NVDEC (5th Gen) | 2 x NVENC (8th Gen) 1 x NVDEC (5th Gen) | 3 x NVENC (9th Gen) 2 x NVDEC (6th Gen) |
TGP (Total Graphics Power) | 350 W | 450 W | 575 W |
Transistor Count | 28.3 Billion | 76.3 Billion | 92.2 Billion |
Die Size | 628.4 mm² | 608.5 mm² | 750 mm² |
Manufacturing Process | Samsung 8nm Custom Process | TSMC 4nm 4N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process |
PCI Express Interface | Gen 4 | Gen 4 | Gen 5 |
◾Peak rates are based on GPU Boost Clock
◾Effective TOPS / TFLOPS using the Sparsity Feature