2025-03-04
咦 ... 說好的等效 4090 呢 ?
NVIDIA GeForce RTX 5070 FE 顯示卡評測
文: Dominic Chan / 評測中心


還記得老黃說定價 US$549 的 RTX 5070 性能等效 RTX 4090 嗎?終於等到 NVIDIA GeForce RTX 5070 正式解禁,採用全新 GB205 繪圖核心,擁有 6,144 個 CUDA Cores、48 個 RT Cores、192 個 Texture Units,部份運算單元數目比 RTX 4070 SUPER 還要少。主要靠 DLSS 4 多幀生成技術加持令 FPS 幀率大幅提升。HKEPC 編輯部找來了 GeForce RTX 5070 FE,與上代 RTX 4070 SUPER 及 Radeon RX 7900 GRE 作多方面效能對比測試。



中階 GeForce RTX 5070 登場 !!

 

RTX 5070

▲ GeForce RTX 5070 (Blackwell GPU)

 

 

NVIDIA 於 4 日正式發布第三款基於 Blackwell GPU 架構、核心代號 GB205 的中階 GeForce RTX 5070 顯示卡。還記得今年 1 月於 CES 2025 大會上,老黃宣布 GeForce RTX 5070 售價 US$549、性能等效 RTX 4090,全場歡呼不斷,當時大家都驚訝於「皮褸刀客」怎會突然變成了「大慈善家」,然而老黃說的是基於 DLSS 4 技術的 Multi Frame Gen 功能,原生渲染性能呢 ... !?。

 

由於摩爾定律逐漸失效,傳統 GPU 設計已無法以原生渲染方式維持理想的遊戲幀率。RTX 5070 相較上代 RTX 4070 / RTX 4070 SUPER,在 CUDA Core 數目方面相差不遠。NVIDIA 改向 Neural Rendering 神經渲染技術發展,將 AI 技術導入遊戲應用中。Microsoft 亦宣布未來的 DirectX 將正式支援向量運算協作,全面解放 Tensor Cores 用於遊戲運算,GPU 硬體與 PC 遊戲界正迎來重大變革。

 

 

 RTX 5090 RTX 5090

 

 

NVIDIA 新一代 Blackwell GPU 非常著重於 Neural Rendering 神經渲染的性能提升,透過原生傳統渲染的一小部分成本生成絕大多數圖元。配合 DLSS 4 超解析度和 MFG 多幀生成技術,大幅提高遊戲幀率;再透過 DLSS 光線重建 (RR),利用先進的 AI 方法對缺失的細節進行降噪和重建,以更低的運算成本和記憶體佔用達成原生渲染級畫質。

 

此外,全新 Neural Rendering 神經渲染與 Neural Shaders 神經著色技術,將加速遊戲開發人員對 AI 的應用。例如,即時生成和創建各種地形、物理模擬、更複雜的 NPC 角色行為,甚至即時生成遊戲背景故事等。Blackwell GPU 正在改變整個 PC 遊戲的生態發展。

 

 

RTX 5070

 

 

與 RTX 4070 相比,NVIDIA GeForce RTX 5070 在 Shader Cores 性能提升大約是 5~6%,不過在 RT Core 和 Tensor Core 的全新 FP4 技術支援下,遊戲性能卻實現接近倍數增長,沒錯 !! 就是靠 DLSS 4 充撐場面。以下是 Blackwell GPU 的主要關鍵創新:

 

為神經渲染而生的全新 SM 單元︰大幅增強神經渲染運算能力。與 NVIDIA Ada GPU 相比,NVIDIA RTX Blackwell SM 在每個時鐘週期的整數數學輸送量提高了一倍,這對於提高神經著色中至關重要的位址生成工作負載性能極為有利。

 

全新第 4 代 RT Core︰Blackwell GPU 對 RT Core 架構進行了重大革新,帶來全新的光線追蹤體驗和神經渲染技術,進一步提升圖形性能。

 

全新第 5 代Tensor Core︰引入全新的 FP4 功能,能將 AI 輸送量提升一倍,同時將記憶體需求減半。此外,Blackwell 的數據中心級 GPU 還搭載第二代 FP8 Transformer 引擎,進一步提升處理效能。

 

NVIDIA DLSS 4︰全新 NVIDIA RTX Blackwell 架構支援 AI 多幀生成功能,能將 DLSS 4 的幀速率提升至上一代 DLSS 3/3.5 的兩倍,同時保持甚至超越原生畫質,並確保低系統延遲。

 

RTX 神經著色器︰引入小型神經網路至可程式設計著色器,開啟 GPU 圖形運算的新時代,為遊戲開發者提供更靈活的創作工具。

 

AI 管理處理器(AMP) - AMP 支援多個 AI 模型(包括語音、翻譯、視覺、動畫、行為等)與圖形工作負載同時共用 GPU,提升多任務處理能力。

 

GDDR7 Memory - GDDR7 ︰採用全新的超低電壓 GDDR 顯存標準,並使用 PAM3(脈衝幅度調製)信號技術,實現更高速的顯存子系統,同時進一步提升能效。

 

Mega Geometry 技術︰一種新的 RTX 技術,旨在大幅提升光線追蹤應用中的幾何細節,帶來更逼真的視覺效果。

 

 

GeForce RTX 5070 定價 US$549

 

 RTX 5090

 

 

售價方面,GeForce RTX 5070 官方 MSRP 為 US$549。據聞,由於 RTX 5070 發布時間相對倉促,許多 AIC 無法在發布日準時推出卡,因此建議消費者不要急於購買炒價產品,可以先觀望 AMD Radeon RX 9070 / RX 9070 XT 的表現再作決定。

 

 

TSMC 4N 制程、NVIDIA GB205 繪圖核心

 

GeForce RTX 5070 採用再低一階的 GB205 繪圖核心、同樣基於 Blackwell 微架構,由於今代仍維持採用 TSMC 4N 制程,CUDA Core 運算單元的數目提升幅度相當有限,加上時脈亦相差無幾,因此傳統光柵圖形運算性能只有輕微提升,主要的遊戲性能提升來自於 DLSS 4 的 Multi Frame Gen 技術,所以大家不要對它的遊戲性能成長抱有太大期望。

 

 

RTX 5070

▲ NVIDIA GB205 Block Diagram

 

 

 

GB205 GPU 晶片尺寸為 263mm²、電晶體數目為 311 億個,數字相較 AD104 略為縮減。完整的 GB205 晶片包含 5 個圖形處理集群 (GPC)、25 個紋理處理集群 (TPC)、50 個串流多處理器 (SM),總計 6,400 個 CUDA Cores、50 個 RT Cores、200 個 Tensor Cores、200 個 Texture Units 及 80 個 ROPs。

 

GB205 GPU 還包括 100 個 FP64 核心(每個 SM 配備兩個),這些核心並未被描繪在結構圖中。此外,FP64 的 TFLOP 速率為 FP32 操作 TFLOP 速率的 1/64,並包含少量 FP64 核心及極少量的 FP64 Tensor Core,以確保任何包含 FP64 代碼的程式能夠正常運行。

 

值得注意的是,由於 NVIDIA 在 Blackwell GPU 微架構中刪去舊有 32-bit 作業系統的 CUDA 函式庫支援,當中包括了 32-bit 的 PhysX 支援,部分舊遊戲可能無法運行。儘管舊遊戲可以切換至使用 CPU 進行 PhysX 運算,但其物理運算效果將明顯下降,喜歡玩舊遊戲的玩家需要注意這一點。

 

 

RTX 5070

 

 

GeForce RTX 5070 採用被刪減的 GB205-300 晶片,僅包含 5 個圖形處理集群 (GPC)、24 個紋理處理集群 (TPC)、48 個串流多處理器 (SM),總計 6,144 個 CUDA Cores、48 個 RT Cores、192 個 Tensor Cores、192 個 Texture Units 及 80 個 ROPs。

 

在核心時脈方面,GeForce RTX 5070 ,預設時脈僅 2,325MHz、Boost 時脈為 2,512MHz,最高 TGP 為 250W,記憶體採用了 28Gbps 的 GDDR7 顆粒,配備 192-bit 記憶體介面、總頻寬為 672GB/s。

 

 

GeForce RTX 5070 vs GeForce RTX 4070 / 4070 SUPER vs GeForce RTX 3070 Specs

Graphics CardGeForce
RTX 3070
GeForce
RTX 4070
GeForce
RTX 4070 SUPER
GeForce
RTX 5070
GPU CodenameGA104AD104AD104GB205
GPU ArchitectureNVIDIA AmpereNVIDIA Ada LovelaceNVIDIA Ada LovelaceNVIDIA Blackwell
GPCs6555
TPCs23232824
SMs46465648
CUDA Cores / SM128128128128
CUDA Cores / GPU5888588871686144
Tensor Cores / SM4 (3rd Gen)4 (4th Gen)4 (4th Gen)4 (5th Gen)
Tensor Cores / GPU184 (3rd Gen)184 (4th Gen)224 (4th Gen)192 (5th Gen)
RT Cores46 (2nd Gen)46 (3rd Gen)56 (3rd Gen)48 (4th Gen)
GPU Boost Clock (MHz)1725247524752512
Peak FP32 TFLOPS (non-Tensor)20.329.135.530.9
Peak FP16 TFLOPS (non-Tensor)20.329.135.530.9
Peak BF16 TFLOPS (non-Tensor)20.329.135.530.9
Peak INT32 TOPS (non-Tensor)10.214.617.830.9
RT TFLOPS39.767.482.193.6
Peak FP4 Tensor TFLOPS with FP32 Accumulate (FP4 AI TOPS)N/AN/ANA493.9 / 987.8
Peak FP8 Tensor TFLOPS with FP16 AccumulateN/A233.2 / 466.4283.9 / 567.8246.9 / 493.9
Peak FP8 Tensor TFLOPS with FP32 AccumulateN/A116.6 / 233.2141.9 / 283.9123.5 / 246.9
Peak FP16 Tensor TFLOPS with FP16 Accumulate81.3 / 162.6116.6 / 233.2141.9 / 283.9123.5 / 246.9
Peak FP16 Tensor TFLOPS with FP32 Accumulate40.6 / 81.258.3 / 116.6

71.0 / 141.9

61.7 / 123.5
Peak BF16 Tensor TFLOPS with FP32 Accumulate40.6 / 81.258.3 / 116.671.0 / 141.961.7 / 123.5
Peak TF32 Tensor TFLOPS20.3 / 40.629.1 / 58.235.5 / 71.030.9 / 61.7
Peak INT8 Tensor TOPS162.5 / 325233.2 / 466.4283.9 / 567.8246.9 / 493.9
Frame Buffer Memory Size and Type8 GB GDDR612 GB GDDR6X12 GB GDDR6X12 GB GDDR7
Memory Interface256-bit192-bit192-bit192-bit
Memory Clock (Data Rate)14 Gbps21 Gbps21 Gbps28 Gbps
Memory Bandwidth448 GB/sec504 GB/sec504 GB/sec672 GB/sec
ROPs96648080
Pixel Fill-rate165.6158.4198.0201
Texture Units184184224192
Texture Fill-rate317.4455.4554.4482.3
L1 Data Cache/Shared Memory5888 KB5888 KB7168 KB6144 KB
L2 Cache Size4096 KB36864 KB49152 KB49152 KB
Register File Size11776 KB11776 KB14336 KB12288 KB
Video Engines1 x NVENC (7th Gen), 1 x NVDEC (5th Gen)1 x NVENC (8th Gen), 1 x NVDEC (5th Gen)1 x NVENC (8th Gen), 1 x NVDEC (5th Gen)1 x NVENC (9th Gen), 1 x NVDEC (6th Gen)
TGP (Total Graphics Power)220 W200 W220 W250 W
Transistor Count17.4 Billion35.8 Billion35.8 Billion31.1 Billion
Die Size392.5 mm²294.5 mm²294.5 mm²263 mm²
Manufacturing ProcessSamsung 8 nm 8N
NVIDIA Custom Process
TSMC 4nm 4N
NVIDIA Custom Process
TSMC 4nm 4N
NVIDIA Custom Process
TSMC 4nm 4N
NVIDIA Custom Process
PCI Express InterfaceGen 4Gen 4Gen 4Gen 5

 

◾Peak rates are based on GPU Boost Clock

◾Effective TOPS / TFLOPS using the Sparsity Feature

發表評論