NVIDIA 正式發佈全新 GeForce RTX 4070 顯示卡,採用 AD104-250 繪圖核心,具備 5,888 個 CUDA Core、46 個 RT Core 及 184 個 Tensor Core,擁有 192bit 介面、12GB GDDR6X 記憶體,最高TDP 僅 200W,定價 US$599,NVIDIA 表示在 DLSS 3 下性能是 RTX 3080 的 140%,那沒有使用 DLSS 呢 ? HKEPC 找來 RTX 3070 / 3070 Ti / 3080 與 RTX 4070 / 4070 Ti 進行比對測試。
NVIDIA GeForce RTX 4070 系列登場
NVIDIA 13 日正式發佈效能級 GeForce RTX 4070 顯示卡,採用 AD104-250 繪圖核心,擁有 5,888 個 CUDA Core、192bit 介面與 12GB GDDR6X 記憶體容量,定價 US$599 將取代沿有 GeForce RTX 3070 Ti 地位,定位 2K 遊戲市場在光追特效全開下,透過 DLSS3 技術加持可達成 100fps+ 性能表現,更重是整卡功耗降至 200W TGP,相較上代 RTX 3070 Ti 高達 290W TGP,性能功耗比得到進一步改善。
分析 NVIDIA GeForce RTX 4070 晶片設計方向,雖然在 Shader 運算 (29 TOPS) 及 RT 運算 (67 TOPS) 性能較 RTX 3070 Ti 有所提升,但更明顯的進步在於 Tensor 矩陣運算 (466 TOPS) 與 OFA 光流加速運算 ( 300 TOPS) 能力上,因此在啟動 DLSS 後的遊戲性能增加更為明顯,同時提供更強的 AI 運算能力。
沒錯,GeForce RTX 4070 的性能提升非常偏重 DLSS 3 技術,如果沒有 DLSS 3 加持呢 ? 根據 NVIDIA 官方數據指示,當啟用 DLSS 3 的 Frame Gen 後,GeForce RTX 4070 在 2K 解析度下平均較 GeForce RTX 3080 快 40%,沒有 DLSS 3 就只能和 GeForce RTX 3080 打成平手,因此 GeForce RTX 4070 在遊戲市場要取得銷售成功,很大程度視乎 NVIDIA DLSS 3 技術的普及程度。
TSMC 4N 制程、NVIDIA AD104-250 繪圖核心
NVIDIA AD104 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4070 與 RTX 4070 Ti 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技,術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
採用 TSMC 4N NVIDIA Custom 制程,擁有 358 億個電晶體、 Die Size 294.5mm² 與上代 GeForce RTX 3060 的 GA106-300 Die Size 276mm² 相約,完整的 AD104 晶片內建 5 個 GPC 單元、 30 個 TPC 紋理處理群集及 60 個 SM 串流多處理器,具備 7,680 個 CUDA Cores、60 個 RT Cores 及 240 個 Tensor Cores。
▲ NVIDIA AD104-250 Block Diagram
GeForce RTX 4070 採用 AD104-250 繪圖核心作出了刪減,降至 4 個 GPC 單元、但減至 23 個 TPC 紋理處理群集及 46 個 SM 串流多處理器,具備 5,888 個 CUDA Cores、46 個 RT Cores、184 個 Tensor Cores、184 個 Texture Unit 及 64 個 ROP。
核心時脈方面,採用 TSMC 4N 制程令這代 Ada Lovelace 的核心時脈可大幅升,NVIDIA GeForce RTX 4070 FE 預設時脈 1,920MHz、Boost 時脈為 2,475MHz,最高 TDP 為 200W。
▲ NVIDIA AD104 繪圖核心
記憶體方面,NVIDIA GeForce RTX 4070 與 RTX 4070 Ti 一樣維持 192-bit 記憶體介面,搭配 21Gbps GDDR6X 記憶體顆粒,最高記憶體頻寬為 504GB/s,雖然上代 GeForce RTX 3070 是採用 256-bit 記憶體,但採用較慢的 14Gbps GDDR6 記憶體顆粒,記憶體頻寬只有 448GB/s,相較 GeForce RTX 4070 為低。
此外,da Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3070 的 L2 Cache 只有 4096 KB,今代 RTX 4070 則大幅提升至 36864 KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。
NVIDIA GeForce RTX 40 Family Full Specifications
Graphics Card | GeForce RTX 4070 Founders Edition | GeForce RTX 4070 Ti Founders Edition | GeForce RTX 4080 Founders Edition | GeForce RTX 4090 Founders Edition |
GPU Codename | AD104 | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace |
GPCs | 4 | 5 | 7 | 11 |
TPCs | 23 | 30 | 38 | 64 |
SMs | 46 | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 | 128 |
CUDA Cores / GPU | 5888 | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 184 (4th Gen) | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 46 (3rd Gen) | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
Frame Buffer Memory Size and Type | 12GB GDDR6X | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 192-bit | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 21 Gbps | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 504 GB/sec | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 64 | 80 | 112 | 176 |
L1 Data Cache/SharedMemory | 5888 KB | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 36864 KB | 49152 KB | 65536 KB | 73728 KB |
Register File Size | 11776 KB | 15360 KB | 19456 KB | 32768 KB |
Video Engines | 1x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1X NVDEC (Gen 5) |
TGP Power | 200W | 285W | 320W | 450W |
Transistor Count | 35.8 Billion | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 294.5mm² | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing Process | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 | Gen4 | Gen4 | Gen4 |