NVIDIA 發佈全新主流級 GeForce RTX 4060 Ti 顯示卡,採用 AD106-350 繪圖核心、具備 4,352 個 CUDA Core、34 個 RT Core 及 128 個 Tensor Core,8GB GDDR6 記憶體但只有 128bit 介面真的夠嗎 !? NVIDIA 表示在 DLSS 3 下性能較 RTX 3060 Ti 快 70%,那沒有 DLSS 呢 ? HKEPC 找來 RTX 3060 Ti / 3070 Ti 與 RTX 4060 Ti 進行比對測試。
GeForce RTX 4060 系列登場
NVIDIA 正式發佈主流級 GeForce RTX 4060 顯示卡系列,採用 AD106 繪圖核心、共三款 SKU 包括 GeForce RTX 4060、GeForce RTX 4060 Ti 與 GeFoorce RTX 4060 Ti 16GB 版本,24 日率先登場是 GeForce RTX 4060 Ti,其餘型號則會在 7 月上市,RTX 4060 Ti 官方定價已確定,8GB 版本為 US$399 美元 、16GB 版本為 US$499 美元,RTX 4060 還沒公佈、看來是要先等 RX 7600 上市才定價 。
NVIDIA GeForce RTX 4060 採用了 AD106-350 繪圖核心,擁有 4,352 個 CUDA Core、128bit 介面與 8GB GDDR6 記憶體容量,定價 US$399 將取代沿有 GeForce RTX 3060 Ti 地位,定位 1080p 遊戲市場在光追特效全開下,透過 DLSS3 技術加持可達成 100fps+ 性能表現,更重是整卡功耗降至 160W TGP,性能功耗比更上一層樓。
對比 RTX 4070 相較 RTX 3070 有 30% 的性能升幅,RTX 4060 Ti 明顯小氣得多,據 NVIDIA 官方數據指示,RTX 4060 Ti 與 RTX 3060 Ti 真實性能相當接近,當 RTX 4060 Ti 啟動 RT + DLSS 後性能相較上代 RTX 3060 Ti 快 15%,當啟用 RT + DLSS 3 Frame Gen 後,GeForce RTX 4060 Ti 才能拉開與 GeForce RTX 3060 Ti 的距離、性能提升 70%,因此 GeForce RTX 4060 Ti 在遊戲市場要取得銷售成功,很大程度視乎 NVIDIA DLSS 3 技術的普及程度。
TSMC 4N 制程、NVIDIA AD106-350 繪圖核心
NVIDIA AD106 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4060 與 RTX 4060 Ti 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
▲ NVIDIA AD106-300 Block Diagram
採用 TSMC 4N NVIDIA Custom 制程,擁有 229 億個電晶體、 Die Size 190.2mm² 與上代 GeForce RTX 3060 Ti 的 GA104-200 Die Size 392mm² 相若,完整的 AD106 晶片內建 3 個 GPC 單元、 18 個 TPC 紋理處理群集及 36 個 SM 串流多處理器,具備 4,608 個 CUDA Cores、36 個 RT Cores、144 個 Tensor Cores、144 個 Texture Unit 及 48 個 ROP。
▲ NVIDIA AD106 繪圖核心
GeForce RTX 4060 Ti 採用 AD106-300 繪圖核心作出了刪減,保持 3 個 GPC 單元但減至 17 個 TPC 紋理處理群集及 34 個 SM 串流多處理器,具備 4,352 個 CUDA Cores、24 個 RT Cores、128 個 Tensor Cores、128 個 Texture Unit 及 48 個 ROP。
核心時脈方面,採用 TSMC 4N 制程令這代 Ada Lovelace 的核心時脈可大幅升,NVIDIA GeForce RTX 4060 Ti FE 預設時脈 2,310MHz、Boost 時脈為 2,535MHz,較高的 GPU 時脈彌補 CUDA 數目下降,最高 TDP 為 160W 相較上代 RTX 3060 Ti 降低了 40W。
值得注意的是,AD106 僅支援 PCIe 4.0 x8 介面,如果使用在 PCIe 3.0 舊平台只能運作於 PCIe 3.0 x8,有機會引致 PCIe 頻寬不足問題令性能略為下降,建議搭配 PCIe 4.0 主機板使用。
劈一半!! 僅 128bit 介面真的夠用嗎 ?
相較上代 RTX 3060 Ti 擁有 256bit 記憶體,今代 RTX 4060 Ti 竟然劈去一半只有 128bit,因此最高記憶體頻寬由 448GB/s 下降至只有 288GB/s,不過 Ada Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3060 Ti 的 L2 Cache 僅 3072 KB (3MB),RTX 4060 Ti 則大幅提升至 32768KB (32MB),據 NVIDIA 指出能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6 記憶體頻寬使用。
為何 L2 Cache 增加能減少記憶體頻寬的需求呢 ? 其實在運算過程中,GPU 內部的 SM 單元在運算時會先查找 L1 Cache 的數據,L1 Cache 中找到數據則無需訪問 L2 Cache。如果在 L1 沒有命中則耍要在 L2 Cache 中查找。如果 L2 Cache 有就將數據回傳至 L1 Cache,如果 L2 也找不到就需要到 VRAM 中存取了,但這樣會造成很大的 GPU 讀取延,導致 GPU 運算單元需要閒置等待資料載入。
GeForce RTX 40 其中一個改良是增大了 L2 Cache 的緩存容量,相較上代同級產品增加了 10 倍,極大提高了 L2 Cache 緩存命中率,不僅減低了GPU 資料讀取延遲,同時亦減少了需要到 VRAM 中存取的數目。
根據 NVIDIA 研究指出,當 L2 Cache 由 2MB 增至 32MB,其 VRAM 的頻寬需求平均降低了 50%,在沒有光追下性能提升了 18%、啟動 RT 下性能提升了 25%,如果啟動了 DLSS 3 性能提升 34%。
為免讓消費者誤會記憶體介面大幅下降,NVIDIA 這次也抄了 AMD Infinity Cache 的做法,GeForce RTX 4060 Ti 除了標示了 288GB/s 真實記憶體頻寬,同時備注了 554 GB/s 等效記憶體頻寬,意思是 32MB L2 的 288GB/s 記憶體頻寬,效能與 2MB L2 下 554GB /s 記憶體頻寬相若。
NVIDIA GeForce RTX 40 Family Full Specifications
Graphics Card | GeForce RTX 4060 Ti Founders Edition | GeForce RTX 4070 Founders Edition | GeForce RTX 4070 Ti Founders Edition | GeForce RTX 4080 Founders Edition | GeForce RTX 4090 Founders Edition |
GPU Codename | AD106 | AD104 | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace | NVIDIA Ada Lovelace |
GPCs | 3 | 4 | 5 | 7 | 11 |
TPCs | 17 | 23 | 30 | 38 | 64 |
SMs | 34 | 46 | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 | 128 | 128 |
CUDA Cores / GPU | 4352 | 5888 | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 128 (4th Gen) | 184 (4th Gen) | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 34 (3rd Gen) | 46 (3rd Gen) | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
Frame Buffer Memory Size and Type | 8GB GDDR6 | 12GB GDDR6X | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 128-bit | 192-bit | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 18 Gbps | 21 Gbps | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 288 GB/sec | 504 GB/sec | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 48 | 64 | 80 | 112 | 176 |
L1 Data Cache/SharedMemory | 4352 KB | 5888 KB | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 32768 KB | 36864 KB | 49152 KB | 65536 KB | 73728 KB |
Register File Size | 8832 KB | 11776 KB | 15360 KB | 19456 KB | 32768 KB |
Video Engines | 1x NVENC (Gen 8) 1x NVDEC (Gen 5) | 1x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1x NVDEC (Gen 5) | 2x NVENC (Gen 8) 1X NVDEC (Gen 5) |
TGP Power | 160W | 200W | 285W | 320W | 450W |
Transistor Count | 22.1 Billion | 35.8 Billion | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 190.2mm² | 294.5mm² | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing Process | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 x8 | Gen4 x16 | Gen4 x16 | Gen4 x16 | Gen4 x16 |