2023-05-23
US$399、128bit 介面夠用嗎 !?
NVIDIA GeForce RTX 4060 Ti FE 顯示卡實測
文: John Lam / 台北出差中


NVIDIA 發佈全新主流級 GeForce RTX 4060 Ti 顯示卡,採用 AD106-350 繪圖核心、具備 4,352 個 CUDA Core、34 個 RT Core 及 128 個 Tensor Core,8GB GDDR6 記憶體但只有 128bit 介面真的夠嗎 !? NVIDIA 表示在 DLSS 3 下性能較 RTX 3060 Ti 快 70%,那沒有 DLSS 呢 ? HKEPC 找來 RTX 3060 Ti / 3070 Ti 與 RTX 4060 Ti 進行比對測試。



GeForce RTX 4060 系列登場

 

NVIDIA 正式發佈主流級 GeForce RTX 4060 顯示卡系列,採用 AD106 繪圖核心、共三款 SKU 包括 GeForce RTX 4060、GeForce RTX 4060 Ti 與 GeFoorce RTX 4060 Ti 16GB 版本,24 日率先登場是 GeForce RTX 4060 Ti,其餘型號則會在 7 月上市,RTX 4060 Ti 官方定價已確定,8GB 版本為 US$399 美元 、16GB 版本為 US$499 美元,RTX 4060 還沒公佈、看來是要先等 RX 7600 上市才定價 。

 

 

RTX 4060 Ti

 

 

NVIDIA GeForce RTX 4060 採用了 AD106-350 繪圖核心,擁有 4,352 個 CUDA Core、128bit 介面與 8GB GDDR6 記憶體容量,定價 US$399 將取代沿有 GeForce RTX 3060 Ti 地位,定位 1080p 遊戲市場在光追特效全開下,透過 DLSS3 技術加持可達成 100fps+ 性能表現,更重是整卡功耗降至 160W TGP,性能功耗比更上一層樓。

 

 

RTX 4060 Ti

 

 

對比 RTX 4070 相較 RTX 3070 有 30% 的性能升幅,RTX 4060 Ti 明顯小氣得多,據 NVIDIA 官方數據指示,RTX 4060 Ti 與 RTX 3060 Ti 真實性能相當接近,當 RTX 4060 Ti 啟動 RT +  DLSS 後性能相較上代 RTX 3060 Ti 快 15%,當啟用 RT +  DLSS 3 Frame Gen 後,GeForce RTX 4060 Ti 才能拉開與 GeForce RTX 3060 Ti 的距離、性能提升 70%,因此 GeForce RTX 4060 Ti 在遊戲市場要取得銷售成功,很大程度視乎 NVIDIA DLSS 3 技術的普及程度。

 

 

 

TSMC 4N 制程、NVIDIA AD106-350 繪圖核心

 

NVIDIA  AD106 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4060 與 RTX 4060 Ti 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。

 

 

RTX 4060 Ti

▲ NVIDIA AD106-300 Block Diagram

 

 

採用 TSMC 4N NVIDIA Custom 制程,擁有 229 億個電晶體、 Die Size 190.2mm² 與上代 GeForce RTX 3060 Ti 的 GA104-200 Die Size 392mm² 相若,完整的 AD106 晶片內建 3 個 GPC 單元、 18 個 TPC 紋理處理群集及 36 個 SM 串流多處理器,具備 4,608 個 CUDA Cores、36 個 RT Cores、144 個 Tensor Cores、144 個 Texture Unit 及 48 個 ROP。

 

 

NVIDIA GeForce RTX 4060 Ti FE

▲ NVIDIA AD106 繪圖核心

 

 

GeForce RTX 4060 Ti 採用 AD106-300 繪圖核心作出了刪減,保持 3 個 GPC 單元但減至 17 個 TPC 紋理處理群集及 34 個 SM 串流多處理器,具備 4,352 個 CUDA Cores、24 個 RT Cores、128 個 Tensor Cores、128 個 Texture Unit 及 48 個 ROP。

 

核心時脈方面,採用 TSMC 4N 制程令這代 Ada Lovelace 的核心時脈可大幅升,NVIDIA GeForce RTX 4060 Ti FE 預設時脈 2,310MHz、Boost 時脈為 2,535MHz,較高的 GPU 時脈彌補 CUDA 數目下降,最高 TDP 為 160W 相較上代 RTX 3060 Ti 降低了 40W。

 

值得注意的是,AD106 僅支援 PCIe 4.0 x8 介面,如果使用在 PCIe 3.0 舊平台只能運作於 PCIe 3.0 x8,有機會引致 PCIe 頻寬不足問題令性能略為下降,建議搭配 PCIe 4.0 主機板使用。

 

 

劈一半!! 僅 128bit 介面真的夠用嗎 ?

 

相較上代 RTX 3060 Ti 擁有 256bit 記憶體,今代 RTX 4060 Ti 竟然劈去一半只有 128bit,因此最高記憶體頻寬由 448GB/s 下降至只有 288GB/s,不過 Ada Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3060 Ti 的 L2 Cache 僅 3072 KB (3MB),RTX 4060 Ti 則大幅提升至 32768KB (32MB),據 NVIDIA 指出能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6 記憶體頻寬使用。

 

 

RTX 4060 Ti

 

 

為何 L2 Cache 增加能減少記憶體頻寬的需求呢 ? 其實在運算過程中,GPU 內部的 SM 單元在運算時會先查找 L1 Cache 的數據,L1 Cache 中找到數據則無需訪問 L2 Cache。如果在 L1 沒有命中則耍要在 L2 Cache 中查找。如果 L2 Cache 有就將數據回傳至 L1 Cache,如果 L2 也找不到就需要到 VRAM 中存取了,但這樣會造成很大的 GPU 讀取延,導致 GPU 運算單元需要閒置等待資料載入。

 

 

RTX 4060 Ti

 

 

GeForce RTX 40 其中一個改良是增大了 L2 Cache 的緩存容量,相較上代同級產品增加了 10 倍,極大提高了 L2 Cache 緩存命中率,不僅減低了GPU 資料讀取延遲,同時亦減少了需要到 VRAM 中存取的數目。

 

 

RTX 4060 Ti

 

 

 

根據 NVIDIA 研究指出,當 L2 Cache 由 2MB 增至 32MB,其 VRAM 的頻寬需求平均降低了 50%,在沒有光追下性能提升了 18%、啟動 RT 下性能提升了 25%,如果啟動了 DLSS 3 性能提升 34%。

 

為免讓消費者誤會記憶體介面大幅下降,NVIDIA 這次也抄了 AMD Infinity Cache 的做法,GeForce RTX 4060 Ti 除了標示了 288GB/s 真實記憶體頻寬,同時備注了 554 GB/s 等效記憶體頻寬,意思是 32MB L2 的 288GB/s 記憶體頻寬,效能與 2MB L2 下 554GB /s 記憶體頻寬相若。

 

 

 

NVIDIA GeForce RTX 40 Family Full Specifications

Graphics CardGeForce
RTX 4060 Ti
Founders Edition
GeForce
RTX 4070
Founders Edition
GeForce
RTX 4070 Ti
Founders Edition
GeForce
RTX 4080
Founders Edition
GeForce
RTX 4090
Founders Edition
GPU CodenameAD106AD104AD104AD103AD102
GPU ArchitectureNVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
NVIDIA
Ada Lovelace
GPCs345711
TPCs1723303864
SMs34466076128
CUDA Cores / SM128128128128128
CUDA Cores / GPU435258887680972816384
Tensor Cores / SM4 (4th Gen)4 (4th Gen)4 (4th Gen)4 (4th Gen)4 (4th Gen)
Tensor Cores / GPU128 (4th Gen)184 (4th Gen)240 (4th Gen)304 (4th Gen)512 (4th Gen)
RT Cores34 (3rd Gen)46 (3rd Gen)60 (3rd Gen)76 (3rd Gen)128 (3rd Gen)
Frame Buffer Memory Size and Type8GB GDDR612GB GDDR6X12GB GDDR6X16GB GDDR6X24GB
GDDR6X
Memory Interface128-bit192-bit192-bit256-bit384-bit
Memory Clock (Data Rate)18 Gbps21 Gbps21 Gbps22.4 Gbps21 Gbps
Memory Bandwidth288 GB/sec504 GB/sec504 GB/sec716.8 GB/sec1008 GB/sec
ROPs486480112176
L1 Data Cache/SharedMemory4352 KB5888 KB7680 KB9728 KB16384 KB
L2 Cache32768 KB36864 KB49152 KB65536 KB73728 KB
Register File Size8832 KB11776 KB15360 KB19456 KB32768 KB
Video Engines1x NVENC (Gen 8)
1x NVDEC (Gen 5)
1x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1x NVDEC (Gen 5)
2x NVENC (Gen 8)
1X NVDEC (Gen 5)
TGP Power160W200W285W320W450W
Transistor Count22.1 Billion35.8 Billion35.8 Billion45.9 Billion76.3 Billion
Die Size190.2mm²294.5mm²294.5mm²378.6mm²608.5mm²
Manufacturing ProcessTSMC 4NTSMC 4NTSMC 4NTSMC 4NTSMC 4N
PCIe InterfaceGen4 x8Gen4 x16Gen4 x16Gen4 x16Gen4 x16

 

發表評論