2018-10-18
全新 TU106 繪圖核心
GALAX GeForce RTX 2070 登場
文: John Lam / 評測中心


NVIDIA正式發佈新一代「Turing」GPU微架構效能級繪圖卡「GeForce RTX 2070」,採用全新12nm FFN制程的「TU106」繪圖核心,內含108億個電晶體、2,304個CUDA Cores,更新增 Tensor Core 及 RT Core 運算單元,帶來革命性 AI 運算及光射追踪渲染,性能超越上代 GeForce GTX 1080,定價 US$ 499 美元、戰力十足。



全新的 Turing SM 架構

 

NVIDIA「TU106」繪圖核心採用全新「Turing」GPU 微架構,當中包括了「Volta」GPU 微架構中引入的多項新功能,每個 TPC 擁有 2 組 SM 模組,每個 SM 模組內共有 64 個 FP32、64 個 INT32 運算單元,具備 FP32 與 INT32  運算並行能力,與「Volta」GPU 微架構的獨立線程調度設計非常類似,同時還內建了 8 個混合精度的 Tensor Cores 及 1 個專門作光線追蹤運算的 RT Core。

 

TU102

 

全新的「Turing」SM 模組內部劃分為 4 個區塊,每個區塊擁有 16 個 FP32 運算單元、16 個 INT32 運算單元、2 個 Tensor 核心,1 個 Warp 調度器及 1 個 Dispatch 調度單元,每個區塊擁有 1 個全新的 L0 Instruction Cache 及64KB Register File 暫存器,整個 SM 則共享 1 組 96KB L1 Data Cache 或用作 Shared Memory。

 

TU102

 

「Turing」SM 模組其中一個重大改良是核心的數據執行路徑,現時的著色器工作負載通常混合使用 FP 運算指令 (FADD/FMAD) 及簡單的 INT 運算指令,INT 指令常見用於尋址和獲取數據的整數加法、浮點比較、用於處理結果的最小/最大值等等,以往「Pascal」SM 模組只要處理非 FP 運算,整個浮點執行數據路徑就會處於閒置狀態,「Turing」SM 模組就特別新增多一組 INT 數據執行路徑,令 FP 運算與 INT 運算可以並行處理,令整體指令吞吐量性能提升約 36%。

 

TU102

 

此外,「Turing」SM 架構改用 L1 Cache、Texture Cache 及 Share Memory 整合的全新統一共享緩存設計,同時容許 Share Memory 容量重新配置以擴大規模,令 L1 Cache 大小可提升至最高 64KB,新設計可將 L1 Cache 與Share Memory 性能進一步提高,同時簡化了編程所需的調度優化需求,相較上代「Pascal」 的 L1 Cache 頻寬提升達 1 倍並大幅降低了延遲。

 

整體而言,「Turing」SM 架構透過大幅的改良 CUDA Cores 部份,相較上代「Pascal」的 CUDA Cores 在性能方面能夠提升達 50% 甚至更高。

分享到:
發表評論