2018-09-20
全新 TU102 繪圖核心
GALAX GeForce RTX 2080 Ti 登場
文: John Lam / 評測中心


NVIDIA 正式發佈新一代「Turing」GPU 微架構旗艦級繪圖卡「GeForce RTX 2080 Ti」,它是近十多年來 GPU 最大的架構躍進,基於全新 12nm FFN 制程的「TU102」繪圖核心,高達 186 億個電晶體、內建 4,352 個 CUDA Cores,首次加入 Tensor Core 及 RT Core 運算單元,帶來革命性 AI 運算及光射追踪渲染,不僅性能表現進一步提升,更將 PC 遊戲畫質帶進另一個層次。



NVIDIA「TU102」繪圖核心

 

NVIDIA「TU102」繪圖核心是「Turing」GPU 微架構中最高階的產品,「TU104」和「TU106」則採用與「TU102」相同的基本架構,並按市場需求及價格定位按比例作出縮減,完整的「TU102」晶片內包括了 6 個 GPC 圖形處理群,36 個 TPC 紋理處理群集及 72 個 SM 串流多處理器。

 

每個 GPC 內擁有一組獨立的 Raster Engine 光柵處理引擎及 6 個 TPC 紋理處理群集,每個 TPC 群集包含 2 個 SM 模組,每個 SM 內建 64 個 CUDA Cores、8 個 Tensor Cores、1 個 RT Cores、256KB Register File 及 4 個 Texture Units,並擁有 96KB L1 Cache/Shared Memory 可因應運算或圖形工作負載作出可改變的配置。

 

TU102

 

 

「TU102」繪圖核心每個 SM 單元具備兩個 FP64 運算單元,總數合共 144 個 FP64 運算單元,但圖中並沒有標示出來,它的作用是確保 FP64 代碼的程式可以正常運作,但並非主要的硬體運算單元。

 

內建 12 個 32 bit GDDR6 記憶體控制器、總共 384bit 記憶體頻寬,每個記憶體控制器綁定 8 個 ROP 單元及 512KB L2 Cache,完整的「TU102」晶片合共擁有 96 個 ROP 單元及 6,144KB L2 Cache。

 

  GeForce RTX 2080 TiQuadro RTX 6000
GPCs66
TPCs3436
SMs6872
CUDA Cores4,3524,608
Tensor Cores544576
RT Cores6872
Memory Type11GB GDDR624GB GDDR6
Memory Interface352-bit384-bit
Memory Speed14Gbps14Gbps
Memory Bandwidth616GB/s672GB/s
ROPs8896
Texture Unit272288
L2 Cache5,632KB6,144KB
Register File17,408KB18,432KB

 

值得注意的是,暫時僅「Quadeo RTX 6000」繪圖卡擁有完整「TU102」繪圖核心規格,針對 3D 遊戲市場的「GeForce RTX 2080 Ti」所採用的是「TU102-300」繪圖核心,部份運算單元、記憶體控制器將被屏蔽。

 

 

 

全新的 Turing SM 架構

 

NVIDIA「TU102」繪圖核心採用全新「Turing」GPU 微架構,當中包括了「Volta」GPU 微架構中引入的多項新功能,每個 TPC 擁有 2 組 SM 模組,每個 SM 模組內共有 64 個 FP32、64 個 INT32 運算單元,具備 FP32 與 INT32  運算並行能力,與「Volta」GPU 微架構的獨立線程調度設計非常類似,同時還內建了 8 個混合精度的 Tensor Cores 及 1 個專門作光線追蹤運算的 RT Core。

 

TU102

 

全新的「Turing」SM 模組內部劃分為 4 個區塊,每個區塊擁有 16 個 FP32 運算單元、16 個 INT32 運算單元、2 個 Tensor 核心,1 個 Warp 調度器及 1 個 Dispatch 調度單元,每個區塊擁有 1 個全新的 L0 Instruction Cache 及64KB Register File 暫存器,整個 SM 則共享 1 組 96KB L1 Data Cache 或用作 Shared Memory。

 

TU102

 

「Turing」SM 模組其中一個重大改良是核心的數據執行路徑,現時的著色器工作負載通常混合使用 FP 運算指令(FADD/FMAD) 及簡單的 INT 運算指令,INT 指令常見用於尋址和獲取數據的整數加法、浮點比較、用於處理結果的最小/最大值等等,以往「Pascal」SM 模組只要處理非 FP 運算,整個浮點執行數據路徑就會處於閒置狀態,「Turing」SM 模組就特別新增多一組 INT 數據執行路徑,令 FP 運算與 INT 運算可以並行處理,令整體指令吞吐量性能提升約 36%。

 

TU102

 

此外,「Turing」SM 架構改用 L1 Cache、Texture Cache 及 Share Memory 整合的全新統一共享緩存設計,同時容許 Share Memory 容量重新配置以擴大規模,令 L1 Cache 大小可提升至最高 64KB,新設計可將 L1 Cache 與Share Memory 性能進一步提高,同時簡化了編程所需的調度優化需求,相較上代「Pascal」 的 L1 Cache 頻寬提升達 1 倍並大幅降低了延遲。

 

整體而言,「Turing」SM 架構透過大幅的改良 CUDA Cores 部份,相較上代「Pascal」的 CUDA Cores 在性能方面能夠提升達 50% 甚至更高。

分享到:
發表評論