2019-02-22
沒有 RTX 的 Turing GPU
GALAX GeForce GTX 1660 Ti 繪圖卡
文: John Lam / 評測中心


NVIDIA 推出全新「GeForce GTX 1660 Ti」主流級級繪圖卡,採用新一代「Turing」GPU 微架構、TSMC 12nm 制程,內建 1,536 CUDA Core、 96 個 Texture Unit, GPU 微架構層面改進令性能相較上代 GTX 1060 6GB 明顯提升,但省去了 RT Core 與 Tensor Core 運算單元,在功能上與 RTX 系列作出區間,官方定價約 US$279 美元。



全新「Turing」SM 架構

 

NVIDIA 「TU116-400」繪圖核心採用新一代「Turing」GPU 微架構,每個 TPC 擁有 2 組 SM 模組,每個 SM 模組內共有 64 個 FP32、64 個 INT32 運算單元,具備 FP32 與 INT32 運算並行能力,但省略了 8 個混合精度的 Tensor Cores 及 1 個專門作光線追蹤運算的 RT Core,成為與 RTX 系列 GPU 的主要差異。

 

1666Ti

 

每個 SM 模組內擁有劃分為 4 個區塊,每個區塊擁有 16 個 FP32 運算單元、16 個 INT32 運算單元,1 個 Warp 調度器及 1 個 Dispatch 調度單元,每個區塊擁有 1 個全新的 L0 Instruction Cache 及 64KB Register File 暫存器,整個 SM 則共享 1 組 64KB L1 Data Cache 或用作 Shared Memory。

 

整體而言,「Turing」SM 架構大幅改良 CUDA Cores 部份,相較上代「Pascal」的 CUDA Cores 在性能方面能夠提升達 50% 甚至更高。

 

 

 

INT、FP 同步運算

 

「Turing」SM 模組其中一個重大改良是核心的數據執行路徑,現時的著色器工作負載通常混合使用 FP 運算指令 (FADD/FMAD) 及簡單的 INT 運算指令,INT 指令常見用於尋址和獲取數據的整數加法、浮點比較、用於處理結果的最小/最大值等等,以往「Pascal」SM 模組只要處理非 FP 運算,整個浮點執行數據路徑就會處於閒置狀態。

 

1666Ti

 

全新「Turing」SM 模組就特別新增多一組 INT 數據執行路徑,令 FP 運算與 INT 運算可以並行處理,令整體指令吞吐量性能提升約 38%。以 Shadow of the Tomb Raider 遊戲為例,平均每 100 個指令有 38 個屬於 INT 指令,舊有 GTX 1060 6GB 需要 100 個 Instructions Slots Time,新一代 GTX 1660 Ti 降至只需 62 個,在微架構層面上達成性能提升。

 

1666Ti

 

此外,新一代「Turing」SM 架構,FP32 單元可以在單一週期可以處理兩個 FP16 指令,相較上代「Pascal」SM 架構 FP16 性能提升了 1 倍,越來越多遊戲使用 FP16 指令來創建不需要高精度的特效,例如 Far Cry 5 的水模擬效果便是採用 FP16 指令,上代 GTX 1060 6GB 的 FP16 運算能力為 4.4 TFLOPS,全新 GeForce GTX 1660 Ti 大幅提升 11 TFLOPS。

 

 

 

Unified Share L1 Cache 設計

 

此外,NVIDIA「Turing」SM 架構改用全新 Unified Share L1 Cache,今代增至兩組 Load / Store Unit,同時將 Load Store 頻寬由 16Bytes 增至 32Bytes,令頻寬上較上代提升了 4 倍,更將 L1 Cache、Texture Cache 及 Share Memory 整合的全新統一共享緩存設計,同時容許 Share Memory 容量重新配置因應需求擴大規模。 

 

1666Ti

 

 

L1 Cache 大小由上代 24KB 可提升至最高 64KB,新設計可將 L1 Cache 與 Share Memory 性能進一步提高,同時簡化了編程所需的調度優化需求,相較上代「Pascal」 的 L1 Cache 頻寬提升達 1 倍並大幅降低了延遲。以 Call of Duty Black Ops4 為例,主要受惠於全新 Cache 架構改良,GeForce GTX 1660 Ti 相較上代 GTX 1060 6GB,性能提升約 50%。

分享到:
發表評論