2020-09-16
全新 AMPERE GPU 微架構
NVIDIA GeForce RTX 3080 FE 繪圖卡
文: John Lam / 評測中心


NVIDIA 正式發佈全新「GeForce RTX 3080」繪圖卡,採用全新「GA-102-200」繪圖核心,升級新一代 Ampere GPU 微架構、增至 8,704 個 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 與10GB GDDR6X 記憶體,更換上創新的軸向式雙風扇散熱器,性能是 GeForce RTX 2080 的兩倍,官方定價 US$699、開 4K 光追順暢玩遊戲不再是夢。



經改良的 Ampere SM 架構

 

NVIDIA「GA102」繪圖核心採用全新「Ampere」GPU 微架構,其中一個主要改良是 SM 串流多處理群的設計,上代 Turing SM 首次在SM 模組內增設 INT32 運算單元,每個 SM 模組內共有 64 個 FP32 CUDA、64 個 INT32 運算單元,每個 SM 分區均擁有 1 條 FP 與 1 條 INT 數據路徑,因此每個 Turing SM 每個週期可處理 64 個 FP32 及 64 個 INT32 操作。

 

現代遊戲負載擁有更廣泛的運算需求,許多工作負載混合使用 FP32 運算指令 (例如 FFMA、FADD 及 FMUL),同時亦具備簡單的整數指令,例如尋址、加法、浮點比較,以為最大值/最小值等獲取處理結果等工作,現代遊戲的指令平例 FP 與 INT 約為100:36,因此 Ampere GPU 針對 FP32 與 INT32 運算加入更具效率的調度。

 

 

GeForce RTX 3080 FE

▲ 改良 Ampere SM 設計

 

 

全新 Ampere SM 設計將 SM 模組改為 128 個 FP32 CUDA 運算單元,其中一半兼備 INT32 運算能力,同時將每個 SM 分區的 2 組數據路徑均可用於 FP 運算,但其中 1 組可調度用於 INT 運算,因此每個 Ampere SM 每個週期可處理 128 個 FP32,或調整至 64 個 FP32、64 個 INT32 操作。

 

更改經後 Ampere 可將 FP32 運算能力提升 1 倍,面對不同的運算需求時更有彈性、更具效率,尤其在啟用  Ray Tracing 後會有更多的 FP32 運算操作,因此 Ampere GPU 在 Ray-Tracing 性能表現提升會更為明顯。

 

此外,Ampere SM 繼續支援由 Turning  GPU 微架構開始加入的雙速 FP16 (HFMA) 運算操作,一般的 FP16 運算會交由 Tensor Cores 處理。

 

 

更大 L1 Data Cache 設計

 

全新 Ampere SM 沿用了 L1 Cache、Texture Cache 及 Share Memory 整合的統一共享緩存設計,每個 SM 的 L1 Cache 容量由 96KB 提升至128KB,較上代提升了 33%,同時提供更具彈性的分割,例如在純運算模式下, Ampere SM 的 L1 Cache 新增 6 種不同配置:

 

 

• 128 KB L1 + 0 KB Share Memory
• 120 KB L1 + 8 KB Share Memory
• 112 KB L1 + 16 KB Share Memory
• 96 KB L1 + 32 KB Share Memory
• 64 KB L1 + 64 KB Share Memory
• 28 KB L1 + 100 KB Share Memory

 

 

如果是圖形工作或混合運算模式下,Ampere SM 則會將 L1 Cache 分配為  64 KB Texture Cache (較上代增加 1 倍)、48KB Share Memory及 16KB L1 Cache 保用於 Graphics Pipeline 運算用途。

 

除了 L1 Cache 容量增加外,L1 Cache的頻寬亦較上代 Tuning SM 提升了 1 倍,由於上代每個週期 64 bytes/clock 提升至 128 bytes/clock,舉例 GeForce RTX 2080 Super 的 L1 Cache 總頻寬為 116GB/s,GeForce RTX 3080 則大幅提升至 219GB/s,此舉簡化了編程所需的調度優化需求,相較上代「Turing」 的 L1 Cache 頻寬提升達 1 倍並大幅降低了延遲。

分享到:
發表評論