2020-11-03
根本就是「TITAN」嘛 !!
ASUS ROG STRIX GeForce RTX 3090 繪圖卡
文: John Lam / 評測中心


NVIDIA 正式發佈全新「GeForce RTX 3090」繪圖卡,它是針對內容創作者以及追求遊戲極端性能的玩家而生,採用全新「GA-102-300」繪圖核心,升級新一代 Ampere GPU 微架構、增至 10,496 個 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 與 24GB GDDR6X 記憶體,取代舊有 TITAN RTX 沿有地位,HKEPC 找來 ASUS ROG Strix GeForce RTX 3090 繪圖卡進行評測。



經改良的 Ampere SM 架構

 

NVIDIA「GA102」繪圖核心採用全新「Ampere」GPU 微架構,其中一個主要改良是 SM 串流多處理群的設計,上代 Turing SM 首次在SM 模組內增設 INT32 運算單元,每個 SM 模組內共有 64 個 FP32 CUDA、64 個 INT32 運算單元,每個 SM 分區均擁有 1 條 FP 與 1 條 INT 數據路徑,因此每個 Turing SM 每個週期可處理 64 個 FP32 及 64 個 INT32 操作。

 

現代遊戲負載擁有更廣泛的運算需求,許多工作負載混合使用 FP32 運算指令 (例如 FFMA、FADD 及 FMUL),同時亦具備簡單的整數指令,例如尋址、加法、浮點比較,以為最大值/最小值等獲取處理結果等工作,現代遊戲的指令平例 FP 與 INT 約為100:36,因此 Ampere GPU 針對 FP32 與 INT32 運算加入更具效率的調度。

 

 

GeForce RTX 3080 FE

▲ 改良 Ampere SM 設計

 

 

全新 Ampere SM 設計將 SM 模組改為 128 個 FP32 CUDA 運算單元,其中一半兼備 INT32 運算能力,同時將每個 SM 分區的 2 組數據路徑均可用於 FP 運算,但其中 1 組可調度用於 INT 運算,因此每個 Ampere SM 每個週期可處理 128 個 FP32,或調整至 64 個 FP32、64 個 INT32 操作。

 

更改經後 Ampere 可將 FP32 運算能力提升 1 倍,面對不同的運算需求時更有彈性、更具效率,尤其在啟用  Ray Tracing 後會有更多的 FP32 運算操作,因此 Ampere GPU 在 Ray-Tracing 性能表現提升會更為明顯。

 

此外,Ampere SM 繼續支援由 Turning  GPU 微架構開始加入的雙速 FP16 (HFMA) 運算操作,一般的 FP16 運算會交由 Tensor Cores 處理。

 

 

更大 L1 Data Cache 設計

 

全新 Ampere SM 沿用了 L1 Cache、Texture Cache 及 Share Memory 整合的統一共享緩存設計,每個 SM 的 L1 Cache 容量由 96KB 提升至128KB,較上代提升了 33%,同時提供更具彈性的分割,例如在純運算模式下, Ampere SM 的 L1 Cache 新增 6 種不同配置:

 

 

• 128 KB L1 + 0 KB Share Memory
• 120 KB L1 + 8 KB Share Memory
• 112 KB L1 + 16 KB Share Memory
• 96 KB L1 + 32 KB Share Memory
• 64 KB L1 + 64 KB Share Memory
• 28 KB L1 + 100 KB Share Memory

 

 

如果是圖形工作或混合運算模式下,Ampere SM 則會將 L1 Cache 分配為  64 KB Texture Cache (較上代增加 1 倍)、48KB Share Memory及 16KB L1 Cache 保用於 Graphics Pipeline 運算用途。

 

除了 L1 Cache 容量增加外,L1 Cache的頻寬亦較上代 Tuning SM 提升了 1 倍,由於上代每個週期 64 bytes/clock 提升至 128 bytes/clock,舉例 GeForce RTX 2080 Super 的 L1 Cache 總頻寬為 134GB/s,GeForce RTX 3080 則大幅提升至 256GB/s,此舉簡化了編程所需的調度優化需求,相較上代「Turing」 的 L1 Cache 頻寬提升達 1 倍並大幅降低了延遲。

分享到:
發表評論