2020-11-03
根本就是「TITAN」嘛 !!
ASUS ROG STRIX GeForce RTX 3090 顯示卡
文: John Lam / 評測中心


NVIDIA 正式發佈全新「GeForce RTX 3090」繪圖卡,它是針對內容創作者以及追求遊戲極端性能的玩家而生,採用全新「GA-102-300」繪圖核心,升級新一代 Ampere GPU 微架構、增至 10,496 個 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 與 24GB GDDR6X 記憶體,取代舊有 TITAN RTX 沿有地位,HKEPC 找來 ASUS ROG Strix GeForce RTX 3090 繪圖卡進行評測。



升級第 2 代 Ray Tracing 引擎 !!

 

GeForce RTX 3080 FE

 

 

Ray Tracing 光線追踪技術是一種密集型渲染技術,可以逼真地模擬場景及物件的光線,實時以物理方式渲染正確的反射、折射、陰影及間接照明效果。過去的 GPU 架構並無法對遊戲及圖形進行複雜的實時光線追踪處理,NVIDIA 經過過 10 年的研究及開發,終於在上代 GeForce RTX 20 的「Turing」GPU 微架構中加入硬體光線追踪加速引擎 —「RT Cores」,結合 NVIDIA RTX 軟件引擎,實現逼真的實時光線場景效果。

 

今代 GeForce RTX 30 系列的「Ampere」 GPU 升級了第二代的「RT Cores」,上代在 BVH 遍歷與射線三角交測運算能力,效能是第一代「RT Cores」的 2 倍,以往 Turning SM 在 Ray Tracing 運算時不能同時執行 Graphics 或 Compute 運算,今代 Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行 Graphics 或 Compute 運算,令 Ray Tracing 的遊戲執行效率大大提升。

 

 

GeForce RTX 3080 FE

 

 

圖上 GeForce RTX 20 系列執行「Wolfenstein:Youngblood」遊戲的 1 幀畫面,如果單純用 CUDA Cores 運算需要 51ms (~20fps),如果交由 RT Cores 運算可下降至 20ms (~50fps),如果啟用 DLSS 將部份運算交由 Tensor Core 處理器則可減至 12ms (~83fps)

 

 

GeForce RTX 3080 FE

 

 

如果換上 GeForce RTX 30 系列性能提升將會非常明顯,單純用 CUDA Cores 已降至 37ms、交由 RT Cores 運算可降至 11ms,如果啟動了 DLSS 將將部份運算交由 Tensor Core 處理器則可減至 6.7ms (~150fps),Ray Tracing 性能提升非常明顯。

 

 

 

全新第 3 代 Tensor Cores 運算單元

 

上代 Turing GPU 採用第二代 Tensor Core 運算單元,這是專門用於執行向量及矩陣運算的運算單元,包括 INT8 及 INT4 精度的函數運算,以及更高精度的 FP16 運算工作,主要用於深度學習神經網絡運算、推理運算、矩陣運算等,提供更佳的硬體加速能力。

 

針對遊戲應用層面,Tensor Cores 其中一個重點就是加入全新 DLSS 深度學習超級採樣技術,透過深度神經網絡提取渲染場景的多維特徵,並智能地組合來自多個幀的細節,以構建高質量 3D 影像。與傳統的 AA 技術相比,DLSS 使用更少的輸入樣本,同時避免了透明度和其他復雜場景元素的算法難度。

 

 

Comparison of NVIDIA Turing vs Ampere Architecture Tensor Core

 TU102 GPUGA102 GPU
GPU ArchitectureNVIDIA TuringNVIDIA Ampere
Tensor Cores per SM84
FP16 FMA operations per Tensor Core64Dense: 128
Sparse: 256
Total FP16 FMA operations per SM512Dense: 512
Sparse: 1024

 

 

全新 Ampere GPU 微架構升級至第 3 代 Tensor Cores 運算單元,加入了更多不同類型的數據運算模式,例如加入新的稀疏性運算、TF32 及 BFloat 16 等新精度模式,同時在矩陣乘法的速度提高了 2 倍,同時 NVIDIA 針對每個 SM 內的 Tensor Cores 數目作出了重組,減少了一半 Tensor Cores 的數目,但每個 Tensor Cores 運算能力變得更為強大。

 

 

GeForce RTX 3080 FE

 

▲ RTX 2080 Super vs RTX 3080 矩陣數學運算能力比較

 

 

新一代 GeForce RTX 3080 的 Tensor Cores 能提供高達 119 TLOPS 的 FP16 累計,如果啟用了稀疏性運算下則可提升至 238 TFLOPS, INT8 及 INT4 精度的函數運算可達 238 與 476 TFLOPS,如果啟用了稀疏性運算後則可提升 1 倍,與 RTX 2080 Super 相較的話,其張量運算吞吐量提高了 2.7 倍。

 

 

GeForce RTX 3080

 

 

由於 Amprer GPU 微架構的 Tensor Cores 運算能力大幅提升,啟動 DLSS 深度學習超級採樣的性能提升將會更為明顯,利用深度神經網絡提取渲染場景的多維特徵,並智能地組合多個幀中的細節,以構建看起來與原始圖像非常接近的結果,甚至在更高的分辨率中提升更佳的質素,圖上為 Watch Dog 遊戲分別在 1080p、4K 及 8K DLSS 下的畫質對比,可以看到透過第 3 代 Tensor Cores 及全新9 倍超分率縮放因子,使得遊戲在 8K 下再加上光線追蹤進行遊戲變成可能。

 

 

分享到:
發表評論