
NVIDIA 正式發佈全新「GeForce RTX 3090」繪圖卡,它是針對內容創作者以及追求遊戲極端性能的玩家而生,採用全新「GA-102-300」繪圖核心,升級新一代 Ampere GPU 微架構、增至 10,496 個 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 與 24GB GDDR6X 記憶體,取代舊有 TITAN RTX 沿有地位,HKEPC 找來 ASUS ROG Strix GeForce RTX 3090 繪圖卡進行評測。
升級第 2 代 Ray Tracing 引擎 !!
Ray Tracing 光線追踪技術是一種密集型渲染技術,可以逼真地模擬場景及物件的光線,實時以物理方式渲染正確的反射、折射、陰影及間接照明效果。過去的 GPU 架構並無法對遊戲及圖形進行複雜的實時光線追踪處理,NVIDIA 經過過 10 年的研究及開發,終於在上代 GeForce RTX 20 的「Turing」GPU 微架構中加入硬體光線追踪加速引擎 —「RT Cores」,結合 NVIDIA RTX 軟件引擎,實現逼真的實時光線場景效果。
今代 GeForce RTX 30 系列的「Ampere」 GPU 升級了第二代的「RT Cores」,上代在 BVH 遍歷與射線三角交測運算能力,效能是第一代「RT Cores」的 2 倍,以往 Turning SM 在 Ray Tracing 運算時不能同時執行 Graphics 或 Compute 運算,今代 Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行 Graphics 或 Compute 運算,令 Ray Tracing 的遊戲執行效率大大提升。
圖上 GeForce RTX 20 系列執行「Wolfenstein:Youngblood」遊戲的 1 幀畫面,如果單純用 CUDA Cores 運算需要 51ms (~20fps),如果交由 RT Cores 運算可下降至 20ms (~50fps),如果啟用 DLSS 將部份運算交由 Tensor Core 處理器則可減至 12ms (~83fps)
如果換上 GeForce RTX 30 系列性能提升將會非常明顯,單純用 CUDA Cores 已降至 37ms、交由 RT Cores 運算可降至 11ms,如果啟動了 DLSS 將將部份運算交由 Tensor Core 處理器則可減至 6.7ms (~150fps),Ray Tracing 性能提升非常明顯。
全新第 3 代 Tensor Cores 運算單元
上代 Turing GPU 採用第二代 Tensor Core 運算單元,這是專門用於執行向量及矩陣運算的運算單元,包括 INT8 及 INT4 精度的函數運算,以及更高精度的 FP16 運算工作,主要用於深度學習神經網絡運算、推理運算、矩陣運算等,提供更佳的硬體加速能力。
針對遊戲應用層面,Tensor Cores 其中一個重點就是加入全新 DLSS 深度學習超級採樣技術,透過深度神經網絡提取渲染場景的多維特徵,並智能地組合來自多個幀的細節,以構建高質量 3D 影像。與傳統的 AA 技術相比,DLSS 使用更少的輸入樣本,同時避免了透明度和其他復雜場景元素的算法難度。
Comparison of NVIDIA Turing vs Ampere Architecture Tensor Core
TU102 GPU | GA102 GPU | |
GPU Architecture | NVIDIA Turing | NVIDIA Ampere |
Tensor Cores per SM | 8 | 4 |
FP16 FMA operations per Tensor Core | 64 | Dense: 128 Sparse: 256 |
Total FP16 FMA operations per SM | 512 | Dense: 512 Sparse: 1024 |
全新 Ampere GPU 微架構升級至第 3 代 Tensor Cores 運算單元,加入了更多不同類型的數據運算模式,例如加入新的稀疏性運算、TF32 及 BFloat 16 等新精度模式,同時在矩陣乘法的速度提高了 2 倍,同時 NVIDIA 針對每個 SM 內的 Tensor Cores 數目作出了重組,減少了一半 Tensor Cores 的數目,但每個 Tensor Cores 運算能力變得更為強大。
▲ RTX 2080 Super vs RTX 3080 矩陣數學運算能力比較
新一代 GeForce RTX 3080 的 Tensor Cores 能提供高達 119 TLOPS 的 FP16 累計,如果啟用了稀疏性運算下則可提升至 238 TFLOPS, INT8 及 INT4 精度的函數運算可達 238 與 476 TFLOPS,如果啟用了稀疏性運算後則可提升 1 倍,與 RTX 2080 Super 相較的話,其張量運算吞吐量提高了 2.7 倍。
由於 Amprer GPU 微架構的 Tensor Cores 運算能力大幅提升,啟動 DLSS 深度學習超級採樣的性能提升將會更為明顯,利用深度神經網絡提取渲染場景的多維特徵,並智能地組合多個幀中的細節,以構建看起來與原始圖像非常接近的結果,甚至在更高的分辨率中提升更佳的質素,圖上為 Watch Dog 遊戲分別在 1080p、4K 及 8K DLSS 下的畫質對比,可以看到透過第 3 代 Tensor Cores 及全新9 倍超分率縮放因子,使得遊戲在 8K 下再加上光線追蹤進行遊戲變成可能。