2018-09-20
全新 TU104 繪圖核心
ASUS ROG STRIX GeForce RTX 2080
文: John Lam / 評測中心


NVIDIA 正式發佈新一代「Turing」GPU 微架構效能級繪圖卡「GeForce RTX 2080」,採用全新 12nm FFN 制程的「TU104」繪圖核心,內含 136 億個電晶體、2,944 個 CUDA Cores,更新增 Tensor Core 及 RT Core 運算單元,帶來革命性 AI 運算及光射追踪渲染,不僅性能超過上代 GTX 1080 Ti,更將 PC 遊戲畫質帶進另一個層次。



GeForce RTX系列登場

 

NVIDIA 19 日正式發佈全新「Turing」GPU 微架構繪圖卡產品,包括核心代號為「TU102」的旗艦級「GeForce RTX 2080 Ti」,以及核心代號「TU104」的效能級「GeForce RTX 2080」,它是十多年來 GPU 最大的架構躍進,包括新增 Tensor 核心、RT 核心及許多新的進階著色功能,透過全新硬體加速引擎及混合渲染技術,能實時提供光線追踪渲染,提供更逼真的物體陰影、反射及折射效果,除了性能表現進一步提升外,更將 PC 遊戲真實感帶進另一個層次。

 

TU104

 

與 NVIDIA「Turing」GPU 微架構開發並行,Microsoft 在 2018 年初宣佈全新 A.I 人工智能及 DXR 光線追踪的 DirectML API,令遊戲開發人員可以快速部署 A.I 人工智能技術與光線追踪於新遊戲中,融合光柵化、實時光線追踪、人工智能和模擬,在 PC 遊戲中實現令人難以置信的真實感,神奇網絡提供驚人的新效果、電影級交互式體驗和流暢創建或導航複雜 3D 模型的交互性。

 

Turing

 

此外,全新「Turing」GPU 還承繼了「Volta」微架構中所有增強的「CUDA」功能,例如獨立線程調度、針對多個 CUDA 應用的地址空間隔離 MPS 硬體加速能力以及全新的協作加速,令新一代 GeForce RTX 繪圖卡的「CUDA」運算能力更靈活、性能更強大。

 

 

 

12nm FFN 制程、TU104 繪圖核心

 

NVIDIA 「Turing」 GPU 架構相較上代「Pascal」更為複雜,上代「GP104」繪圖核心採用 16nm 制程、內建 73 億個電晶體,Die Size 為 314mm² 、 TDP 為 180W;全新「TU104」繪圖核心增至 136 億個電晶體,受惠於全新TSMC 12nm FFN 制程配合 VLSI 超大型積體電路優化,雖然 Die Size 增至 545mm²,運算單元數目大幅提升,但 TDP 僅輕微上升至 215~225W 水平,但性能功耗表現更上一層樓。

 

NVIDIA「TU104」繪圖核心是基於「TU102」按比例作縮減,完整的「TU104」晶片內包括了 6 個 GPC 圖形處理群,24 個 TPC 紋理處理群集及 48 個 SM 串流多處理器。

 

TU104

 

每個 GPC 內擁有一組獨立的 Raster Engine 光柵處理引擎及 4 個 TPC 紋理處理群集,每個 TPC 群集包含 2 個 SM 模組,每個 SM 內建 64 個 CUDA Cores、8 個 Tensor Cores、1 個 RT Cores、256KB Register File 及 4 個 Texture Units,並擁有 96KB L1 Cache/Shared Memory 可因應運算或圖形工作負載作出可改變的配置。

 

每個 SM 單元具備兩個 FP64 運算單元,總數合共 96 個 FP64 運算單元,但圖中並沒有標示出來,它的作用是確保 FP64 代碼的程式可以正常運作,但並非主要的硬體運算單元。

 

TU104

 

內建 8 個 32 bit GDDR6 記憶體控制器、總共 256bit 記憶體頻寬,每個記憶體控制器綁定 8 個 ROP 單元及 512KB L2 Cache,完整的「TU104」晶片合共擁有 64 個 ROP 單元及 4,096KB L2 Cache。

 

值得注意的是,暫時僅「Quadeo RTX 6000」繪圖卡擁有完整「TU104」繪圖核心規格,針對 3D 遊戲市場的「GeForce RTX 2080 」所採用的是「TU104-400A」繪圖核心,部份運算單元、記憶體控制器將被屏蔽。

 

GeForce GTX 1080 vs GeForce RTX 2080

 GeForce GTX 1080GeForce RTX 2080
ArchitecturePascalTuring
Manufacturing ProcessTSMC 16nmTSMC 12nm FFN
Transistor Count7.2 Billion13.6Billion
Die Size314mm²545mm²
GPCs46
TPCs2023
SMs2046
CUDA per SM12864
Total CUDA Cores25602944
Tensor Cores per SM -8
Total Tensor Cores -368
RT Cores -46
Base Clock1,480MHz

1,515MHz / 1,515MHz*

 

Boost Clock1,582MHz1,710MHz / 1,800MHz*
RTX-OPS (Tera-OPS)8.957 / 60*
Rays Cast (Giga Rays/s)0.898 / 8*
Peak FP32 TFLOPS 8.910 / 10.6*
Peak INT32 TIPS -10 / 10.6*
Peak FP16 TFLOPS -20.1 / 21.2*

Peak FP16 Tensor TFLOPS 

with FP16 Accumulate

 -80.5 / 84.8*

Peak FP16 Tensor TFLOPS

with FP32 Accumulate

 -40.3 / 42.4*
Peak INT8 Tensor TOPS -161.1 / 169.6*
Peak INT4 Tensor TOPS -322.2 / 169.6*
Memory TypeGDDR5XGDDR6
Memory Size8GB8GB
Memory Interface256bit256bit
Memory Clock10Gbps14Gbps
Memory Bandwidth320448
ROPs6464
Texture Units224272
Texture Fill-rate277.3314.6/331.2
L2 Cache2048KB4096KB
TDP ^180W215W / 225W*

 

#. 所有 TFLOPS、TIPS 及 TOPS 速度基於GPU Boost Clock

*. GeForce RTX 2080 Founders Edition 規格

^. 數字僅代表繪圖卡 TDP,如使用 VirtualLink /USB Type-C 連接需額外增加 35W 功率

分享到:
發表評論