2018-10-18
全新 TU106 繪圖核心
GALAX GeForce RTX 2070 登場
文: John Lam / 評測中心


NVIDIA正式發佈新一代「Turing」GPU微架構效能級繪圖卡「GeForce RTX 2070」,採用全新12nm FFN制程的「TU106」繪圖核心,內含108億個電晶體、2,304個CUDA Cores,更新增 Tensor Core 及 RT Core 運算單元,帶來革命性 AI 運算及光射追踪渲染,性能超越上代 GeForce GTX 1080,定價 US$ 499 美元、戰力十足。



GeForce RTX 2070 登場

 

緊接上月上市的旗艦級「GeForce RTX 2080 Ti」與高階級「GeForce RTX 2080」之後,NVIDIA再發佈全新效能級的「GeForce RTX 2070」,同樣基於全新 NVIDIA「Turing」GPU微架構,它是十多年來 GPU 最大的架構躍進,包括新增 Tensor 核心、RT 核心及許多新的進階著色功能,透過全新硬體加速引擎及混合渲染技術,能實時提供光線追踪渲染,提供更逼真的物體陰影、反射及折射效果,除了性能表現進一步提升外,更將 PC 遊戲真實感帶進另一個層次。

 

TU104

 

與 NVIDIA「Turing」GPU 微架構開發並行,Microsoft 已在全新Windows 10 1809版本中加入了 A.I 人工智能及 DXR 光線追踪的 DirectML API,令遊戲開發人員可以快速部署 A.I 人工智能技術與光線追踪於新遊戲中,融合光柵化、實時光線追踪、人工智能和模擬,在 PC 遊戲中實現令人難以置信的真實感,神奇網絡提供驚人的新效果、電影級交互式體驗和流暢創建或導航複雜 3D 模型的交互性。

 

 Turing

 

此外,全新「Turing」GPU 還承繼了「Volta」微架構中所有增強的「CUDA」功能,例如獨立線程調度、針對多個 CUDA 應用的地址空間隔離 MPS 硬體加速能力以及全新的協作加速,令新一代 GeForce RTX 繪圖卡的「CUDA」運算能力更靈活、性能更強大。

 

 

 

12nm FFN制程、TU106繪圖核心

 

有別於以往 GTX 1070 與 GTX 1080 是基於相同核心,透過屏蔽運算單來劃分市場區間,全新「GeForce RTX 2070」改用上「TU106」繪圖核心,相較「TU104」繪圖核心內建136億個電晶體、Die Size約為 545mm²,全新「TU106」繪圖核心縮減至108億個電晶體、Die Size約為 445 mm²,有效降低了晶片生產成本。

 

架構方面,NVIDIA「TU106」繪圖核心並非完全由「TU104」按比例作出縮減,內部單元的比例作出了相應的調整,完整的「TU106」繪圖核心內含 3 個 GPC 圖形處理群,24 個 TPC 紋理處理群集及 36 個 SM 串流多處理器,但刪除了NVLink多繪圖卡支援能力。

 

RTX2070

 

每個 GPC 內擁有一組獨立的 Raster Engine 光柵處理引擎及 6 個 TPC 紋理處理群集,每個 TPC 群集包含 2 個 SM 模組,每個 SM 內建 64 個 CUDA Cores、8 個 Tensor Cores、1 個 RT Cores、256KB Register File 及 4 個 Texture Units,並擁有 96KB L1 Cache/Shared Memory 可因應運算或圖形工作負載作出可改變的配置。

 

RTX2070

 

每個 SM 單元具備兩個 FP64 運算單元,總數合共 96 個 FP64 運算單元,但圖中並沒有標示出來,它的作用是確保 FP64 代碼的程式可以正常運作,但並非主要的硬體運算單元。

 

內建 8 個 32 bit GDDR6 記憶體控制器、總共 256bit 記憶體頻寬,每個記憶體控制器綁定 8 個 ROP 單元及 512KB L2 Cache,合共擁有 64 個 ROP 單元及 4,096KB L2 Cache。

 

GeForce GTX 1070/1080 vs GeForce RTX 2070/2080

 GeForce GTX 1070GeForce RTX 2070GeForce GTX 1080GeForce RTX 2080
ArchitecturePascalTuringPascalTuring
Manufacturing ProcessTSMC 16nmTSMC 12nm FFNTSMC 16nmTSMC 12nm FFN
Transistor Count7.2 Billion10.8Billion7.2 Billion13.6Billion
Die Size314mm²445mm²314mm²545mm²
GPCs3346
TPCs15182023
SMs15362046
CUDA per SM1286412864
Total CUDA Cores1920230425602944
Tensor Cores per SM -8 -8
Total Tensor Cores -288 -368
RT Cores -36 -46
Base Clock1,506MHz1,410MHz / 1,410MHz*

 

1,480MHz1,515MHz / 1,515MHz*

 

Boost Clock1,683MHz1,620MHz / 1,710MHz*1,582MHz1,710MHz / 1,800MHz*
RTX-OPS (Tera-OPS)6.542 / 45*8.957 / 60*
Rays Cast (Giga Rays/s)0.656 / 6*0.898 / 8*
Peak FP32 TFLOPS 6.57.5 / 7.9*8.910 / 10.6*
Peak INT32 TIPS -7.5 / 7.9* -10 / 10.6*
Peak FP16 TFLOPS -14.9 / 15.8* -20.1 / 21.2*

Peak FP16 Tensor TFLOPS 

with FP16 Accumulate

 -59.7 / 63* -80.5 / 84.8*

Peak FP16 Tensor TFLOPS

with FP32 Accumulate

 -29.9 / 31.5* -40.3 / 42.4*
Peak INT8 Tensor TOPS -119.4 / 126* -161.1 / 169.6*
Peak INT4 Tensor TOPS -238.9 / 252.1* -322.2 / 169.6*
Memory TypeGDDR5GDDR6GDDR5XGDDR6
Memory Size8GB8GB8GB8GB
Memory Interface256bit256bit256bit256bit
Memory Clock8Gbps14Gbps10Gbps14Gbps
Memory Bandwidth256448320448
ROPs64646464
Texture Units120144224272
Texture Fill-rate202223.3/246.2277.3314.6/331.2
L2 Cache2048KB4096KB2048KB4096KB
TDP ^150W175W / 185W*180W215W / 225W*

 

#. 所有 TFLOPS、TIPS 及 TOPS 速度基於GPU Boost Clock

*.  Founders Edition 規格

^. 數字僅代表繪圖卡 TDP,如使用 VirtualLink /USB Type-C 連接需額外增加 35W 功率

分享到:
發表評論