NVIDIA 正式發佈全新效能級「GeForce RTX 3070」繪圖卡,採用全新「GA104-300」繪圖核心,升級新一代 Ampere GPU 微架構、具備 5,888 個 CUDA Cores、46 個 RT Cores 及 184 個第 3 代 Tesnsor Cores 與8GB GDDR6 記憶體,性能媲美上代 US$999 旗艦級 RTX 2080 Ti,但 RTX 3070 售價卻只需 US$499,開 2K 光追順暢打機不是夢,編輯部找來 GIGABYTE GeForce RTX 3070 Gaming OC 進行測試。
NVIDIA GeForce RTX 3070 新卡登場
▲ GeForce RTX 3070 正式登場
NVIDIA 17 日正式發佈首款效能級「Ampere」GPU 產品、核心代號為「GA104」的「GeForce RTX 3070」,號稱是可以幹掉上代 RTX 20 旗艦級型號,採用 NVIDIA 的第二代 RTX 架構 Ampere,配備更多的CUDA Cores、更快速的第二代 RT Cores光線追蹤核心、更快速的第三代 Tensor 核心,以 US$499 定價提供了令人難以置信的性能與功能。
▲ NVIDIA 官方提供的 RTX 3070 性能對比
據 NVIDIA 指出,「GeForce RTX 3070」提供 20.31 FP32 TFLOPs 、39.7 RT TFLOPs 及 162.6 Tensor TFLOPs 運算能力,性能與 GeForce RTX 2080 Ti 相約或更快,但價錢便直一半,相較上代同價位 GeForce RTX 2070 快 1.6 倍,效能級開 2K 光追順暢玩遊戲不再是夢。
SAMSUNG 8nm 制程、 NVIDIA GA104 繪圖核心
有別於旗艦型號 GeForce RTX 3080、RTX 3090 採用「GA102」繪圖核心,效能級的「GeForce RTX 3070」是採用規模較細的「GA104」繪圖核心,相較上代 「TU104」的性能差異主要來自FP32 運算單元提升了 1 倍、升級第 2 代 RT Cores、升級第 3 代 Tensor Cores,令傳統光柵圖形運算提高了 1.7 倍,同時在光線追踪性能上提升近 2 倍。
▲ NVIDIA GA104-300 Block Diagram
「GeForce RTX 3070」採用「GA104-300」繪圖核心,採用 8nm NVIDIA Custom 制程、SAMSUNG 代工,擁有 174 億個電晶體、Die Size 約為 392mm²,完整的 GA104 晶片內建 6 個 GPC 單元、24個 TPC 紋理處理群集及 48 個 SM 串流多處理器,增至 6,144 個 CUDA Cores、48 個 RT Cores 及 192 個 Tensor Cores。
▲ NVIDIA GA104-300-A1 繪圖核心
不過,「GeForce RTX 3070」部份單元作出了屏蔽,同樣擁有 6 個 GPC 單元,但刪走了 1 個 TPC 紋理處理群集,只擁有 46 個 SM 串流多處理器,具備 5,888 個 CUDA Cores、46 個 RT Cores 及 184個 Tensor Cores。
14
Graphics Card | GeForce RTX 3070 Founders Edition | GeForce RTX 3080 10 GB Founders Edition | GeForce RTX 3090 Founders Edition |
GPU Codename | GA104 | GA102 | GA102 |
GPU Architecture | NVIDIA Ampere | NVIDIA Ampere | NVIDIA Ampere |
GPCs | 6 | 6 | 7 |
TPCs | 23 | 34 | 41 |
SMs | 46 | 68 | 82 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 5888 | 8704 | 10496 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (3rd Gen) | 4 (3rd Gen) |
Tensor Cores / GPU | 184 (3rd Gen) | 272 (3rd Gen) | 328 (3rd Gen) |
RT Cores | 46 (2nd Gen) | 68 (2nd Gen) | 82 (2nd Gen) |
GPU Boost Clock (MHz) | 1725 | 1710 | 1695 |
Peak FP32 TFLOPS (non-Tensor)1 | 20.3 | 29.8 | 35.6 |
Peak FP16 TFLOPS (non-Tensor)1 | 20.3 | 29.8 | 35.6 |
Peak BF16 TFLOPS (non-Tensor)1 | 20.3 | 29.8 | 35.6 |
Peak INT32 TOPS (non-Tensor)1,3 | 10.2 | 14.9 | 17.8 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate1 | 81.3/162.62 | 119/2382 | 142/2842 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate1 | 40.6/81.32 | 59.5/1192 | 71/1422 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate1 | 40.6/81.32 | 59.5/1192 | 71/1422 |
Peak TF32 Tensor TFLOPS1 | 20.3/40.62 | 29.8/59.52 | 35.6/712 |
Peak INT8 Tensor TOPS1 | 162.6/325.22 | 238/4762 | 284/5682 |
Peak INT4 Tensor TOPS1 | 325.2/650.42 | 476/9522 | 568/11362 |
Frame Buffer Memory Size and Type | 8192 MB GDDR6 | 10240 MB GDDR6X | 24576 MB GDDR6X |
Memory Interface | 256-bit | 320-bit | 384-bit |
Memory Clock (Data Rate) | 14 Gbps | 19 Gbps | 19.5 Gbps |
Memory Bandwidth | 448 GB/sec | 760 GB/sec | 936 GB/sec |
ROPs | 96 | 96 | 112 |
Pixel Fill-rate (Gigapixels/sec) | 165.6 | 164.2 | 193 |
Texture Units | 184 | 272 | 328 |
Texel Fill-rate (Gigatexels/sec) | 317.4 | 465 | 566 |
L1 Data Cache/Shared Memory | 5888 KB | 8704 KB | 10496 KB |
L2 Cache Size | 4096 KB | 5120 KB | 6144 KB |
Register File Size | 11776 KB | 17408 KB | 20992 KB |
TGP (Total Graphics Power) | 220 Watts | 320 Watts | 350 Watts |
Transistor Count | 17.4 Billion | 28.3 Billion | 28.3 Billion |
Die Size | 392.5 mm2 | 628.4 mm2 | 628.4 mm2 |