NVIDIA 正式發佈全新「GeForce RTX 3080」繪圖卡,採用全新「GA-102-200」繪圖核心,升級新一代 Ampere GPU 微架構、增至 8,704 個 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 與10GB GDDR6X 記憶體,更換上創新的軸向式雙風扇散熱器,性能是 GeForce RTX 2080 的兩倍,官方定價 US$699、開 4K 光追順暢玩遊戲不再是夢。
GeForce RTX 30 系列登場
▲ GeForce RTX 30 系列 (3070 / 3080 / 3090)
NVIDIA 17 日正式發佈首款「Ampere」GPU 微架構產品、核心代號為「GA102」的效能級「GeForce RTX 3080」,號稱是 NVIDIA GPU 史上最大的架構躍進,採用 NVIDIA 的第二代 RTX 架構 Ampere,配備更快速的第二代光線追蹤核心、更快速的第三代 Tensor 核心、全新 Ampere SM 串流多處理器及 GDDR6X 記憶體。
整個 NVIDIA Ampere 架構都是為提高效率而設計的,從定制流程設計到電路設計,邏輯設計,封裝,內存,電源和散熱設計,再到 PCB 設計以及軟件和算法,為 PC 遊戲帶來全新的領域。
除了 GeForce RTX 3080 新卡,NVIDIA 將會在 9 月 24 日再發佈旗艦級 GeForce RTX 3090,同樣基於 GA102 繪圖核心,高達 10,496 CUDA Cores、24GB GDDR6X,啟用 DLSS 8K 模式後,可以在大部份遊戲中以 8K @ 60Hz 執行遊戲,售價為 US$1,499。
10 月 15 日將會再推出效能級 GeForce RTX 3070,採用 GA104 繪圖核心、內建 5,888 CUDA Cores、8GB GDDR6,提供可與 NVIDIA 上一代旗艦 GeForce RTX 2080 Ti 媲美的性能,售價僅 US$499,你叫買了 RTX 2080 Ti 的玩家情何以堪呢。
SAMSUNG 8nm 制程、 NVIDIA GA102 繪圖核心
NVIDIA GA102 繪圖核心基於全新 Ampere GPU 微架構,並用於 GeForce RTX 3080 與 GeForce RTX 3090 產品之中,性能的提升主要來自 FP32 運算單元提升了 1 倍、升級第 2 代 RT Cores、升級第 3 代 Tensor Cores,經改良的 ROP 單元及換上更高速的 GDDR6X 記憶體,與上代 Turing GPU 微架構比較,傳統光柵圖形運算提高了 1.7 倍,同時在光線追踪性能上提升近 2 倍。
▲ NVIDIA GA102-200 Block Diagram
「GeForce RTX 3080」採用「GA102-200」繪圖核心,採用 8nm NVIDIA Custom 制程、SAMSUNG 代工,擁有 283 億個電晶體、Die Size 約為 628mm²,完整的 GA102 晶片內建 7 個 GPC 單元、42 個 TPC 紋理處理群集及 84 個 SM 串流多處理器,增至 10,752 個 CUDA Cores、84 個 RT Cores 及 336 個 Tensor Cores。
▲ NVIDIA GA102-200-KA-A1 繪圖核心
不過,「GeForce RTX 3080」部份單元作出了屏蔽,刪減至只有 6 個 GPC 單、34 個 TPC 紋理處理群集及 68 個 SM 串流多處理器,具備 8,702 個 CUDA Cores、68 個 RT Cores 及 272 個 Tensor Cores。
核心時脈方面,雖然晶片規模大幅提升但時脈仍能保持於高水平,GeForce RTX 3080 預設時脈為 1,440MHz Base Clock、1,710 MHz Boost Clock,最高 TDP 為 320W。此外,「GeForce RTX 3080」改用了全新 GDDR6X 記憶體顆粒,雖然記憶體時脈只有1,188MHz,傳輸速度卻高達 19Gbps,加上 320 bit 記憶體頻寬介面,令總頻寬 提升 760GB/s。
Graphics Card | GeForce RTX 2080 Founders Edition | GeForce RTX 2080 Super Founders Edition | GeForce RTX 3080 10 GB Founders Edition |
GPU Codename | TU104 | TU104 | GA102 |
GPU Architecture | NVIDIA Turing | NVIDIA Turing | NVIDIA Ampere |
GPCs | 6 | 6 | 6 |
TPCs | 23 | 24 | 34 |
SMs | 46 | 48 | 68 |
CUDA Cores / SM | 64 | 64 | 128 |
CUDA Cores / GPU | 2944 | 3072 | 8704 |
Tensor Cores / SM | 8 (2nd Gen) | 8 (2nd Gen) | 4 (3rd Gen) |
Tensor Cores / GPU | 368 | 384 (2nd Gen) | 272 (3rd Gen) |
RT Cores | 46 (1st Gen) | 48 (1st Gen) | 68 (2nd Gen) |
GPU Boost Clock (MHz) | 1800 | 1815 | 1710 |
Peak FP32 TFLOPS (non-Tensor)1 | 10.6 | 11.2 | 29.8 |
Peak FP16 TFLOPS (non-Tensor)1 | 21.2 | 22.3 | 29.8 |
Peak BF16 TFLOPS (non-Tensor)1 | NA | NA | 29.8 |
Peak INT32 TOPS (non-Tensor)1,3 | 10.6 | 11.2 | 14.9 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate1 | 84.8 | 89.2 | 119/2382 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate1 | 42.4 | 44.6 | 59.5/1192 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate1 | NA | NA | 59.5/1192 |
Peak TF32 Tensor TFLOPS1 | NA | NA | 29.8/59.52 |
Peak INT8 Tensor TOPS1 | 169.6 | 178.4 | 238/4762 |
Peak INT4 Tensor TOPS1 | 339.1 | 356.8 | 476/9522 |
Frame Buffer Memory Size and Type | 8192 MB GDDR6 | 8192 MB GDDR6 | 10240 MB GDDR6X |
Memory Interface | 256-bit | 256-bit | 320-bit |
Memory Clock (Data Rate) | 14 Gbps | 15.5 Gbps | 19 Gbps |
Memory Bandwidth | 448 GB/sec | 496 GB/sec | 760 GB/sec |
ROPs | 64 | 64 | 96 |
Pixel Fill-rate (Gigapixels/sec) | 115.2 | 116.2 | 164.2 |
Texture Units | 184 | 192 | 272 |
Texel Fill-rate (Gigatexels/sec) | 331.2 | 348.5 | 465 |
L1 Data Cache/SharedMemory | 4416 KB | 4608 KB | 8704 KB |