NVIDIA 正式發佈全新「GeForce RTX 3090」繪圖卡,它是針對內容創作者以及追求遊戲極端性能的玩家而生,採用全新「GA-102-300」繪圖核心,升級新一代 Ampere GPU 微架構、增至 10,496 個 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 與 24GB GDDR6X 記憶體,取代舊有 TITAN RTX 沿有地位,HKEPC 找來 ASUS ROG Strix GeForce RTX 3090 繪圖卡進行評測。
NVIDIA GeForce RTX 3090 登場
NVIDIA 24 日正式發佈第二款基於「Ampere」GPU 微架構,核心代號為「GA102-300」的旗艦級「GeForce RTX 3090」繪圖核心,它其實是為內容創作者以及追求巔峰遊戲性能而生,其定位是要取代沿有的「TITAN RTX」,為何這代不再使用「TITAN」系列呢 ? 可能 NVIDIA 認為每代都要「TITAN」改一個新名字,太煩了索性不就用「RTX 3090」好了。
對於遊戲玩家來說,你必需要認清「GeForce RTX 3090」的遊戲性價比相當低,價格是 GeForce RTX 3080 的一倍,但現今的遊戲仍然未能發揮它的真實性能,支援原生 8K + Ultra Performance DLSS 的遊戲並不多,現令大部份 3A 大作只會比 GeForce RTX 3080 快 10~20%,如果你視錢財如糞土,為追求極致性能不借一切,GeForce RTX 3090 絕對是身份的象徵。
▲ GeForce RTX 3090 FE 繪圖卡
如果你是內容創作者,GeForce RTX 3090 將會是一頭野獸,因為它做到其他GeForce RTX 30 系列遊戲卡所無法做到的事,相信不少創作者遇過因繪圖卡記憶體不足導至整個應用程序崩潰的經驗,擁有高達 384-bit 記憶體介面與 24GB GDDR6X 記憶體容量,能滿足大型模型場景染渲和高解析度紋理貼圖的工作負載,加上更多的 CUDA Core、RT Cores 及 Tensor Cores 運算單元,作為內容創作者的搵食工具,這才是GeForce RTX 3090 的真正存在意義。
SAMSUNG 8nm 制程、 GA102-300 繪圖核心
NVIDIA GA102 繪圖核心基於全新 Ampere GPU 微架構,並用於 GeForce RTX 3080 與 GeForce RTX 3090 產品之中,性能的提升主要來自 FP32 運算單元提升了 1 倍、升級第 2 代 RT Cores、升級第 3 代 Tensor Cores,經改良的 ROP 單元及換上更高速的 GDDR6X 記憶體,與上代 Turing GPU 微架構比較,傳統光柵圖形運算提高了 1.7 倍,同時在光線追踪性能上提升近 2 倍。
▲ NVIDIA GA-102-300 Block Diagram
「GeForce RTX 3090」採用「GA102-300」繪圖核心,採用 8nm NVIDIA Custom 制程、SAMSUNG 代工,擁有 283 億個電晶體、Die Size 約為 628mm²,一顆完整的 GA102 晶片內建 7 個 GPC 單元、42 個 TPC 紋理處理群集及 84 個 SM 串流多處理器,增至 10,752 個 CUDA Cores、84 個 RT Cores 及 336 個 Tensor Cores。
▲NVIDIA GA102-300-A1 繪圖核心
不過,「GeForce RTX 3090」部份單元作出了屏蔽,同樣具備 7 個 GPC 單云,但 TPC 紋理處理群集減少 41 個,合共 82 個 SM 串流多處理器,具備 10,496 個 CUDA Cores、82 個 RT Cores 及 328 個 Tensor Cores。
核心時脈方面,雖然晶片規模大幅提升但時脈仍能保持於高水平,GeForce RTX 3090 預設時脈為 1,395MHz Base Clock、1,695 MHz Boost Clock,最高 TDP 為 350W。此外,「GeForce RTX 3090」改用了全新 GDDR6X 記憶體顆粒,雖然記憶體時脈只有1,219MHz,傳輸速度卻高達 19.5Gbps,加上 384 bit 記憶體頻寬介面,令總頻寬提升 936.2GB/s。
Graphics Card | GeForce RTX 3080 Founders Edition | GeForce RTX 3090 Founders Edition | GeForce TITAN RTX Founders Edition |
GPU Codename | GA102-200 | GA102-300 | TU102-400 |
GPU Architecture | NVIDIA Ampere | NVIDIA Ampere | NVIDIA Turing |
GPCs | 6 | 7 | 6 |
TPCs | 34 | 41 | 36 |
SMs | 68 | 82 | 72 |
CUDA Cores / SM | 128 | 128 | 64 |
CUDA Cores / GPU | 8704 | 10496 | 4608 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (3rd Gen) | 8 (2nd Gen) |
Tensor Cores / GPU | 272 (3rd Gen) | 328 (3rd Gen) | 576 (2nd Gen) |
RT Cores | 68 (2nd Gen) | 82 (1st Gen) | 72 (1st Gen) |
GPU Boost Clock (MHz) | 1710 | 1695 | 1770 |
Peak FP32 TFLOPS (non-Tensor)1 | 29.8 | 35.6 | 16.3 |
Peak FP16 TFLOPS (non-Tensor)1 | 29.8 | 35.6 | 32.6 |
Peak BF16 TFLOPS (non-Tensor)1 | 29.8 | 35.6 | NA |
Peak INT32 TOPS (non-Tensor)1,3 | 14.9 | 16.3 | 17.8 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate1 | 119/238 | 142/284 | 130.5 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate1 | 59.5/119 | 71/142 | 65.2 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate1 | 59.5/119 | 71/142 | NA |
Peak TF32 Tensor TFLOPS1 | 29.8/59.5 | 35.6/71 | NA |
Peak INT8 Tensor TOPS1 | 238/476 | 284/568 | 261 |
Peak INT4 Tensor TOPS1 | 476/952 | 568/1136 | 522 |
Frame Buffer Memory Size and Type | 10240MB GDDR6X | 24576MB GDDR6X | 24576MB GDDR6 |
Memory Interface | 320-bit | 384-bit | 384-bit |
Memory Clock (Data Rate) | 19 Gbps | 19.5 Gbps | 14 Gbps |
Memory Bandwidth | 760 GB/sec | 936 GB/sec | 672 GB/sec |
ROPs | 96 | 112 | 96 |
Pixel Fill-rate (Gigapixels/sec) | 164.2 | 193 | 169.9 |
Texture Units | 272 | 328 | 288 |
Texel Fill-rate (Gigatexels/sec) | 465 | 566 | 509.8 |
L1 Data Cache/SharedMemory | 8704 KB | 6912 KB | 10496 KB |