
是的,HKEPC 沒有 RTX 5090 FE !! NVIDIA 正式發佈 GeForce RTX 5090 / 5090 D 顯示卡,採用全新 GB202 繪圖核心、升級新一代 Blackwell GPU 微架構,增至 21,760 CUDA Core、第 4 代 RT Core、第 5 代 Tensor Core 及 32GB GDDR7 記憶體。全新的神經渲染架構與 RTX 神經著色器開啟了生成式 AI 遊戲渲染新世代,加上 DLSS 4 的多幀生成功能令 FPS 幀率大幅提升。HKEPC 編輯部收到 NVIDIA 送測 RTX 5090 D 新卡,並與上代 RTX 4090 FE 進行對比測試。
經改良的 Blackwell SM 單元
▲ Blackwell GPU 的 GPC 框架設計
GPC 是 NVIDIA GPU 中最頂層的硬體塊,所有關鍵圖形處理單元都位於 GPC 中。 Blackwell GPU 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 8 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM 單元。
完整的 GB202 GPU 擁有 128 MB 的 L2 快取,而 RTX 5090 則有 96 MB 的 L2,所有應用程式都受益於如此大的快速緩存記憶體池,並且光線追蹤 (尤其是路徑追蹤) 等複雜操作將產生巨大的好處。
NVIDIA 串流多處理器 (SM) 是 NVIDIA GPU 架構的核心元件,在 GPU 的並行處理能力中發揮著關鍵作用,通過其各種內核(CUDA、Tensor、RT)實現大規模並行性、高效的 warp 調度、記憶體管理,並支援 AI 等現代工作負載。每個完整的 GB202 晶片包含 192 個 SM,每個 SM 包括 128 個 CUDA 核心、1 個 Blackwell 第四代 RT Core、4 個 Blackwell 第五代 Tensor Core、4 個 Texture Units、 1 個 256 KB 註冊檔和 128 KB 的 L1/共用記憶體,可以根據圖形和計算工作負載的需求配置不同的記憶體大小。
相較上代 Ada Lovelace 的 SM 設計,每個分區的 32 個 CUDA Core 當中 16 個是專門於處理 FP32 操作,另外 16 個可選擇處理 FP32 或 INT32 操作,所以每個分區可提供 32 個 FP32 指令或 16 個 INT32 + 16 個 FP32 指令。新一代 Blackwell 的 SM 設計作出了更改,每個分區同樣是 32 個 CUDA Core 但全部可以執行處理 FP32 或 INT32 操作,因此 Blackwell 的 INT32 整數運算數量與 Ada Loverlace 相比增加了一倍,由上代 41.3 TOPS 提升至 104.8 TOPS。
Texture Units 的數量也從 GeForce RTX 4090 的 512 個增加到 GeForce RTX 5090 的 680 個。Texture Units 的主要功能是處理紋理映射操作,包括提取紋素、應用紋理篩選以及處理座標。隨著 Texture Units 的增加,Blackwell 在雙線性過濾的紋素速率大幅提升,相比 GeForce RTX 4090 每秒 1290.2 Gigatexels/s 的性能,GeForce RTX 5090 提升至 1636.76 GT/s。
Blackwell 的 Texture Units 在每個週期的紋理採樣性能相比 Ada Lovelace 提高了一倍,這主要得益於加速部份紋理訪問的演算法改進,例如與 Blackwell 神經紋理壓縮方法一同使用的隨機紋理過濾(STF)。因此,GeForce RTX 5090 在 Texture 性能上實現了顯著的提升。
升級至 Blackwell 第 5 代 Tensor Cores
Tensor Core 是 NVIDIA GPU 專用的高性能運算核心,專為滿足 AI 和 HPC 應用程式中矩陣乘法和累加數學運算的需求而設計。它對深度學習神經網絡的訓練和推理操作至關重要。與 Ada Lovelace 架構的 Tensor Core 一樣,Blackwell 的 Tensor Core 支援 FP16、BF16、TF32、INT8、INT4,以及 Hopper 的 FP8 Transformer 引擎。而 Blackwell 更進一步,新增了對 FP4 和 FP6 的 Tensor Core 操作支援,並引入了第二代 FP8 Transformer 引擎,其功能與數據中心級 Blackwell GPU 完全一致。
其中最值得關注的是對 FP4 格式的新增支援。隨著 AI 模型參數和大小的逐漸增加,對 GPU 性能及記憶體容量的需求也在快速上升,即使是最新硬件也可能面臨挑戰。GeForce RTX 50 系列透過其全新 Tensor Core 引入了對 FP4 數據格式的支援。FP4 提供了一種更低的量化方法,類似於檔案壓縮,可顯著縮小模型大小。
與 FP16 精度相比(大多數模型預設使用的精度方法),FP4 精度僅需要不到一半的記憶體空間。同時,GeForce RTX 50 系列 GPU 的性能是在上一代的兩倍以上。當 AI 模型選擇 FP4 格式,並使用 NVIDIA TensorRT Model Optimizer 提供的高級量化技術時,輸出的作品幾乎不會有品質下降。
舉例來說,Black Forest Labs 的 FLUX.dev 模型在使用 FP16 精度時需要超過 23GB 的 VRAM,這意味著只有 GeForce RTX 4090、RTX 5090 和專業級 GPU 才能支援。然而,在使用 FP4 格式後,FLUX.dev 需要的記憶體降至不到 10GB,這使得更多 GeForce RTX GPU 能夠本地運行該模型。
在性能方面,使用 FP16 的 GeForce RTX 4090,FLUX.dev 模型可以在 15 秒內完成 30 個步驟生成圖像。而使用 FP4 的 GeForce RTX 5090,只需約 5 秒即可完成相同的生成操作。