
是的,HKEPC 沒有 RTX 5090 FE !! NVIDIA 正式發佈 GeForce RTX 5090 / 5090 D 顯示卡,採用全新 GB202 繪圖核心、升級新一代 Blackwell GPU 微架構,增至 21,760 CUDA Core、第 4 代 RT Core、第 5 代 Tensor Core 及 32GB GDDR7 記憶體。全新的神經渲染架構與 RTX 神經著色器開啟了生成式 AI 遊戲渲染新世代,加上 DLSS 4 的多幀生成功能令 FPS 幀率大幅提升。HKEPC 編輯部收到 NVIDIA 送測 RTX 5090 D 新卡,並與上代 RTX 4090 FE 進行對比測試。
升級第 4 代 RT-Cores 單元
為了令遊戲場景變得更加逼真,場景及物件的光影細節至關重要。光線追蹤技術可實現物理上精確的照明、陰影和反射,從而創建與現實緊密相關的虛擬環境。遊戲開發商可以透過增加幾何細節以及使用各種高階著色技術來提升遊戲畫面的真實感。與舊代 Turing、Ampere 和 Ada Lovelace 的 RT Cores 相比,Blackwell 的 RT Cores 提供了 2 倍的數據結構遍歷運算能力。
NVIDIA 工程師針對 Blackwell GPU 的第 4 代 RT Cores 新增了多項重要功能,以支援高度複雜幾何體的高效光線追蹤,包括全新的 Mega Geometry 技術、升級的 Triangle Cluster Intersection 引擎,以及全新的 Linear Swept Spheres 硬體加速路徑。這些專用光線追蹤資源能將部分工作從 SM(串流多處理器)中卸載,讓 SM 能夠專注於執行其他圖元、頂點和渲染任務,進一步提升整體性能。
此外,Blackwell GPU 追加全新 Mega Geometry 技術,旨在大幅增加光線追蹤應用中的幾何細節。特別是,Mega Geometry 使 Epic 的虛幻引擎 5 等遊戲引擎能夠以全保真度對幾何體進行光線追蹤,這些引擎採用 Nanite 等現代細節級別 (LOD) 系統,無需將光線追蹤效果的低解析度代理,從而將陰影、反射和間接照明的品質提升到新的水準。
Mega Geometry 還有助於將以前用於生產渲染的技術 (例如置換的細分曲面) 引入即時光線追蹤領域,遊戲引擎可以在 GPU 上高效運行 LOD 選擇、動畫、剔除等邏輯,同時最大限度地減少與 CPU 的往返。通過有效使用 Mega Geometry API,應用程式幾乎可以消除 CPU 的開銷。
著色器執行重新排序 (SER) 2.0
為了讓光線追蹤運算更加高效,NVIDIA 工程師在 Ada Lovelace GPU 中引入了著色器執行重新排序(Shader Execution Reordering,簡稱 SER)技術。SER 能夠有效重組 GPU 上的大規模並行線程,以實現硬體的最大化利用率。這項技術在 GPU 處理需要大量記憶體訪問分歧的光線追蹤工作負載(例如 Path Tracing)時,特別有效。
在 Blackwell GPU 架構中,NVIDIA 將 SER 技術升級至 2.0,並通過硬體和軟體的多項創新進一步增強其功能。SER 2.0 的核心重新排序邏輯效率提高了一倍,從而減少了光線追蹤重新排序時的開銷,並顯著提升其精度。更高的精度能實現更一致的數據提取,從而進一步提升整體的 RT 性能。
SER 2.0 完全由應用程式透過簡單的 API 控制,使遊戲開發商能夠輕鬆將重新排序技術整合至開發流程中。該 API 還能將光線追蹤著色器調用納入程式設計模型中,進一步提升靈活性和渲染效率。一些已經具備 Path Tracing 功能的遊戲如果使用了 SER 技術,將能夠直接在 Blackwell GPU 的 SER 2.0 中獲得性能提升,而無需更改任何現有代碼。
新增 AI Management Processor(AMP)
過去,不論是 AI 程序還是遊戲,都需要由 CPU 進行指令調度。然而,NVIDIA 工程師在 Blackwell GPU 中新增了 AI Management Processor (AMP),以更高效地管理在 GPU 上運行的不同工作負載。尤其是在多任務處理的情況下,例如 GPU 同時進行遊戲渲染與 AI 模型運算工作(包括 Avatar Cloud Engine (ACE) 的語音、翻譯、視覺、動畫和行為模型等),AMP 能夠更好地隔離這些任務,確保多個應用程式能夠同時共用 GPU 資源而不發生衝突。
Blackwell GPU 的 AMP 單元由專用的 RISC-V 處理器構成,位於 GPU 管道的前端。相比傳統由 CPU 驅動 GPU 任務的方法,AMP 單元使 GPU 可以更高效地管理自身的記憶體,從而減少延遲並可能提升遊戲和其他圖形密集型應用程式的運算性能。
簡而言之,AMP 的主要功能是接管由 CPU 調度 GPU 任務,減少 PC 系統對 CPU 的依賴,特別是在避免 CPU 成為遊戲性能瓶頸方面發揮了重要作用。實際上,允許 GPU 自行管理任務佇列能夠顯著降低 GPU 延遲,因為 GPU 和 CPU 之間的頻繁通訊通常會產生較高的延遲。AMP 的引入使得遊戲可以實現更流暢的幀速率,並讓 Windows 系統中的多任務處理更加高效,同時減輕了 CPU 的負擔。
對於 DLSS 4 的多幀生成運算,Blackwell GPU 透過 AMP 能夠有效調度 AI 和遊戲圖形的工作負載,提供更快的反應時間以防止輸入延遲或卡頓現象,從而確保遊戲的反應速度和流暢性不會受到影響。