
NVIDIA 18 日正式發佈「 Maxwell 」 GPU 微架構頂級型號「 GeForce GTX TITAN X 」繪圖卡,採用全新「 GM200 」繪圖核心內建高達 3072 個 CUDA Cores ,擁有 384Bit 記憶體介面、 12GB GDDR5 記憶體,其性能足以應付最新 3D 遊戲大作在 4K 解析度下特效全開,並為即將上市的 DX12 遊戲作好準備。
GM200 : 3072 個 CUDA Cores
去年 9 月, NVIDIA 正式推出採用「 GM204 」繪圖核心的「 GeForce GTX 980 」高階繪圖卡,儘管「 GM204 」繪圖核心並非 NVIDIA Maxwell GPU 微架構的完整設計,但時至今日其主要競爭對手 AMD 仍未有產品可作抗衡,面對 4K 顯示器開始普加上下代 DirectX 12 遊戲即將登場, NVIDIA 再向對手 AMD 投下震撼蛋, 正式推出具備完整 Maxwell GPU 微架構的「 GM200 」繪圖核心的旗艦級繪圖卡 —— 「 GeForce GTX TITAN X 」,在性能上進一步將對手拋離。
雖然「 GM200 」與早前推出的「 GM204 」及「 GM206 」同為 Maxwell GPU 微架構,但「 GM200 」在支援規格上進一步提升,「 GM204 」與「 GM206 」均為 DirectX 12 API 並支援 12.0 層級功能,但「 GM200 」則進一步支援 DirectX 12 API 最新的 12.1 層級功能,在 OpenGL 方面亦由 4.4 提升至 4.5 版本。
NVIDIA GM200 繪圖核心 Block Diagram
全新「 GM200 」繪圖核心採用 28nm 制程由 TSMC 代工,內建約 80 億個電晶體, Die Size 約為 601mm² ,與「 GM204 」繪圖核心一樣,全新「 GM200 」繪圖核心採用全新 Maxwell SMM 模組設計, GPC 圖形處理群由 4 組提升至 6 組,同樣地每組 GPC 圖形處理群內擁有一個獨立的 Raster Engine 光柵處理引擎及 4 組 Maxwell Streaming Multiprocessor(SMM) 模組,每一個 SMM 模組內共有 128 個 CUDA Cores 及 8 個 Texture Units ,整顆繪圖核心合共有 3072 個 CUDA Cores 及 192 個 Texture Units ,相較「 GM204 」繪圖核心多出 33% 。
如果與上代 Kelper 微架構的「 GK110 」繪圖核心比較,「 GM200 」繪圖核心的 CUDA Cores 數目只增加了 192 個,不過受惠於全新 Maxwell 微架構,其 SMM 模組再按照現今遊戲對不同類別的數學及 Texture 運算比例作出改良,每組 SMM 模組的 CUDA Cores 數目由 192 個減至 128 個,模組會把 CUDA Cores 平均分割成 4 組,每組區塊各自擁有獨立的 Instruction Buffer 、 Warp Scheduler 、 Instruction Buffering 、 Dispatch Unit 及 Register File ,讓指令有效填充模組內的 CUDA Cores 減少閒置。
此外,「 Maxwell 」 SMM 模組內的 Cache 結構亦作出重大改動, L1 Cache 與 Shared Memory 分割並結合了 Texture Cache 及 Uniform Cache 的功能,每個 SMM 單元內擁有 2 組 L1 Cache ,容量為 24KB (48KB per SMM) ,每組獨立負責 2 個 CUDA Processing 區塊及 4 個 Texture Unit ,令 Cache 的命中率得以提升。 SMM 模組設有一個 Shared Memory 單元,變成專注內部運算單元與外部 Interconnect 緩存,而且容量由 64KB 提升至 96KB ,整體緩存記憶體容量提升,有助提升模組內的運算效率及運算吞吐量。
整體來說,「 GM200 」繪圖核心雖然只比「 GK110 」繪圖核心多了 192 個 CUDA Cores ,但每顆 CUDA Cores 的運算效率相較上代大幅提升 40% ,而且所需功耗減少 1 倍, NVIDIA 在微架構層面上的改良,令繪圖核心有效節省所需的電晶體數目與功耗需求。
GM200 : 384Bit 記憶體控制器
記憶體子系統方面,「 GM200 」繪圖核心內建 6 組 64Bit 記憶體控制器,每組記憶體控制器緊連著 16 個 ROP 單元及 512KB L2 Cache ,因此整顆繪圖核心擁有 384Bit 記憶體介面、 96 個 ROP 單元及 3MB L2 Cache ,相較「 GM204 」繪圖核心多出 50% 。
與上代 Kelper 微架構的「 GK110 」繪圖核心比較,「 GM200 」與前者同樣為 384Bit 記憶體介面,但透過提升記憶體控制器的效率,基於 GPU 微架構改良優化記憶體子系統的性能,其中「 GM200 」在 L2 Cache 容量上相較「 GK110 」多出一倍,此舉有效提升緩存資料數量及命中率,記憶體存取次數及記憶體頻寬佔用因此減少,同時存取延遲大幅降低。
此外,「 GM200 」繪圖核心不僅在 ROP 數目上相較「 GK110 」多出一倍,而且 ROP 模組亦重新設計,擁有更高的像素填充能力,在高解析度的性能表現、處理光線反射、 AA 反鋸齒、煙霧、火焰等特效的運算能力,均較上代「 GK110 」的 ROP 運算單元有更高性能表現。
「 GM200 」採用了 Maxwell 微架構的第三代 Delta Color Compress 引擎,透過多層壓縮機制選擇最佳的壓縮比, Texture 內的每一個 Pixel 將會與相鄰的 Pixel 進行對比,透過數學運算提供更高壓縮比。據 NVIDIA 指出, 「 Maxwell 」 GPU 微架構進一步新增不同形式的 Pixel Ordering 排序算式,讓 ROP 運算單元擁有更多 Pixel Ordering 排序算式選擇,從而令壓縮性能大幅提升。
因此,雖然「 GM200 」與「 GK110 」同樣為 384Bit 記憶體介面,但受惠於更大的 L2 Cache 、更先進的壓縮引擎,「 GM200 」在記憶體性能上相較「 GK110 」進一步提升 33% ,「 GeForce GTX TITAN X 」記憶體時脈為 7GHz Data Rate ,其性能表現約等於上代「 GK110 」在相同記憶體介面下運作於 9.3GHz Data Rate 。
NVIDIA GK110 | NVIDIA GM200 | NVIDIA GM204 | |
Process | 28nm | 28nm | 28nm |
Transistors | 7.1 billion | 8.0 billion | 5.2 billion |
GPU Architecture | Kepler | Maxwell | Maxwell |
CUDA Cores | 2880 | 3072 | 2048 |
Texture | 240 | 192 | 128 |
ROP | 48 | 96 | 64 |
L2 Cache | 1.5MB | 3MB | 1.5MB |
Memory Interface | 384Bit | 384Bit | 256Bit |
DirectX API | 12 | 12 | 12 |
DX Feature Level | 11 | 12 | 12.1 |
OpenGL | 4.4 | 4.4 | 4.5 |