
NVIDIA 11 日正式發佈首款基於全新 Fermi 微架構「 GF108 」繪圖核心,針對入門級遊戲應用及數位影像處理的「 GeForce GT 430 」繪圖卡產品,將取代舊有 GeForce GT220 產品,對手預定為 Radeon HD 5550 及 5570 。 NVIDIA 把「 GeForce GT 430 」定位為數位影像處理應用而非遊戲應用產品,整個記者會從未與競爭對手作性能差異比較,究竟這款繪圖卡的性能如何 !? HKEPC 將詳細分析全新 GeForce GT 430 架構設計,並對比自家上代產品與對手同級產品間之效能差異。
GF108 ︰ GPC 列陣減至 2 組 SM 單元 擁有 96 個 CUDA 運算核心
NVIDIA GeForce GT 430 (GF108) Chip
有別於 NVIDIA 早年相同世代微架構設計,採用固定的比例作出分割,很少針對不同市場級別,而對晶片內核設計作彈性處理。全新 Fermi 微架構由於採用具彈性及可擴展的繪圖運算列陣架構 (Graphics Processing Clusters ; GPC) ,因此不同市場層級的晶片,均會優化其內核單元數目,以達至最佳的性價比表現。
高階市場的「 GF100 」繪圖核心,架構以效能作為優先考慮,並且為未來大量採用 Tessellation 技術作出準備,針對效能級市場的「 GF104 」繪圖核心,則是以高性能與高性價比兼備作考量,減少 Polymorph Engine 並提升每一個 SM 單元內所擁有的 CUDA Core 數目,成本下降並擁有出色的性能表現。
緊接推出主流級的「 GF106 」繪圖核心,如果以核心架構而言,它主要是基於「 GF104 」而非「 GF100 」架構所簡化而成,「 GF106 」晶片規格是「 GF104 」的切半,但由於「 GF106 」設計相較簡單,因此「 GF106 」良率足以把「 GF106 」所有機能全開,因此實質量產的繪圖卡規格卻非減半。
「 GF108 」同樣採用全新 Fermi 繪圖架構,有別於同門兄弟「 GF100 」、「 GF104 」及「 GF106 」,是 Graphics Processing Clusters 所內建的 Streaming Multiprocessors (SM) 單元數目,由 4 組減半至只有 2 組。
架構設計主要基於「 GF104 」,每組 SM 單元內建 48 個 CUDA Core 運算核心,整顆「 GF108 」晶片合共擁有 96 個 CUDA Core ,相較上代「 GT216 」高出一倍,並與上代入門級「 GT215 」晶片看齊。
有關「 GF104 」繪圖核心架構,讀者可參考 <<全新 GF104 GPU 核心>> 一文。
GF108 繪圖核心架構圖
GF108 ︰與上代的差異不僅於 CUDA 數目上
不僅是 CUDA Core 數目上的增長,同時「 GF108 」採用第三代 Streaming Multiprocessor 設計,在平行運算流程上亦更具效率,單一週期最高支援 48 warps ,每個 CUDA 運算核心均為 Unified Processor 架構,可執行 Vertex 、 Pixel 、 Geometry 及 Compute Kernels ,更有效地填充數目繁多的 CUDA 運算核心,全新 GigaThread Engine 架構能讀取 CPU 的記憶體指令,進行分支預測把指定的數據先從系統記憶體中複製到繪圖記憶體內。
此外,「 GF108 」的 SM Unit 無論是輸入任何大小的向量數據都能以最佳性能運算,並且可在執行 Z-buffer (1D) 或 Texture Acess (2D) 均能完全使用整個核心,每個 CUDA Processor 擁有完整的完全整數運算流水線邏輯單元 (ALU) 和浮點單元 (FPU) ,並實現了全新 IEEE 754-2008 浮點標準,提供融合乘加 (FMA) 指令,包括單及雙精度運算。
FMA 指令改善了 MAD 做乘法和單一最後四捨五入動作,但沒有損失運算的精密度,令緊密重疊的三角形減少渲染錯誤的機會。
ALU 經過重新設計,支援所有完全 32Bit Prescision 指令,以符合標準編程語言的要求。整數 ALU 也作出優化 ,令繪圖核心更有效地支持 64Bit 和擴展精度運算,更多的指令標準在 「 GF108 」 被加入支援,包括 Boolean 、 shift 、 move 、 compare 、 convert 、 bit-field extract 、 bitreverse 、 insert 及 population count ,因此「 GF108 」與上代「 GT216 」的效能差異,絕不是單純於 CUDA Core 數目差異。
每組 SM 擁有 4 組 Instruction Dispatch Unit ,以應付提升至 48 個 CUDA Core 及 8 個 SFU 單元的需要,因此「 GF108 」相較上代「 GT216 」繪圖核心,其平衡運算效率更佳,減少被浪費及閒置的可能性。
過 Warp Scheduler 及 Instruction Dispatch Unit 以控制每 SM 單元內的 CUDA Core 、 16 Load/Save Units 及 8 個 SFU 。由於 Warp 執行變得完全獨立,因此 GF108 晶片不需要檢查內部指令的流向,令 GF108 的運算峰值與實際運算能力十分接近。