全新GF106 GPU核心 NVIDIA GeForce GTS 450繪圖卡

2010-09-13

全新GF106 GPU核心

NVIDIA GeForce GTS 450繪圖卡

文: John Lam / 評測中心

NVIDIA 13 日正式發佈首款基於全新 Fermi 微架構「 GF106 」繪圖核心，針對主流遊戲玩家市場的「 GeForce GTS 450 」繪圖卡產品，取代 GeForce GTS 250 繪圖卡產品，對手將為 Radeon HD 5750 繪圖卡。究竟全新 GeForce GTS 450 繪圖卡，能否延續效能級 GeForce GTX 460 的強勢表現 !? HKEPC 將詳細分析全新 GeForce GTX 450 架構設計，並與比自家上代產品及對手同級產品作出比較。

針對主流級遊戲玩家市場 --- NVIDIA GF106 GPU

GF106 GPU
圖為全新 GF106 Full Chip

原本預期於去年 12 月推出全新 Fermi 微架構 GPU 的 NVIDIA ，受制於設計過於複雜及制程所限導致良率不足所影響，結果在 DirectX 11 產品線推出時程上一直延宕，根據市調機構 Mecury Research 報告指出， 2010 年第二季 AMD 獨立繪圖晶片市佔成功超越 NVIDIA ，由第一季 42.1% 大幅上升至第二季 51.1% ， NVIDIA 則由 59.2% 跌至 48.8% 。

儘管 NVIDIA 在第二季開始付運新一代 Fermi 微架構 GPU 產品「 GF100 」繪圖核心，但主要集中於高階市場，不僅產量不多而且效能亦未見突出，無法令 NVIDIA 在第二季挽回劣勢。不過， NVIDIA 於 7 月中推出的效能級繪圖核心「 GF104 」，基於高階「 GF100 」繪圖核心作出了架構上的微調，全新效能級「 GeForce GTX 460 」不僅在效能及售價上均極具殺傷力，而這次發表的主流級「 GF106 」繪圖核心，則是基於「 GF104 」繪圖核心所簡化，推出全新主流級「 GeForce GTS 450 」，能否延續這股強勢表現，則成為 NVIDIA 2010 年下半年能否重奪獨立繪圖晶片市佔龍頭的重要關鍵之一。

GF106 ︰內建 192 個 CUDA Cores

GeForce GTS 450

圖為 GF GTS 450 繪圖於採用經屏蔽的 GF 106 繪圖核心

同樣地，「 GF106 」繪圖核心的架構並不是承襲於高階「 GF100 」，因為「 GF100 」繪圖核心設計是以效能作為優先考慮，並不合符作為主流級繪圖核心的高性價比原則，因此「 GF106 」繪圖核心是以「 GF104 」作為基礎而簡化，以符合現今市面上大部份遊戲的 Shader 、 Texture 及 Tessellation 使用比例，有關「 GF100 」與「 GF104 」繪圖核心的架構差異，可瀏覽 <<全新 GF104 GPU 核心>> 一文。

根據 NVIDIA 「 GF106 」的繪圖核心架構設計，基本上「 GF106 」就是把「 GF104 」割開一半，同樣 Fermi 第三代 Streaming Multiprocessor (SM) 架構，「 GF106 」的繪圖運算列陣架構 (Graphics Processing Clusters ; GPC) ，由 2 組 GPC 減至 1 組 GPC ， GPC 的設計同樣具備 4 個 Streaming Multiprocessors (SM) ，每組 SM 內的 CUDA 運算核心數目為 48 個，而非「 GF100 」的 32 個，因此整顆晶片合共擁有 192 個 CUDA 運算核心。

相比上代「 G92 」繪圖核心僅 128 個 CUDA Cores ，全新「 GF106 」繪圖核心不僅是 CUDA Core 數目上的提升，同時亦不幅改良了平衡運算流程的效率，全新 Fermi 微架構單一週期最高支援 48 warps ，每個 CUDA 運算核心均為 Unified Processor 架構，可執行 Vertex 、 Pixel 、 Geometry 及 Compute Kernels ，更有效地填充數目繁多的 CUDA 運算核心，採用了 GigaThread Engine 架構，「 GF106 」能讀取 CPU 的記憶體指令，並進行分支預測把指定的數據先從系統記憶體中讀複製到繪圖記憶體內。

此外，「 GF106 」的 SM Unit 無論是輸入任何大小的向量數據都能以最佳性能運算，並且可在執行 Z-buffer (1D) 或 Texture Acess (2D) 均能完全使用整個核心，每個 CUDA Processor 擁有完整的完全整數運算流水線邏輯單元 (ALU) 和浮點單元 (FPU) ，並實現了全新 IEEE 754-2008 浮點標準，提供融合乘加 (FMA) 指令，包括單及雙精度運算。

FMA 指令改善了 MAD 做乘法和單一最後四捨五入動作，但沒有損失運算的精密度，令緊密重疊的三角形減少渲染錯誤的機會。

ALU 經過重新設計，支援所有完全 32Bit Prescision 指令，以符合標準編程語言的要求。整數 ALU 也作出優化，令繪圖核心更有效地支持 64Bit 和擴展精度運算，更多的指令標準在「 GF106 」被加入支援，包括 Boolean 、 shift 、 move 、 compare 、 convert 、 bit-field extract 、 bitreverse 、 insert 及 population count ，因此「 GF106 」與上代「 G92 」的效能差異，絕不是單純於 CUDA Core 數目差異。

Next: 具備32組Special Function Unit單元每組SM單元擁有4個Dispatch Unit

文章索引：專題報導顯示卡 NVIDIA