
受 GF100 晶片良率欠佳影響, NVIDIA DX11 產品推出時程嚴重延宕,不僅晶片成本高昂,更重要的是良率偏低令 GF100 無法完全發揮 512 CUDA Cores 威力。終於全新效能級繪圖晶片 GF104 正式登場,在簡化架構後不僅良率大幅上升、成本下降,而且在整體效能上相較採用高階 GF100 繪圖核心的 GeForce GTX 465 更優勝,定價僅 $199-229 美元的 GeForce GTX 460 繪圖卡,能否為 NVIDIA 一洗頹風成為板卡業者焦點所在。
New Class of Fermi --- NVIDIA GF104 GPU
為了在 DX11 領域上完全超越對手, NVIDIA 對代號為「 Fermi 」微架構家族的 GF100 繪圖核心充滿其望,不是只為滿足 Microsoft DirectX 11 規格而生,同時亦預期未來遊戲將會大量採用 Tessellation ( 鏤嵌 ) 、 Order-Independent Transparency ( 獨立透明效果 ) 、 Fluid Simulations ( 流體模擬 ) 及 Ray-Tracing ( 光線追蹤 ) , NVIDIA 在「 Fermi 」微架構上作出了重大改良,再加上 NVIDIA 決心在 DirectCompute 領域上,進一步拋離對手 AMD ,「 Fermi 」加入全新 CUDA 4.0 技術,亦成為了大幅度的架構改良,再加上要塞進 512 個 CUDA Cores ,無論是對繪圖架構研發工程以至生產制程,均是一項重大挑戰。
結果, GF100 不僅因架構複雜令成本高昂,同時生產制程所限不僅良率未符合預期,導致產品推出時程一直延宕,最後只能把屏敝部份 CUDA Core 以提升產品良率,採用 GF100 繪圖核心的 GeForce GTX 480 、 GeForce GTX 470 及 GeForce GTX 465 ,其 CUDA Cores 數目分別為 480 、 448 及 352 ,可惜,效能與預期出現嚴重差距,令 NVIDIA 不僅在時程上無法領先對手,同時亦因 DirectX 11 遊戲尚未普及,針對 DirectX 11 而生的 GF100 無法在舊有遊戲性能上表現壓倒性的優勢,並且性價比亦沒有明顯優勢,不足以力壓對手 AMD Radeon HD 5800 家族。
NVIDIA GF100 繪圖核心 Chip Shot
NVIDIA GF100 GPU | |
GPCs | 4 |
SMs per GPC | 16 |
CUDA Cores | 512 |
Memory Controller | 6 |
Memory Interface | 384Bit |
Total Texture Units | 64 |
Total ROP Units | 48 |
GeForce GTX 480 | GeForce GTX 470 | GeForce GTX 465 | |
GPCs | 4 | 4 | 3 |
SMs per GPC | 15 | 14 | 11 |
CUDA Cores | 480 | 448 | 352 |
Texture Uints | 60 | 56 | 44 |
ROP Units | 48 | 40 | 32 |
Graphics Clock | 700MHz | 607MHz | 607MHz |
Processor Clock | 1401 MHz | 1215 MHz | 1215 MHz |
Total Memory | 1536MB | 1280MB | 1024MB |
Memory Interface | 384Bit | 320Bit | 256Bit |
Memory Clock | 3696MHz | 3348MHz | 3206MHz |
Thermal Design Power (TDP) | 250W | 215W | 200W |
為了扭轉劣勢, NVIDIA 於 12 日正式發佈全新效能級 GF104 繪圖核心,有別於 GF100 繪圖核心的設計是以效能作為優先考慮,全新 GF104 以性價比作為設計最終目的,由於遊戲廠商尚未有大幅採用 Tessellation ( 鏤嵌 ) ,因此 GF104 把 PolyMorph Engines 數目減半至只有 8 個,但 CUDA Core 核心、 ROP 及 Texture 數目卻非減半,令 GF104 效能及成本更切合現階段遊戲市場需要。
NVIDIA GF100 架構圖
GF104 : 48 CUDA Cores per SM
NVIDIA GF104 與 GF100 同樣是基於全新 Fermi 第三代 Streaming Multiprocessor (SM) 架構,它大幅更改了其硬體結構,目標是將遊戲性能和圖像質量得到極大提升,強化 Geometry Units 以提升遊戲人物及物件有如電影般的真實感,其中 Geometric Realism 技術更是 Fermi 微架構的重點強化重心,不僅在 CUDA 運算核心數目上相較上代 GT200 大幅增加,更重要的是 Geometry Pipeline 運算設計上大幅改組,以提升 Geometry Shading 、 Stream Out 及 Culling 的運算能力,同時 ROP 運算單元數目亦倍數提升,令 Fillrate 效能大幅提升,同時亦令 Multi-Display 模式下運算效能不會大幅下降。
全新架構下, ROP Compression 令 8xMASS 效能得到了重大改善,而且新增的 ROP 數目亦是經過了精心的考量,就算在不在使用 ROP Compression 的遊戲場境下, ROP Unit 亦不會成為 GPU 的效能瓶頸,拖垮整體遊戲效能。
NVIDIA GF104 繪圖核心
NVIDIA GF104 繪圖核心同樣基於可擴充展的繪圖運算列陣架構 (Graphics Processing Clusters ; GPC) ,核心擁有 2 組 GPC Unit ,但相較 GF100 繪圖核心擁有 4 組 GPC Unit 數目減半,不過 GF104 繪圖核心的 GPC Unit 設計與 GF100 繪圖核心並不相同。
一顆完整的 GF100 繪圖核心具有四組 GPC ,每組 GPC 具有 4 個 Streaming Multiprocessors (SM) ,每組 SM 共有 32 個 CUDA 運算核心,合共 512 個 CUDA 運算核心。 GF104 繪圖核心設計並非單純把 GF100 切半,兩組 GPC 設計同樣具備 4 個 Streaming Multiprocessors (SM) ,不過每組 SM 內的 CUDA 運算核心數目卻提升至 48 個,合共擁有 384 個 CUDA 運算核心。
GF104 的 SM 設計除了 CUDA 數目提升外,其平衡運算流程並沒有太大差別,單一週期最高支援 48 warps ,每個 CUDA 運算核心均為 Unified Processor 架構,可執行 Vertex 、 Pixel 、 Geometry 及 Compute Kernels ,為了能更有效地填充數目繁多的 CUDA 運算核心,核心同樣採用 GigaThread Engine 架構 , GF104 會讀取 CPU 的記憶體指令,並進行分支預測把指定的數據先從系統記憶體中讀複製到繪圖記憶體內。
NVIDIA GF100 GPU | NVIDIA GF104 GPU | |
GPCs | 4 | 2 |
SMs per GPC | 16 | 8 |
CUDA Cores | 512 | 384 |
Cores Per SM | 32 | 48 |
Memory Controller | 6 | 4 |
Memory Interface | 384Bit | 256Bit |
Total Texture Units | 64 | 64 |
Total ROP Units | 48 | 32 |