2008-06-16
NVIDIA D10U繪圖核心
GeForce GTX 280正式登場
文: Kopo Ko / 評測中心


NVIDIA 16 日宣佈推出第二代 Unified 架構繪圖產品,核心代號為 D10U , 並命名為 GeForce GTX 200 家族,除核心提升至 240 個 Streaming Processors ,且大幅改良微架構設計外,更首次加入 Parallel Compute 模式,進一步強化平行運算能力。究竟 NVIDIA 能否憑藉 D10U 核心再創高峰, HKEPC 編輯部找來 MSI GeForce GTX 280 繪圖卡,進行效能測試並深入分析優劣勢所在。



D10U ︰新增 Parallel Compute 模式

 

 

現今的 GPU 已不再侷限於 3D 繪圖應用,從數學運算 (e.g. MATHLAB) 、金融分析、醫學檢查、氣象預測、電子線路設計、生物分子結構分柝及光學模擬運算等專業領域,乃至影像編碼等一般應用程式,皆可運用 GPU 進行硬體加速運算,未來應用勢將更為廣泛。

 

D10U針對平行運算進行了重大修正改變,除原有的Graphics模式,當應用於平行運算時,將改為Parallel Compute模式。Parallel Compute模式,是 D10U 為核心加入了硬體Thread Scheduler (線程排序器),以及稱為「Atomic」的記憶體處理單元,且在每組SM內部加入Share Local Memory,而這也是首代Unified架構所未見的。

 

為提升平行運算效率, D10U 加入硬體 Thread Scheduler ,以保証核心的 SP 達至接近 100% 負載。上代 Unified Shader 架構,當線程需要讀寫記憶體時,該組 SP 必須等待讀寫動作完成,才會執行其他指令,但 D10U 加入了硬體 Thread Scheduler ,當線程需要等待讀寫記憶體, Thread Scheduler 會立即切換該組 SP 進行其他指令,不會讓 SP 出現閒置情況。

 

另外, D10U 新增 8 個「 Atomic 」的記憶體處理單元,可執行極微密的記憶體讀、改、寫動作,並提供粒狀記憶體位置存取,為平行運算帶來更有效的架構管理。

 

D10U 亦強化了平行運算的記憶體讀寫效能,以往每組 TPCs 內建一組 L1 Cache ,讓 TPC 內每組 SM 可共同分享資料,而不需要讀寫外部記憶體以提升效率。新一代的 D10U 更在每一組 SM 內建有 Local Memory ,讓每組 SM 內的每個 SP 也能共同分享資料,令平行運算效率大大提升。

 

不僅如此, D10U 更可在平行運算模式下,將原用於 Texture 用途的 Texture Cache , 也變成平行運算的快速記憶體暫存,以提高記憶體頻寬及讀寫效率。

 

D10U Local Memory