NVIDIA D10U繪圖核心 GeForce GTX 280正式登場

2008-06-16

NVIDIA D10U繪圖核心

GeForce GTX 280正式登場

文: Kopo Ko / 評測中心

NVIDIA 16 日宣佈推出第二代 Unified 架構繪圖產品，核心代號為 D10U ，並命名為 GeForce GTX 200 家族，除核心提升至 240 個 Streaming Processors ，且大幅改良微架構設計外，更首次加入 Parallel Compute 模式，進一步強化平行運算能力。究竟 NVIDIA 能否憑藉 D10U 核心再創高峰， HKEPC 編輯部找來 MSI GeForce GTX 280 繪圖卡，進行效能測試並深入分析優劣勢所在。

D10U ︰新增 Parallel Compute 模式

現今的 GPU 已不再侷限於 3D 繪圖應用，從數學運算 (e.g. MATHLAB) 、金融分析、醫學檢查、氣象預測、電子線路設計、生物分子結構分柝及光學模擬運算等專業領域，乃至影像編碼等一般應用程式，皆可運用 GPU 進行硬體加速運算，未來應用勢將更為廣泛。

D10U針對平行運算進行了重大修正改變，除原有的Graphics模式，當應用於平行運算時，將改為Parallel Compute模式。Parallel Compute模式，是 D10U 為核心加入了硬體Thread Scheduler (線程排序器)，以及稱為「Atomic」的記憶體處理單元，且在每組SM內部加入Share Local Memory，而這也是首代Unified架構所未見的。

為提升平行運算效率， D10U 加入硬體 Thread Scheduler ，以保証核心的 SP 達至接近 100% 負載。上代 Unified Shader 架構，當線程需要讀寫記憶體時，該組 SP 必須等待讀寫動作完成，才會執行其他指令，但 D10U 加入了硬體 Thread Scheduler ，當線程需要等待讀寫記憶體， Thread Scheduler 會立即切換該組 SP 進行其他指令，不會讓 SP 出現閒置情況。

另外， D10U 新增 8 個「 Atomic 」的記憶體處理單元，可執行極微密的記憶體讀、改、寫動作，並提供粒狀記憶體位置存取，為平行運算帶來更有效的架構管理。

D10U 亦強化了平行運算的記憶體讀寫效能，以往每組 TPCs 內建一組 L1 Cache ，讓 TPC 內每組 SM 可共同分享資料，而不需要讀寫外部記憶體以提升效率。新一代的 D10U 更在每一組 SM 內建有 Local Memory ，讓每組 SM 內的每個 SP 也能共同分享資料，令平行運算效率大大提升。

不僅如此， D10U 更可在平行運算模式下，將原用於 Texture 用途的 Texture Cache ，也變成平行運算的快速記憶體暫存，以提高記憶體頻寬及讀寫效率。

D10U Local Memory

Next: D10U︰可同時處理30,720 Threads 支援Double Precision

文章索引：封面故事專題報導顯示卡 NVIDIA