2010-12-17
全新「Cayman」繪圖核心
AMD Radeon HD 6950/6970繪圖卡
文: 腦場打工仔 / 評測中心


AMD 15 日正式發佈全新高階繪圖晶片, GPU 核心代號為「 Cayman 」的 AMD Radeon HD 6950 、 6970 繪圖卡產品,基於全新「 Northern Islands 」 GPU 微架構設計,以如何提升平衡運算效率、 Geometry 及 Tessellation 運算能力、改善功耗效能比與強化電源管理技術為目標,究竟 AMD Radeon HD 6950 、 6970 繪圖卡,能否力壓 NVIDIA GeForce GTX 570 、 580 繪圖卡,在 GPU 市場保持一哥地位 !?



全新「 Cayman 」高階繪圖核心    內建 1536 個 Stream Processors

 

Core

「 Cayman 」繪圖核心架構圖

 

AMD 新一代高階繪圖核心「 Cayman 」與效能級繪圖核心「 Barts 」,均採用全新「 Northern Islands 」 GPU 微架構設計,它沿襲自「 R600 」繪圖核心的「 VLIW; Very Long Instruction Word 」架構,並由舊有的「 VLIW5 」架構作出改良,達成更具效率的「 VLIW4 」架構,以滿足新一代遊戲與 DirectX 11 應用。

 

用家在衡量新舊世代繪圖架構間之性能差異,往往把運算單元提升數目作為注點所在,偏偏新一代高階繪圖核心「 Cayman 」,把 SIMD 列陣數目提升至 24 組,每組 SIMD 列陣擁有 16 個 Stream Processors(SP) ,整顆核心合共 384 個 SP ,每個 SP 內建 4 個 Stream Processing Unit (SPU) ,整顆核心合共 1536 個 SPU ,相較上代「 Cypress 」繪圖核心共有 1600 個 SPU 還要少,令不少用家在升級時感到十分困惑。

 

 Cayman
Cypress
FamilyRadeon HD 6900Radeon HD 5800
SP ArchitectureVLIW4VLIW5
SIMD Array2420
Stream Processors384320
Stream Processors Unit15361600

 

在進入 DirectX 10 時代, AMD 決定選擇 VLIW 架構的 Stream Processor 設計,每組 Stream Processor 內建 5 組 ALU 運算單元,稱為「 VLIW5 」架構,由於擔心市場誤以 Stream Processors (SP) 數目,衡量繪圖核心性能間之差異,採用 SIMD 架構的「 R600 」繪圖核心,決定改以 Stream Processor 內運算單元數目為計算單位,稱為 Stream Processing Unit (SPU) 。

 

AMD 採用「 VLIW5 」架構的 Stream Processor 設計,好處是 5 組 ALU 運算單元能共享一組 Branch Execution Unit 、 Registers 等單元,好處節省電晶體使用數,晶片成本、晶片功耗及未來擴展性,均是 AMD 「 VLIW5 」架構的優勢。

 

擁有明顯優點的同時,「 VLIW5 」缺點亦十分明顯,如何優化「 VLIW 指令」有效地分配工作給 Stream Processor 內的 5 個 ALU 單元,成為 AMD 繪圖核心的效能表現關鍵,驅動程式同時成為 AMD 繪圖架構的最大挑戰。

 

綜合遊戲業者數據, AMD 自「 R600 」起採用「 VLIW5 」架構,雖然最理想情況下每個 Stream Processor 最高可完成 5 筆指令,但亦常出現只有 4 組 ALU 出現閒置的情況,導致運算能力只有理論值的 1/5 ,而平均指令填充率則在 2-3 個 ALU 單元之間,很視乎繪圖程序設計及驅動程式優化,故此 AMD 繪圖核心的最高運算效率理論值,往往與實際運算效率相距甚遠。

 

造成 ALU 使用率偏低主要原因是, AMD 「 VLIW5 」 Stream Processor 內的 5 個 ALU 單元並不是全功能,其中 4 個 ALU 單一週期共可達成 4 個 32Bit FP MAD 、 2 個 64Bit FP MUL / ADD 、 1 個 64Bit FP MAD 或是 4 個 24Bit Int MUL / ADD 指令,並不能執行 Special Function 或 Transcendentals 指令。餘下的一組則是專門化 ALU ,單一週期可處理一組 Special Function 或 Transcendentals 指令,或是 1 組 32Bit FP MAD 指令。

 

由於「 VLIW5 」的 ALU 功能並不完整,部份更具有特殊性執行條件, Ultra Threaded Dispatch Unit 需要把盡量把 5 個互相間並無依賴性的 Shader 指令,結合成一 5D VLIW 指令的難度甚高。

 

全新「 VLIW4 」架構   4-way co-issue

 

VLIW4
改用全新「 VLIW4 」架構,把特殊運算單元刪去

 

因此, AMD 在全新「 Northern Island 」 GPU 微架構中改為「 VLIW4 」設計,刪去了原本只針對 Special Function 或 Transcendentals 指令,或是 1 組 32Bit FP MAD 指令的 T-Unit 特殊運算單元,雖然每組 Stream Processor 擁有 ALU 運算單元數目減至 4 個,但這 4 個 ALU 卻是功能性相同並具完整的。

 

「 VLIW4 」架構的 Stream Processor 單一週期處理 4 筆 32-Bit FMA 、 MAD 、 MUL 或 ADD 、或是 2 筆 64Bit ADD 、或是 1 筆 64Bit FMA 或 MUL 浮點運算指令。整數運算方面則支援單一週期處理 4 筆 24-Bit MAD 、 MUL 或 ADD 、或是 4 筆 32Bit ADD 或 bitwise 指令、或是 1 筆 32Bit MAD 或 MUL 整數運算、或是一筆 64Bit ADD 整數運算。

 

「 VLIW4 」把 4 個 ALU 功能變成全功能及對等,達成了 4-Way co-issue 支援,刪去了 T-Unit 特殊運算單元,取而代之是 4 個 ALU 均能處理 Special Function 或 Transcendentals 指令,不過處理一組 Special Function 或 Transcendentals 指令的 ALU ,需要佔用 4-Way co-issue 中的其中 3 組 issue slot ,令 Stream Processor 內只餘下 1 組可執行其他指令。

 

「 Cayman 」每 mm2晶片尺寸達成 10% 效能提升

 

Radeon HD 6970

 

因此,全新「 Cayman 」繪圖核雖然整體 Stream Processor Unit 數目相較上代「 Cypress 」減少 64 個,但 ALU 變成全功能及對等,支援 4-Way co-issue ,單一週期指令執行數不降反升。

 

「 VLIW4 」由 5 個 ALU 減至 4 個 ALU ,令 VLIW 指令在排程及暫存器管理方面變得簡單,雖然 ALU 總數不及上代,但整體 Stream Prcessors 數目卻由 320 個提升至 384 個,預測分支與 VLIW 指令編繹變得簡單,單一週期可執行 384 個 VLIW 指令,而一組 VLIW4 指令,大大減少核心被閒置的機會,在相約的 SPU 數目下達成最高的繪圖運算效能。

 

據 AMD 指出,全新「 VLIW4 」 Core 設計相較舊有的「 VLIW5 」 Core ,更有效把更多的指令填充至每個運算單元,簡化了排程及暫存器管理工序, AMD 透過微架構改良,每 mm2晶片尺寸達成 10% 效能提升。

 

此 外, AMD 的 Stream Processor 內,每個 ALU 單元均可處理一個 Single Precision 指令,因此「 VLIW5 」的 Stream Processor 可達成單一週期 5 個 Single Precision 指令,而「 VLIW4 」的 Stream Processor 」則可達成單一週期  4 個 Single Precision 指令。但在 Double Precision 指令方面, AMD Stream Processor 無論是「 VLIW4 」或是「 VLIW5 」,單一週期均只能執行 1 個 Double Precision 指令。

 

因此,採用「 VILW4 」架構的「 Cayman 」繪圖核心,雖然 ALU 單元數目沒有提升,但擁有 384 個 Stream Processors 令它的 Double  Precision 指令執行效率,遠較上代採用「 VLIW5 」架構、擁有 1600 個 ALU 單元的「 Cypress 」繪圖核心高出甚多。

分享到:
發表評論