Intel 正式發布全新的 Core Ultra 200S 系列處理器,代號 Arrow Lake-S,升級了全新的 Lion Cove 大核和 Skymont 小核。Intel 聲稱該系列單核性能提升 8%、多核性能提升 15%,並且功耗表現下降了 30%。這實在太誇張了吧!?HKEPC 編輯部將分析 Arrow Lake 處理器的改良之處,並將 Intel 全新的 Core Ultra 9 285K 處理器與 Core i9-14900K 及 Ryzen 9 9950X 進行效能對比測試。
Arrow Lake-S : Intel Core Ultra 200S 處理器
由於 Intel 第 13 / 14 代 Core 的不穩定事件引發了巨大風波,導致不少使用 Intel 的死忠粉絲轉投對手 AMD 的懷抱。Intel 是否能夠依靠 Core Ultra 200S 系列翻身,成為市場的焦點,面對這樣的面,Intel 有著不能輸的壓力。究竟全新的 Arrow Lake 能否憑藉全新的 Lion Cove 和 Skymont 大小核架構,以及全新的 3D Foveros 先進封裝技術,扭轉局勢呢?
延續 Lunar Lake 的低功耗表現,Intel Arrow Lake 也不再是僅僅追求高性能的「食電怪」,而是變成了一顆具有高能效比的 CPU,特別是在輕負載運算下,性能不變但功耗卻大幅減少了 40%,這實在是令人驚喜。此外,它首次在桌面平台中加入了 NPU 單元,以提供 AI 運算能力,這一點為其加了不少分數。
取消了超執行緒(Hyper-Threading)技術後,部分測試中確實出現了新不如舊的情況,始終 24 線程與 48 線程還是有數量上的差異。雖然平均功耗降低了 30%,但某些遊戲的表現會略遜於第 13 / 14 代處理器。
不過,面對 ARM 架構不斷的進逼,Intel 已經不能只顧性能而忽略能效表現,Arrow Lake 的發展方向是正確的,但用戶是否願意買單則是另一回事了。
Foveros 3D 先進封裝技術
- Die Shot
- Block Diagram
▲ Intel Arrow Lake-S 處理器 Die Shot
有別於 Raptor Lake-S 採用單一晶片設計,全新的 Arrow Lake-S 是基於 Chiplet 小晶片並採用 Intel Foveros 3D 先進封裝技術的處理器。這些小晶片分為 Compute Tile、GPU Tile、SoC Tile 及 I/O Tile,並連結不同晶片的 Base Tile,此外還包括用於結構填充的 Filler Tile 矽塊。
在制程方面,Arrow Lake-S 採用了四種不同的制程工藝。Compute Tile 採用 TSMC N3B 3nm 制程,GPU Tile 採用 TSMC N5P 5nm 制程,而 SoC Tile 和 I/O Tile 則都使用 TSMC N6 6nm 制程。只有 Base Tile 使用 Intel 自家的 22nm 制程。從製造角度來看,Arrow Lake-S 是一顆具備多家製造廠(Multi-Foundry)及多工藝的真正 3D 先進封裝的異構 Chiplet 處理器。
Compute tile : 最高 8P + 16 E、不支援 Hyper-Threading
全新的 Arrow Lake 的 Compute Tile 的 CPU 核心與 Lunar Lake 相似,P-Core 升級至 Lion Cove 微架構,E-Core 升級至 Skymont 微架構,最高可配置 8 顆 P-Cores 和 16 顆 E-Cores。然而,新一代 P-Core 取消了 Hyper-Threading 技術,因此最高執行緒數由上代的 32 個降至 24 個。
據了解,Intel 取消 Hyper-Threading 功能的原因,主要是出於散熱及能源效益的考量。以 Raptor Cove 的 P-Core 為例,加入 Hyper-Threading 功能的代價是晶片面積增加約 8%,雖然可以提升約 30% 的 IPC 性能,但代價是功耗增加約 20%。隨著晶片制程技術的進步,晶片的尺寸愈來愈小,這意味著更多的晶體管被擠壓在同樣的面積上,導致功耗密度增加,熱力更加集中,使得晶片散熱成為一大挑戰。
由於新一代 Arrow Lake 的 P-Cores 和 E-Cores 均有明顯的性能增長,特別是 E-Core 的 IPC 性能相當可觀,因此 Intel 決定讓 E-Cores 承擔更多的運算工作,放棄 Hyper-Threading 以換取更佳的散熱及能源效益。根據 Intel 的官方數據,Core Ultra 9 285K 雖然線程支援數由 36 降至 24,但多核性能卻較 14900K 提升約 10%,同時功耗降低了 30%。
為了提升 Arrow Lake 的 Compute Tile 晶片散熱表現,P-Core 與 E-Core 的分布完全改變,每顆 P-Core 與 E-Cores 的群集相鄰。這種設計具有兩個顯著的優勢:首先,P 核和 E 核之間的通信延遲顯著降低。例如,當執行緒調度程序需要在 P 核和 E 核之間分配工作負載或進行工作負載轉移時,這個過程將更加有效率。第二個優點是增強的散熱和更平衡的熱分佈,使得散熱效果相較上代 Raptor Lake 大大提升。
P-Core 大核 : Lion Cove
Lion Cove 是 Arrow Lake 全新的 P-Core 核心,相較上代 Raptor Cove 核心,兩者最明顯的差異是設計方向, Lion Cove 設計方向不再是單純追求性能,決定把 P-Core 整體架構推倒重來,以提供更好的性能、功耗和面積比 (PPA) 為目標,其中一個重大改進是狠心把 Hyper-Threading 技術物理刪除,在棄用 SMT 獲得了晶片面積和功率餘裕後,Intel 開始徹底改造 Lion Cove P-Core 微架構本身。所有關鍵組件作出改進,包括重新設計的 Front-End 、更先進的分支預測、更寬的發送與調度能力,並且改良了記憶體系統提升了記憶體存取效率。
🔴 Lion Cove P-Core 改良主要包括以下幾個方面:
◾AI 驅動的電源管理:採用了 AI 技術來最佳化電源管理,提高效能和能源效率。
◾18 個執行端口:增加了執行端口數量,提升了指令執行的並行度和效率。
◾取消 Unified Reservation Station 設計︰變成獨立的 INT 整數及 FP 浮點運算群
◾更寬的調度能力:增強了 Relocate、Rename 及 Retire 指令的調度能力,提升整體性能。
◾更細緻的時鐘間隔 (16.67MHz):提高時脈間隔的精細度,進一步最大化時脈控制。
◾PPA 最佳化 (Performance, Power, Area):提供更好的性能、功耗和面積比。
◾8 倍的預測寬度:增強了分支預測的能力,提高了指令預測的準確性和效率。
◾改進的記憶體子系統:加入了 D0 快取、增至 3MB 的 L2 快取。
◾36MB 的 L3 快取:提供更大的 L3 快取容量,提升資料存取速度。
Lion Cove 的前端引擎最直接的改良是將 x86 解碼器由 6-Wide 提升至 8-Wide,使每個週期可處理的 x86 指令數量由 6 個增加至 8 個。與 AMD Zen 5 採用的兩個 4-Wide 解碼器設計不同,Intel Lion Cove 能夠真正實現單一週期解碼不低於 8 條 x86 指令的能力。此外,每個週期可提取的 μOps 也由 8 個提升至 12 個,這為前端引擎提供了更高的 x86 指令吞吐量。雖然我們不能單純從順序指令吞吐量來評估 CPU 的實際效能,但 Lion Cove 強大的解碼能力使得 ARM 架構的指令吞吐量優勢完全被追平。
在分支預測方面,Lion Cove 只作出了小幅度的改良,提升了函數調用和返回的預測精度,每個週期可執行 3 次預測(3 taken predictions/cycle)和最多 4 個預測窗口(4 prediction windows/cycle)。不過,相較於 Zen 5 在分支預測方面大刀濶斧的改良,Lion Cove 顯得過於保守。
在執行引擎方面,Lion Cove 作出了重大的改動,完全放棄了自 P6 時期沿用至今的統一保留站(Unified Reservation Station)設計,將運算單元再次分析為獨立的整數(INT)和浮點(FP)運算群,同時將執行端口的數量由 12 個大幅增加至 18 個。
其中,整數 ALUs(算術邏輯單元)由 5 個增至 6 個,跳躍單元(Jump Units)和移位單元(Shift Units)均由 2 個增至 3 個。乘法單元(MUL Units)由 1 個增至 3 個,增加乘法單元的數量意味著處理器每個時鐘週期可以進行更多的乘法運算,對數學運算性能的提升至關重要。
在浮點方面,SIMD ALUs 從 3 個增加到 4 個,其中 2 個為 FMA 單元,能在一個操作中同時進行乘法和加法,另外 2 個是除法單元。增加除法單元的數量可以加速浮點除法和整數除法的計算,這在數學密集型應用中非常重要。
為了減少單元閒置造成的資源浪費,Lion Cove 微架構將擁有更深的無序執行(Out of Order)引擎,重訂緩衝區(Re-Order Buffer)由 512 個提升至 576 個,目的是進一步降低運算延遲,並提高指令層面的平行運算能力。事實上,執行引擎的性能提升在很大程度上來自於 ROB 的增加。
E-Core 小核︰Skymont
Skymont 是 Arrow Lake 全新的 E-Core 核心。雖然大部分用戶較為注重 P-Core 的性能,但實際上 Arrow Lake 的 E-Core 才是本代的真正主角。E-Core 的整體性能相比上代 Raptor Lake 的 E-Core 提升了 38%,過去 E-Core 最弱的浮點運算能力也得到了大幅改善,較上代 Raptor Lake 增加了 68%。其 IPC 性能甚至接近 AMD Zen 4 及 Raptor Lake 的大核。正因為本代 E-Core 的性能表現如此出色,Intel 才敢在 P-Core 中取消 Hyper-Threading 技術。
🔴 Skymont E-Core 改良主要包括以下幾個方面:
◾26 個 Dispatch Ports : 單一週期可以處理更多的指令,提高並行處理能力
◾96B Parallel Fetching : 單一週期可提取更多的指令,增強整體吞吐量
◾雙倍 L2 Cache 頻寬 : 處理器可以更快地訪問數據, 對於密集型應用程式有明顯性能提升
◾增強的預測能力 : 改進的預測分支技術,大幅提升亂序執行效率
◾更寬的調度能力:增強了指令的分配、重命名和退休的調度能力,提升整體性能。
◾成為環形匯流排的一部份︰降低與 P-Core 之間的延遲,並與 P-Core 共享 L3 Cache。
Skymont 的 Front End 引擎採用了全新 3x3 的 x86 Decoder 設計,令每個週期可處理的 x86 指令提升最高 8 個,且具備單執行緒使用所有解碼器的能力,並使用 Pre-decode cache 替代 op cache 實現單線程利用多解碼器模組的優勢,使得 Skymont 的指令吞吐能力甚至優於 Zen 5 的雙 4-Wide Decoder 設計。
預測分支方面,Skymont 小核增至 128Byte 的分支查找能力,96Byte 並行讀取能力;轉譯後備緩存 (TLB) 方面,L2 Branch Targets Buffer (BTB) 由上代 5K 增至 8K Entries,達到了 Zen 4 的規模,能提升預測分支準確性,減少對記憶體子系統的功耗,真實預測分支能力甚至比 AMD Zen 4 甚至 Lion Cove 大核都要強,真的讓人懷疑 Intel 是不是把精英都調到小核團隊,導致今代 Lion Cove 表現如此不濟。
Execution Engine 方面,Skymont 小核亦作出了重大的改動,分配隊列從 6-wide 增加至 8-wide,這意味著每個時鐘周期可以分配更多的指令,提升了處理器的指令吞吐量。退休隊列從 8-wide 增加至 16-wide,這增強了處理器在完成指令後的效率,可以更快地回收資源。
擁有更深 Out of Order 引擎,Re-Order Buffer 由 256 個提升至 416 個,L2 TLB 亦由 3,096 Entires 增至 4,096 Entires ,目的是要進一步降低運算延遲,並且進一步提高指令層面的平行運算能力。
Skymont 的執行端口亦由上代 17 個大幅增加 26 個,整數 ALUs (Arithmetic Logic Units, 算術邏輯單元) 由 4 個增至 8 個,增至 3 個跳躍單元(Jump Units)和 3 個載入單元 (Load/Store Unit),載入和跳轉的效率大大提升了 33%,進一步提高指令執行的速度。
向量引擎配備 4 個 128-bit 浮點單元 (FPU) 使用運算能力得以翻倍,同時減低了 FMUL、FADD 和 FMA 的延遲,這對性能提升至關重要,從 Intel 小核的發展的種種趨勢,某些方面已經展現出成為主力大核微架構的潛質。
Intel 第三代 Thread Director : E-Core 先行
Intel 針對 Arrow Lake 的大小核架構升級至第三代 Thread Director 硬體調度器,旨在確保適當的軟體工作負載由合適的 CPU 核心處理。今代特別在 Skymont E-Core 中引入了硬體效能回饋機制,使 E-Core 能夠根據指令的資源類型進行調整。此外,配合 Lion Cove P-Core 新增的效能遙測技術,Thread Director 能夠將適合的工作類型引導至 P-Core 執行。
由於今代 E-Core 的 IPC 性能相當出眾,因此 Arrow Lake 處理器會優先將所有非遊戲及生產力工作負載優先分配給 E-Core。當 Thread Director 偵測到系統有更高的性能需求時,例如執行遊戲或高負載工作等,Thread Director 會將這些負載轉交給 P-Core 接手,令 Arrow Lake 能大幅提高處理器整體能源效率。
GPU Tile 晶片︰4 Slice 的 Xe-LPG 繪圖核心
Arrow Lake 的 GPU Tile 晶片使用 Xe-LPG 繪圖架構、採用 5nm TSMC N5P 制程工藝,屬較舊的 Meteor Lake 的 Xe-LPG 圖形架構,相比支援 Lunar Lake 使用的 Xe2 架構要老一代,而且只有一半規模,始終大部份中高階的 Desktop 用家都會配置外置顯示卡使用。
Arrow Lake 的 Xe-LPG 繪圖核心具備有一個 Render Slice,包含 4 個 Xe 核心、合共 64 個 EU 與 512 個 Shaders,擁有 2 個 ROB 及 2 個 RTU 光線追蹤單元,性能方面大約是上代 Raptor Lake-S 繪圖核心的 2 倍,並且可以完全支援 DirectX 12 Ultimate,GPU 核心具備相當大的 4MB L2 緩存,可以緩衝 iGPU 和 SoC 區塊之間的傳輸。
由於 Arrow Lake 的 Xe-LPG 繪圖核心並不具備 XMX 運算單元,因此它只可以執行 DP4a 形式的 AI 加速運算,可提供約 8 TOPS AI 算力。
SoC Tile 晶片︰內含 NPU 3、DDR5 控制器、顯示引擎
由於 Arrow Lake 處理器並沒有加入低功耗 E-Core 設計,因此 SoC Tile 大部份面積其實被 NPU 單元佔據,Arrow Lake 採用的是 NPU 3 架構,相比 Lunar Lake 使用的 NPU 4 架構要老一代,包含 2 個神經計算引擎及 2 個大型 INT8 和 FP16 的乘加運,這些陣列對於深度學習算法的性能至關重要,能加速神經網絡的運算。
擁有四個 SHAVE DSP(可編程的數位信號處理器),這些處理器專為高效能計算而設計,適合於處理複雜的數據運算,並有 4MB 的快速緩存(Scratchpad RAM)可用於儲存臨時數據,提高數據存取速度,進一步提升整體性能。
不過這顆 NPU 3 單元峰值吞吐量為 13 AI TOPS,如果加上 CPU 支 AVX 與 VNNI 指令可提供 15 TOPs AI 算力,加上 GPU 的 8 TOPS 算力,總數最高可達 36 TOPS,仍未達到 Microsoft Copilot+ 本地加速的 40 TOPS 要求。不過反正大部份中高階的 Desktop 用家,都會配置外置顯示卡使用,忘記它吧。
Media Engine : 支援 AV1 編碼,最高 4 個 4K 顯示輸出
Arrow Lake 的媒體引擎和顯示引擎同樣是放在 SoC Tile 之中,硬體播放加速支援最高 8K @ 60 Hz 的 10-bit HDR 播放,支援的格式包括 VP9、AVC、HEVC、AV1 和 SSC 等現代影片編碼的主流格式。編碼方面支援高達 8K @ 120 Hz 的 10-bit HDR 硬體加速編碼,包括 VP9、AVC、HEVC 和 AV1 等影片編碼。
顯示輸出方面,支援最多 4 個顯示輸出及 HDMI 2.1、DisplayPort 2.1 和 eDP 1.4 顯示標準,解析度和刷新率方面,可支援 1 個 8K HDR @ 60Hz、4 個 4K HDR @ 60Hz 或是 1 個 1440p @ 360Hz。
僅支援 DDR5、DDR5-8000 為最佳速度
新一代 Arrow Lake 記憶體控制器僅支援 DDR5 記憶體,因此不會再有支援 DDR4 的主機板型號,支援 DDR5 雙道道記憶體 (32bit x 4) 技術,支援 UDIMM、SODIMM、CUDIMM 及 CSODIMM 記憶體種類,每個 DIMM 支援高達 48GB 的密度、最高 192GB 記憶體容量。
記憶體速度方面,原生支援 JEDEC DDR5-6400,Intel 指出 DDR5-8000 是超頻的「Sweet Spot」,不少 Z890 高階主機板支援高達 DDR5-9600 的速度,甚至部份專為超頻而設的主機板更可達 DDR5-10000 的速度,相當誇張。雖然 Arrow Lake 處理器支援 ECC(錯誤更正碼)記憶體功能,但在 Z890 晶片組上及當前宣布的處理器型號中並不支援。
I/O 連接性︰支援 PCIe 5.0 與 Thunderbolt 4
I/O 連接方面,Arrow Lake 處理器的 I/O Link 分布在 SoC Tile 與 I/O Tile 之中,如果不計算連接晶片組的 DMI 4.0 x8,SoC Tile 提供 PCIe Gen 5 x16 與 4 條 PCIe Gen 4 x4 通道,其中 x16 通道專門用於 PEG 接口,用作連接獨立顯示卡,可被拆分成 2 組 x8 或 1 組 x8 + 2 組 x4,非常具彈性,餘下的 1 組 PCIe 4.0 x4 通道被分配作 M.2 SSD 用途。I/O Tile 方面,提供了 1 組 PCIe Gen5 x4 作 M.2 SSD 用途,另外提供了 2 Port 的 Thunderbolt 4 控制器。