Alibaba「含光 800」AI NPU 處理器登場
傳統的 X86、GPU 晶片行業基本上已非常成熟,技術的進步讓 CPU、GPU、FPGA、ASIC 這些不同處理器廠商之間的競爭亦越來越激烈,“中國芯”要爬頭追上並不容易,然而人工智能行業剛剛處於初創成長期,國內外科技巨頭、傳統晶片巨頭及初創公司紛紛佈局人工智能晶片市場,在近日舉行的 ISSCC 2020 大會上,阿里平頭哥第一顆自研 AI 處理器「含光 800」及 NPU 加速器的真身正式曝光,據稱 1 顆「含光 800」運算能力相當於 10 顆 GPU,號稱是「全球最勁」的 AI 處理器。
在去年九月,阿里巴巴發佈了首款 NPU 處理器「含光 800」 ,「含光 800」名字中的含光出自《列子·湯問》篇有“上古三劍”一章,寓意含而不露,光而不耀,象徵「含光 800」無形卻強勁的算力。
阿里巴巴平頭哥「含光 800」採用台積電 12nm 工藝,擁有 170 億個電晶體數量,核心面積高達 709mm²,相當於 NVIDIA 高階的 TU102 晶片,目前 NVIDIA TU102 的核心面積約為 754mm²,所以「含光 800」將會是一款相當大的 AI 處理器。
性能方面,阿里巴巴官方給出的 ResNet-50 v1.5 標準測試中,在離線模式(Offline mode)、伺服器模式(Server mode)、多路模式(Multi stream mode)、單路模式(Single stream mode) 四個場景都取得了單晶片第一的成績,推理性能達 78563 IPS,比目前業界最好的 AI 晶片性能高 4 倍;效能比 500 IPS/W,是第二名的 3.3 倍。
而阿里巴巴亦曾在去年 9 月舉行的雲棲大會上進行現場演示,在城市大腦中實時處理杭州主城區交通視頻,需要 40 顆傳統 GPU,延時為 300ms,使用「含光 800」僅需 4 顆,延時降至 150ms。
至於在拍立淘商品庫每天新增 10 億商品圖片,使用傳統 GPU 算力識別需要 1 小時,使用「含光 800」後可縮減至 5 分鐘,指出 1 顆「含光 800」的運算能力相當於 10 顆 GPU。
阿里巴巴日前更在 ISSCC 2020 大會上展示了「含光 800」及 NPU 加速器,可以看到 NPU 上都印有 AliNPU Vision 的 logo,除了未有提供視頻輸出接口之外,基本上外觀是與市場上一般的繪圖卡差不多。
在內部的 PCB 上就見到 NPU 採用了 16 相供電,外接獨立的 8+4PIN 電源。阿里巴巴未有提供 TDP 的功耗指標,不過官方表明其性能相當於 10 顆 GPU,TDP 估計會是 250W 或以上。
阿里巴巴表示,「含光 800」主要用於雲端視覺場景,目前已大規模用於阿里巴巴集團內多個場景,如視頻圖像識別/分類/搜索、城市大腦等,未來還可應用於醫療影像、自動駕駛等領域。「含光800」將通過阿里雲對外輸出 AI 運算能力,而基於「含光 800」的 AI 雲端服務將會實現比傳統 GPU 提升 100% 的運算性價。