NVIDIA 再發佈新 Turing 繪圖卡 - Tesla T4
NVIDIA 今日在日本舉行了 GTC 大會,首席執行長 Jensen Huang 宣佈在 AI 領域方面的最新進展,推出針對數據中心而設的全新人工智能推理平台「Tesla T4 GPU」,採用了在上個月首次發佈的專業級及遊戲級 Turing GPU,全新的「Tesla T4 GPU」在相同的功率範圍內提供高達 12 倍的性能,可能為推理工作負載功效設定了新的標準。
NVIDIA 全新 Tesla T4 GPU 搭載 320 個 Turing Tensor 核心以及 2,560 個 CUDA 核心,支援 FP32、FP16、INT8 以及 INT4 具彈性且多精度功能的突破性效能。封裝成一顆功耗僅 75 瓦且省電又小巧的 PCIe 板型,能輕易部署到大多數伺服器中,而 FP16 的尖峰效能可達到 65 teraflop、INT8 可達到 130 teraflop、INT4 則達到 260 teraflop。
Tesla T4 還具有針對 AI 視頻應用的優化功能,由硬件轉碼引擎提供動力,比上代 Tesla P4 擁有多兩倍的性能,NVIDIA 表示這些卡可以同時解碼多達38個全高清視頻流。NVIDIA 還宣布 Turing 優化的 CUDA 10,其中包括優化的數據庫、編程模型及圖形API互操作性等。
NVIDIA 的 TensorRT Hyperscale 平台是圍繞 T4 的一系列新技術,該卡支援所有主要的深度學習框架,如 PyTorch、TensorFlow、MXNet 和 Caffee2。NVIDIA 還提供其 TensorRT 5,是NVIDIA深度學習推理優化器和運行引擎時的新版本,這款推論優化器與運轉時間引擎 (runtime engine) 支援 Turing Tensor 核心,並針對多精度作業附載擴充一套神經網路最佳化。
NVIDIA Tesla T4 GPU
同時,NVIDIA 帶來了 TensorRT 推論伺服器 ,這款容器化微型伺服器軟體讓應用程式在資料中心生產環境下運用各種 AI 模型,透過 NVIDIA GPU 雲端容器可以免費註冊下載此軟體,不僅可以最大化資料中心的吞吐量以及 GPU 使用率,還支援所有熱門的 AI 模型與框架,並能整合 Kubernetes 與 Docker。
大規模的資料中心每天需要處理數十億的語音搜尋、翻譯、圖像、影像、推薦服務以及社群媒體互動等,上述的每一個應用皆需透過伺服器內部不同類型的神經網路來處理。為了優化資料中心的最大吞吐量以及伺服器使用率,NVIDIA TensorRT 超大規模平台包含即時推論軟體以及 Tesla T4 GPU,其處理搜尋結果的速度較單獨使用 CPU 快 40 倍。
NVIDIA 還宣佈了 AGX 陣容,這是 NVIDIA 基於 Xavier 產品系列的新名稱,這些產品專為從機器人到自動駕駛汽車的自動機器系統而設計。產品陣容包括 Drive Xavier 和新推出的 Drive Pegasus,最初推出了兩款 Xavier 處理器和兩款 Tesla V100 GPU。NVIDIA 現已將 GPU 更新為 Turing 模型,還提供類似的設計稱為「Clara平台」,「Clara平台」採用單一 Xavier 處理器和 Turing GPU,適用於醫療應用。
NVIDIA專注於提升推理工作負載的性能是一項新的戰略,預估 AI 推論產業將於未來五年內成長至 200 億美元。據了解,全球約96% 的伺服器都採用 Intel 產品,因此 Intel 在較早前曾聲稱世界上大多數的推理工作負載都運行 Xeon 處理器,並在數據為中心創新峰會上宣布 2017 年已為 AI 工作負載銷售了 10 億美元的處理器,預計這一數字在未來幾年內將迅速增長。
Intel憑藉其伺服器的市佔擁有初期的優勢,然而,低成本和低功耗的推理加速器如 NVIDIA 新的 Tesla T4,在其每瓦特性能優勢將構成巨大威脅,AMD即將推出用於深度學習的7nm Radeon Instinct GPU,並正在為推理工作負載開發自己的定制晶片,相信在未來幾年時間推理工作負載將成為 NVIDIA、Intel 和 AMD 之間激烈爭奪的戰場。