電腦領域 HKEPC Hardware - Powered by Discuz! Board

標題: 谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗 [打印本頁]

作者: ki_cat 時間: 2026-3-26 11:48 標題: 谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗

http://www.aastocks.com/tc/usq/quote/stock-news-content.aspx?symbol=NVDA&id=NOW.1512673&source=AAFN

外媒報道，谷歌研究(Google Research)周二(24日)發表無需預先訓練的壓縮演算法TurboQuant，能在不影響模型精準度下，將大語言模型(LLM)的KV快取量壓縮至3位元。在英偉達(NVDA.US) +3.480 (+1.986%) 盤後 -0.358%H100圖像處理器(GPU)的基準測試中，相較於未量化的32位元鍵值，4位元的TurboQuant在計算注意力邏輯值(attention logits)時的效能提升最高可達8倍，同時將KV快取記憶體減少至少6倍。

KV快取用於儲存先前計算出的注意力資料，使大語言模型無需在每個標記生成步驟中重新計算。隨著上下文視窗不斷擴大，這些快取正逐漸成為主要記憶體樽頸。雖然傳統向量量化方法能縮小快取規模，但由於必須將量化常數與壓縮資料一同儲存，每個值會產生幾位元小量記憶體開銷。在更大上下文視窗下，這些開銷會隨之累積。TurboQuant算法則消除有關樽頸。

記憶體股Sandisk(SDNK.US)及美光(MU.US) -13.440 (-3.398%) 盤後 -1.495%隔晚(25日)分別跌3.5%及3.4%。(fc/j)(美股為即時串流報價； OTC市場股票除外，資料延遲最少15分鐘。)

via HKEPC IR 5.1.14 - Android(5.1.2F)

作者: ki_cat 時間: 2026-3-26 12:04

已經有大佬實作,mac用mlx,效果顯著
注意係壓kv cache,唔係模型.

Uploaded_via_HKEPC_IR_Pro_Android(3866a).jpg

via HKEPC IR 5.1.14 - Android(5.1.2F)

圖片附件: Uploaded_via_HKEPC_IR_Pro_Android(3866a).jpg (2026-3-26 12:02, 124.8 KB) / 下載次數 6
https://www.hkepc.com/forum/attachment.php?aid=2520201&k=ead56260c68d718370cc2c25cfbaad5b&t=1780597278&sid=1mj3ZD17fuC

作者: m92fshing 時間: 2026-3-27 21:44

美光等RAM廠，股價一早己經跌定

via HKEPC Reader for Android

作者: tikk 時間: 2026-3-29 21:53

希望可使RＡＭ價回落

作者: rcbananahk 時間: 2026-3-30 10:03

民用打機用又得唔得?
壓GDDR 張GRAPHIC 唔駛咁多RAM 仲正

作者: usei 時間: 2026-3-30 12:05

節省用 ram 定提升性能 ?

作者: ki_cat 時間: 2026-3-30 14:20

節省用 ram 定提升性能 ?
usei 發表於 2026-3-30 12:05

理論上節省用ram,自然提升效能.因為瓶頸係ram 速度

via HKEPC IR 5.1.14 - Android(5.1.2F)

作者: s84292 時間: 2026-3-30 17:17

本帖最後由 s84292 於 2026-3-30 09:32 編輯

節省用 ram 定提升性能 ?
usei 發表於 2026-3-30 04:05

llm 運作時會快取大量最近的請求，
呢個新技術係類似jpeg壓縮咁將快取資料大量壓縮
舊的主流壓縮技術只可以壓到1/3,新技術可以壓縮到1/6
雖然係有損，但仍然保留到96~98%精度

縮小左自然慳位（少70% ram)之餘又可以慳位寬

https://github.com/sharpner/turboquant-mlx

有興趣可以參考呢個測試報告，該壓縮技術已經可以在mlx 上

不過要發揮最大性能都係要cuda,
在NVIDIA H100 GPU 上的實測顯示，TurboQuant 最高能帶來 8 倍的推理與生成速度提升。
因為nv 係算力夠，而記憶體性能跟不上