作者: ki_cat 時間: 2026-3-26 11:48 標題: 谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗
http://www.aastocks.com/tc/usq/quote/stock-news-content.aspx?symbol=NVDA&id=NOW.1512673&source=AAFN
外媒報道,谷歌研究(Google Research)周二(24日)發表無需預先訓練的壓縮演算法TurboQuant,能在不影響模型精準度下,將大語言模型(LLM)的KV快取量壓縮至3位元。在英偉達(NVDA.US) +3.480 (+1.986%) 盤後 -0.358%H100圖像處理器(GPU)的基準測試中,相較於未量化的32位元鍵值,4位元的TurboQuant在計算注意力邏輯值(attention logits)時的效能提升最高可達8倍,同時將KV快取記憶體減少至少6倍。
KV快取用於儲存先前計算出的注意力資料,使大語言模型無需在每個標記生成步驟中重新計算。隨著上下文視窗不斷擴大,這些快取正逐漸成為主要記憶體樽頸。雖然傳統向量量化方法能縮小快取規模,但由於必須將量化常數與壓縮資料一同儲存,每個值會產生幾位元小量記憶體開銷。在更大上下文視窗下,這些開銷會隨之累積。TurboQuant算法則消除有關樽頸。
記憶體股Sandisk(SDNK.US)及美光(MU.US) -13.440 (-3.398%) 盤後 -1.495%隔晚(25日)分別跌3.5%及3.4%。(fc/j)(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)
via HKEPC IR 5.1.14 - Android(5.1.2F)
作者: ki_cat 時間: 2026-3-26 12:04
已經有大佬實作,mac用mlx,效果顯著
注意係壓kv cache,唔係模型.
via HKEPC IR 5.1.14 - Android(5.1.2F)
https://www.hkepc.com/forum/attachment.php?aid=2520201&k=ead56260c68d718370cc2c25cfbaad5b&t=1780597278&sid=1mj3ZD17fuC

作者: m92fshing 時間: 2026-3-27 21:44
美光等RAM廠,股價一早己經跌定
via HKEPC Reader for Android
作者: tikk 時間: 2026-3-29 21:53
希望可使RAM價回落
作者: rcbananahk 時間: 2026-3-30 10:03
民用打機用又得唔得?
壓GDDR 張GRAPHIC 唔駛咁多RAM 仲正
作者: usei 時間: 2026-3-30 12:05
節省用 ram 定提升性能 ?
作者: ki_cat 時間: 2026-3-30 14:20
理論上節省用ram,自然提升效能.因為瓶頸係ram 速度
via HKEPC IR 5.1.14 - Android(5.1.2F)
作者: s84292 時間: 2026-3-30 17:17
本帖最後由 s84292 於 2026-3-30 09:32 編輯
llm 運作時會快取大量最近的請求,
呢個新技術係類似jpeg壓縮咁將快取資料大量壓縮
舊的主流壓縮技術只可以壓到1/3,新技術可以壓縮到1/6
雖然係有損,但仍然保留到96~98%精度
縮小左自然慳位(少70% ram)之餘又可以慳位寬
https://github.com/sharpner/turboquant-mlx
有興趣可以參考呢個測試報告,該壓縮技術已經可以在mlx 上
不過要發揮最大性能都係要cuda,
在NVIDIA H100 GPU 上的實測顯示,TurboQuant 最高能帶來 8 倍的推理與生成速度提升。
因為nv 係算力夠,而記憶體性能跟不上


