阿里巴巴 Qwen-3 MLX format 有啦!

本帖最後由 javacomhk 於 2025-4-30 08:28 編輯

LM Studio 就好易搵到 Mac GPU 加速專用嘅 MLX 版本

阿里巴巴 Qwen-3 特點:MOE、較細活躍參數,Light-weight 所以RAM 少的易食的,甚至CPU 都行到較大模型、創新 Chain of Thought 跑分高,唔使好似其他模型咁要人手選擇 Thinking Mode

附件: 您需要登錄才可以下載或查看附件。沒有帳號?註冊

附件: 您需要登錄才可以下載或查看附件。沒有帳號?註冊

TOP

本帖最後由 kennylam777 於 2025-5-1 22:49 編輯

你啲翻譯好似有啲奇怪.....

Qwen3今次係分咗MoE同Dense model兩個版本, 唔係得MoE (Mixture of Experts), 而MoE版一個expert 22B嘅設計會方便deploy果陣做expert parallel, 即係一個experts嘅parameters可以啱啱好fit入一個GPU, 咁效能已經會好好多, DeepSeek R1已經表演過呢一招, 唔係新嘢。

Dense model都唔係新嘢, 只係照舊方便deploy嘅傳統設計。

另外, 咩light weight其實只係有MLX quantization啫, 唔係咩新嘢。

反而CoT果度先係最緊要你反而冇講到出黎。

如果你用過啲咩 o1 / thinking / runtime inference model, 就會發現佢哋係硬train到個model回答果陣都係行咗CoT先, 例如DeepSeek R1 Distilled都會加<think></think> 呢個CoT開頭, 反而Qwen3做到可以跟住prompt切換黎講算係新嘢, 雖然之前其他model都做到, 例如Mistral 24B你響system prompt叫佢響<think></think>度諗完先講, 咁佢就會跟住做, 但同真正受過CoT SFT訓練嘅內容仍然有距離。

TOP

本帖最後由 javacomhk 於 2025-5-3 08:31 編輯

我講嘅特點MOE唔係話創新,Lightweight 易食唔係單指quantization.  我部64G RAM 實測行 Deepseek R1 32B 只可以行到 Q4 但 行Qwen-3 32B 就可以行到Q8 仲有 RAM 剩行埋XCode 同 simulator,而且快的及有大的嘅 token size。

Chain of Thought 有講係創新。

TOP