[測試] 原來跑本地35B LLM大模型跟本不需顯卡 速度達20t/s

本帖最後由 wiz123 於 2026-5-11 11:11 編輯

原來跑本地35B LLM也跟本不需顯卡,方法是用MOE MODEL,速度達20t/s,即時對話, 養龍蝦都夠用,最重要是文本長度,用DDR5 RAM,要講幾耐都得,不用忘記一開始講乜

load_backend: loaded CPU backend from /app/libggml-cpu-alderlake.so
| model                          |       size |     params | backend    | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB |    34.66 B | CPU        |       8 |           pp512 |        107.09 ± 0.38 |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB |    34.66 B | CPU        |       8 |           tg128 |         20.38 ± 0.13 |

load_backend: loaded CPU backend from /app/libggml-cpu-alderlake.so
| model                          |       size |     params | backend    | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| qwen35moe 35B.A3B Q6_K         |  26.55 GiB |    34.66 B | CPU        |       8 |           pp512 |        120.33 ± 4.32 |
| qwen35moe 35B.A3B Q6_K         |  26.55 GiB |    34.66 B | CPU        |       8 |           tg128 |         17.45 ± 0.42 |

ggml_cuda_init: found 2 CUDA devices (Total VRAM: 56237 MiB):
  Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, VRAM: 32110 MiB
  Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24126 MiB
load_backend: loaded CUDA backend from /app/libggml-cuda.so
load_backend: loaded CPU backend from /app/libggml-cpu-alderlake.so
| model                          |       size |     params | backend    | ngl | threads |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | --------------: | -------------------: |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB |    34.66 B | CUDA       |  99 |      24 |           pp512 |      6033.68 ± 67.15 |
| qwen35moe 35B.A3B IQ4_XS - 4.25 bpw |  17.63 GiB |    34.66 B | CUDA       |  99 |      24 |           tg128 |        203.47 ± 0.73 |

唔想打擊你 你貼出黎誤導人都講下數據好 呢種prefill 同tok/s 你諗住同佢鬥長命? 如果你手上太多RAM用唔哂可以賣出去換Claude 玩

TOP

唔想打擊你 你貼出黎誤導人都講下數據好 呢種prefill 同tok/s 你諗住同佢鬥長命? 如果你手上太多RAM用唔哂 ...
kmb1933 發表於 2026-5-21 20:22


呢幾日出左MTP版,tok/s可以再快多一倍,人類閱讀都係10tok/s左右,快過10tok/s已經可以同AI即時對答沒有問題足夠流暢,如果係用AI黎寫CODE咁一定係越快越好

TOP

真係裝龍蝦試下先啦, 我驚一行就 loop 死咗

TOP

而家D ai 會即時搵料再核對,

唔知本地ai 做唔做到

TOP

而家D ai 會即時搵料再核對,

唔知本地ai 做唔做到
verynothing 發表於 2026-5-22 08:39


有架,可以加web search 功能

TOP