07:本地 LLM 不等於免費:Crow-9B 實測,以及 Qwen 讓我等到睡著的故事
這是 Nerigate Build Log 系列的第七篇。上一篇我把 OpenClaw 從 NAS 搬到 Mac Mini M4——搬家的故事在這裡。
「本地 LLM 就是免費 AI,對吧?」
不完全對。
本地 LLM 確實不需要付 API 費用,但你付出的是:下載時間、硬體記憶體、等待時間,以及調教時間。
我在 Mac Mini M4 / 32GB 上跑了一段時間的本地模型,想分享真實的使用體驗——不是跑分,是日常使用感。
為什麼我想用本地 LLM?
我的 AI Agent(DarkMeow 與 MeowClaw),每天執行很多任務:狀態檢查、cron job 排程、格式轉換、素材摘要⋯⋯
這些任務的特點:高頻率、低複雜度、不需要頂尖推論能力。
如果每次都呼叫 Claude Sonnet 或 gemini-2.5-flash-lite,每月 API 費會相當可觀。但這些任務根本不需要那個層級的智能——一個 7-9B 的小模型完全夠用。
另一個動機是隱私。某些任務涉及客戶資料(像是 AI 招聘助理的履歷處理),我希望這些資料不要離開本機。
Crow-9B:讓我驚艷的模型
Crow-9B 是用 Claude Opus 蒸餾出來的 9B 模型,大小 6.5GB。
下載完,第一次測試:
問題:「幫我把這段英文翻譯成繁體中文,口語化風格」
回應時間:7 秒
七秒。我以為我看錯了,再測一次——還是七秒。
相比之下,我在 NAS 上試過同等級模型,要等三分鐘。差了快三十倍。
M4 的統一記憶體架構功不可沒。CPU 和 GPU 共用記憶體池,模型不需要在 CPU 記憶體和 GPU 記憶體之間搬運資料,這在推論速度上有顯著優勢。
實際使用下來,Crow-9B 適合的任務:
- 格式轉換(JSON → Markdown、表格整理)
- 簡單翻譯和改寫
- 狀態報告生成
- cron job 的低複雜度任務
品質大約在 GPT-4o mini 水準,夠用,而且成本是零。
Qwen 3.5:讓我等到睡著
然後我裝了 Qwen 3.5:9B。
Qwen 3.5 的亮點是內建 thinking mode——它會在回答之前先「思考」,像是 Chain-of-Thought 的強化版。理論上應該讓答案更準確。
我的第一個測試題目:「MES 是什麼?用 50 字解釋。」
然後⋯⋯它開始思考。
思考鏈生成了 3,000+ tokens。它在裡面草稿了五個版本、檢查字數、重新措辭、再確認⋯⋯最後花了快101 秒才給我答案。
那個答案,確實很精準。但我只需要 50 字的解釋。
問題出在 Qwen 3.5 預設的 sampling parameters 很激進——thinking mode 沒有 token 上限,模型會陷入「強迫症式驗證迴圈」。
修正方法是加上 presence_penalty 參數,用 Modelfile 調教:
FROM qwen3.5:9b
PARAMETER num_ctx 8192
PARAMETER num_predict 2048
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 20
PARAMETER presence_penalty 1.5
調教後,回應時間從 101 秒降到約 20-30 秒。好多了,但還是比 Crow-9B 慢。
我的本地/雲端路由策略
跑了幾週之後,我建立了一套自己的路由邏輯:
本地模型(Crow-9B)適合的場景:
- cron job 排程任務
- 格式轉換、文字整理
- 狀態檢查和報告
- 不含敏感資料的低複雜任務
雲端 API 適合的場景:
- 需要精確推論的決策
- 撰寫完整文章
- 複雜的多步驟任務
- 涉及客戶互動的任務
怎麼實作? 在 OpenClaw 的模型路由設定裡,不同 tier 的 sub-agent 指向不同模型:
Tier 1 輕量 → crow-9b(本地,$0)
Tier 2 標準 → Kimi K2.5 或 Gemini Flash
Tier 3 核心 → Claude Sonnet(主力)
Tier 4 關鍵 → Claude Opus + thinking
這樣一來,大量低價值任務走本地,API 費用只花在真正需要的地方。
本地 LLM 的隱形成本
最後說說那個「免費」的代價。
電費: Mac Mini 在推論時功耗大約 30-40W,一個月 24/7 跑下來大概增加 100-150 元台幣的電費。微不足道。
維護時間: Modelfile 調教、更新模型、處理奇怪的 edge case——這些都是時間成本。Crow-9B 相對穩定,Qwen 系列需要花時間調參數。
機會成本: 本地模型品質有天花板。如果你把需要高品質推論的任務路由到本地,省了 API 費,但可能付出錯誤決策的代價。
我的結論:本地 LLM 很值得用,但要用對地方。它不是替代雲端 API,而是互補——讓高頻低值任務有個低成本出路,把 API 額度留給真正需要的工作。
這是 Nerigate Build Log 系列的第七篇。
← 上一篇:06:從 NAS 到 Mac Mini,搬家的 72 小時代價
下一篇:08:什麼任務該派 AI Agent?決策框架 →