07:本地 LLM 不等於免費:Crow-9B 實測,以及 Qwen 讓我等到睡著的故事

Ollama Mar 17, 2026

這是 Nerigate Build Log 系列的第七篇。上一篇我把 OpenClaw 從 NAS 搬到 Mac Mini M4——搬家的故事在這裡


「本地 LLM 就是免費 AI,對吧?」

不完全對。

本地 LLM 確實不需要付 API 費用,但你付出的是:下載時間、硬體記憶體、等待時間,以及調教時間

我在 Mac Mini M4 / 32GB 上跑了一段時間的本地模型,想分享真實的使用體驗——不是跑分,是日常使用感。


為什麼我想用本地 LLM?

我的 AI Agent(DarkMeow 與 MeowClaw),每天執行很多任務:狀態檢查、cron job 排程、格式轉換、素材摘要⋯⋯

這些任務的特點:高頻率、低複雜度、不需要頂尖推論能力

如果每次都呼叫 Claude Sonnet 或 gemini-2.5-flash-lite,每月 API 費會相當可觀。但這些任務根本不需要那個層級的智能——一個 7-9B 的小模型完全夠用。

另一個動機是隱私。某些任務涉及客戶資料(像是 AI 招聘助理的履歷處理),我希望這些資料不要離開本機。


Crow-9B:讓我驚艷的模型

Crow-9B 是用 Claude Opus 蒸餾出來的 9B 模型,大小 6.5GB。

下載完,第一次測試:

問題:「幫我把這段英文翻譯成繁體中文,口語化風格」
回應時間:7 秒

七秒。我以為我看錯了,再測一次——還是七秒。

相比之下,我在 NAS 上試過同等級模型,要等三分鐘。差了快三十倍。

M4 的統一記憶體架構功不可沒。CPU 和 GPU 共用記憶體池,模型不需要在 CPU 記憶體和 GPU 記憶體之間搬運資料,這在推論速度上有顯著優勢。

實際使用下來,Crow-9B 適合的任務:

  • 格式轉換(JSON → Markdown、表格整理)
  • 簡單翻譯和改寫
  • 狀態報告生成
  • cron job 的低複雜度任務

品質大約在 GPT-4o mini 水準,夠用,而且成本是零。


Qwen 3.5:讓我等到睡著

然後我裝了 Qwen 3.5:9B。

Qwen 3.5 的亮點是內建 thinking mode——它會在回答之前先「思考」,像是 Chain-of-Thought 的強化版。理論上應該讓答案更準確。

我的第一個測試題目:「MES 是什麼?用 50 字解釋。」

然後⋯⋯它開始思考。

思考鏈生成了 3,000+ tokens。它在裡面草稿了五個版本、檢查字數、重新措辭、再確認⋯⋯最後花了快101 秒才給我答案。

那個答案,確實很精準。但我只需要 50 字的解釋。

問題出在 Qwen 3.5 預設的 sampling parameters 很激進——thinking mode 沒有 token 上限,模型會陷入「強迫症式驗證迴圈」。

修正方法是加上 presence_penalty 參數,用 Modelfile 調教:

FROM qwen3.5:9b

PARAMETER num_ctx 8192
PARAMETER num_predict 2048
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 20
PARAMETER presence_penalty 1.5

調教後,回應時間從 101 秒降到約 20-30 秒。好多了,但還是比 Crow-9B 慢。


我的本地/雲端路由策略

跑了幾週之後,我建立了一套自己的路由邏輯:

本地模型(Crow-9B)適合的場景:

  • cron job 排程任務
  • 格式轉換、文字整理
  • 狀態檢查和報告
  • 不含敏感資料的低複雜任務

雲端 API 適合的場景:

  • 需要精確推論的決策
  • 撰寫完整文章
  • 複雜的多步驟任務
  • 涉及客戶互動的任務

怎麼實作? 在 OpenClaw 的模型路由設定裡,不同 tier 的 sub-agent 指向不同模型:

Tier 1 輕量 → crow-9b(本地,$0)
Tier 2 標準 → Kimi K2.5 或 Gemini Flash
Tier 3 核心 → Claude Sonnet(主力)
Tier 4 關鍵 → Claude Opus + thinking

這樣一來,大量低價值任務走本地,API 費用只花在真正需要的地方。


本地 LLM 的隱形成本

最後說說那個「免費」的代價。

電費: Mac Mini 在推論時功耗大約 30-40W,一個月 24/7 跑下來大概增加 100-150 元台幣的電費。微不足道。

維護時間: Modelfile 調教、更新模型、處理奇怪的 edge case——這些都是時間成本。Crow-9B 相對穩定,Qwen 系列需要花時間調參數。

機會成本: 本地模型品質有天花板。如果你把需要高品質推論的任務路由到本地,省了 API 費,但可能付出錯誤決策的代價。

我的結論:本地 LLM 很值得用,但要用對地方。它不是替代雲端 API,而是互補——讓高頻低值任務有個低成本出路,把 API 額度留給真正需要的工作。


這是 Nerigate Build Log 系列的第七篇。
← 上一篇:06:從 NAS 到 Mac Mini,搬家的 72 小時代價
下一篇:08:什麼任務該派 AI Agent?決策框架 →

Tags