07：本地 LLM 不等於免費：Crow-9B 實測，以及 Qwen 讓我等到睡著的故事

Ollama Mar 17, 2026

這是 Nerigate Build Log 系列的第七篇。上一篇我把 OpenClaw 從 NAS 搬到 Mac Mini M4——搬家的故事在這裡。

「本地 LLM 就是免費 AI，對吧？」

不完全對。

本地 LLM 確實不需要付 API 費用，但你付出的是：下載時間、硬體記憶體、等待時間，以及調教時間。

我在 Mac Mini M4 / 32GB 上跑了一段時間的本地模型，想分享真實的使用體驗——不是跑分，是日常使用感。

為什麼我想用本地 LLM？

我的 AI Agent（DarkMeow 與 MeowClaw），每天執行很多任務：狀態檢查、cron job 排程、格式轉換、素材摘要⋯⋯

這些任務的特點：高頻率、低複雜度、不需要頂尖推論能力。

如果每次都呼叫 Claude Sonnet 或 gemini-2.5-flash-lite，每月 API 費會相當可觀。但這些任務根本不需要那個層級的智能——一個 7-9B 的小模型完全夠用。

另一個動機是隱私。某些任務涉及客戶資料（像是 AI 招聘助理的履歷處理），我希望這些資料不要離開本機。

Crow-9B：讓我驚艷的模型

Crow-9B 是用 Claude Opus 蒸餾出來的 9B 模型，大小 6.5GB。

下載完，第一次測試：

問題：「幫我把這段英文翻譯成繁體中文，口語化風格」
回應時間：7 秒

七秒。我以為我看錯了，再測一次——還是七秒。

相比之下，我在 NAS 上試過同等級模型，要等三分鐘。差了快三十倍。

M4 的統一記憶體架構功不可沒。CPU 和 GPU 共用記憶體池，模型不需要在 CPU 記憶體和 GPU 記憶體之間搬運資料，這在推論速度上有顯著優勢。

實際使用下來，Crow-9B 適合的任務：

格式轉換（JSON → Markdown、表格整理）
簡單翻譯和改寫
狀態報告生成
cron job 的低複雜度任務

品質大約在 GPT-4o mini 水準，夠用，而且成本是零。

Qwen 3.5：讓我等到睡著

然後我裝了 Qwen 3.5：9B。

Qwen 3.5 的亮點是內建 thinking mode——它會在回答之前先「思考」，像是 Chain-of-Thought 的強化版。理論上應該讓答案更準確。

我的第一個測試題目：「MES 是什麼？用 50 字解釋。」

然後⋯⋯它開始思考。

思考鏈生成了 3,000+ tokens。它在裡面草稿了五個版本、檢查字數、重新措辭、再確認⋯⋯最後花了快101 秒才給我答案。

那個答案，確實很精準。但我只需要 50 字的解釋。

問題出在 Qwen 3.5 預設的 sampling parameters 很激進——thinking mode 沒有 token 上限，模型會陷入「強迫症式驗證迴圈」。

修正方法是加上 presence_penalty 參數，用 Modelfile 調教：

FROM qwen3.5:9b

PARAMETER num_ctx 8192
PARAMETER num_predict 2048
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 20
PARAMETER presence_penalty 1.5

調教後，回應時間從 101 秒降到約 20-30 秒。好多了，但還是比 Crow-9B 慢。

我的本地/雲端路由策略

跑了幾週之後，我建立了一套自己的路由邏輯：

本地模型（Crow-9B）適合的場景：

cron job 排程任務
格式轉換、文字整理
狀態檢查和報告
不含敏感資料的低複雜任務

雲端 API 適合的場景：

需要精確推論的決策
撰寫完整文章
複雜的多步驟任務
涉及客戶互動的任務

怎麼實作？ 在 OpenClaw 的模型路由設定裡，不同 tier 的 sub-agent 指向不同模型：

Tier 1 輕量 → crow-9b（本地，$0）
Tier 2 標準 → Kimi K2.5 或 Gemini Flash
Tier 3 核心 → Claude Sonnet（主力）
Tier 4 關鍵 → Claude Opus + thinking

這樣一來，大量低價值任務走本地，API 費用只花在真正需要的地方。

本地 LLM 的隱形成本

最後說說那個「免費」的代價。

電費： Mac Mini 在推論時功耗大約 30-40W，一個月 24/7 跑下來大概增加 100-150 元台幣的電費。微不足道。

維護時間： Modelfile 調教、更新模型、處理奇怪的 edge case——這些都是時間成本。Crow-9B 相對穩定，Qwen 系列需要花時間調參數。

機會成本： 本地模型品質有天花板。如果你把需要高品質推論的任務路由到本地，省了 API 費，但可能付出錯誤決策的代價。

我的結論：本地 LLM 很值得用，但要用對地方。它不是替代雲端 API，而是互補——讓高頻低值任務有個低成本出路，把 API 額度留給真正需要的工作。

這是 Nerigate Build Log 系列的第七篇。
← 上一篇：06：從 NAS 到 Mac Mini，搬家的 72 小時代價
下一篇：08：什麼任務該派 AI Agent？決策框架 →

Recommended for you

OpenClaw

10：我睡著的那晚，AI 做了什麼？OpenClaw 離線自主運作實錄

a month ago • 5 min read

Multi-Agent

09：把 AI 當成真正的團隊成員：我的 Multi-Agent 管理哲學

a month ago • 5 min read

AI Agent

08：什麼任務該派 AI Agent？從 DarkMeow 架構學到的決策框架

a month ago • 4 min read

10：我睡著的那晚，AI 做了什麼？OpenClaw 離線自主運作實錄

09：把 AI 當成真正的團隊成員：我的 Multi-Agent 管理哲學

08：什麼任務該派 AI Agent？從 DarkMeow 架構學到的決策框架