Ollama 跑本地模型
为什么要学本地跑模型 = 0 token 成本 + 数据不出公司, 用量大时这是质变。
打个比方像公司自建水井, 短期挖井贵, 长期喝水不要钱。
VibeCoder 场景你每天 100 次 prompt 调 API, 1 月 50 美金; 换 Ollama 本地跑 27B, 电费几毛。
装 Ollama → 拉 Qwen3.6-27B INT4 量化版(或同尺寸开源模型)→ 用 API 让它写一个简单 Python 排序函数 → 测速度(token/s)。
前置消费级 GPU 或 Apple Silicon 32GB+ · 会装桌面应用
- 01装 Ollama(macOS / Linux 一行命令)
- 02拉模型(按需选 7B / 14B / 27B)
- 03用命令行 / curl 调 API 跑 1 个简单 prompt
- 04测速度:1 个 200 token 回答花几秒
- 05关掉 Ollama,确认 token 成本归零
粘贴到 Claude Code(或任何 LLM 终端)Ollama 默认端口 11434;模型用 Qwen3.6-27B INT4 量化版
请写一个 Python 排序函数:\n- 处理空列表、单元素、全相同、已排序、逆序\n- 复杂度稳定\n- 返回 (sorted_list, swaps_count)✓ 完成判据模型在你的消费级 GPU / Mac 上以 ≥10 token/s 跑通简单任务。
坑Apple Silicon 和 NVIDIA 量化版不同;M1 / M2 / M3 跑 27B 需要 ≥32GB 内存;NVIDIA 选 GPTQ 或 AWQ 量化版本。
参考B8 § 量化 + KV cache