---
title: "Ollama 已经不是 2024 年那个了！一键配齐 Claude Code/Codex/OpenClaw"
source: wechat
url: https://mp.weixin.qq.com/s/PxjcYy6PT9QmK233D4n36g
publish_date: "2026-07-01"
ingest_date: "2026-07-01"
vxc: 56
stars: 4
---

# Ollama 已经不是 2024 年那个了！一键配齐 Claude Code/Codex/OpenClaw

###  全文速览

* Ollama 2026 上半年做了三件事——GGUF 生态解锁、ollama launch、MLX 引擎——它不再只是本地模型的 Docker，而是本地 AI 工具的入口层。
* v0.30.0 让 HuggingFace 上几十万个 GGUF 模型可以直接 ollama run，不再需要写 Modelfile 转换；ollama launch 一键配齐 Claude Code/OpenCode/Codex/OpenClaw。
* Mac 上 LM Studio 的 MLX 后端比 Ollama 快 26-60%，但 Ollama 的模型覆盖面、工具集成和跨平台支持让它仍然是 2026 年年中最均衡的本地 AI 入口。

##  01  Ollama 还是那个 Ollama 吗？

上个月我升级了 Ollama，敲了一行  ` ollama launch claude  ` ，然后坐在屏幕前愣了一下。

Claude Code 自动连上了我本机跑的 Qwen3.5，API endpoint、模型名、上下文窗口——全配好了。没写一行配置，没改一个环境变量。

这不是我 2024 年认识的那个 Ollama。那个 Ollama 做的事情很明确：  ` pull  ` 下载模型，  ` run  ` 启动对话，  ` serve  ` 暴露一个 OpenAI 兼容 API。好用，但也止步于此——它是本地模型的 Docker，不是本地 AI 的"操作系统入口"。

165k Star 之后，Ollama 在做一个比跑模型更重要的决定。

这篇文章拆的，就是 2026 年上半年 Ollama 的三次关键升级——以及它们合在一起，指向了一个什么样的新定位。

##  02  第一次跃迁：从 llama.cpp 到"本地模型 Docker"

快速回顾下 Ollama 的起点——你大概率已经知道这部分，快速过。

Ollama 最初解决的问题很简单：  ** 在本地跑大模型太TM麻烦了  ** 。llama.cpp 能跑，但要自己编译、自己找 GGUF 文件、自己配量化参数、自己写 Python 调 API。Ollama 用 Go 写了一个管理层，把这一整套流程压缩成两条命令：

    ollama pull llama3.2  
    ollama run llama3.2  

这就是 Ollama 的第一次跃迁——从"一堆散装零件"到"一键可以跑的容器"。Docker 把应用的"构建-分发-运行"标准化了，Ollama 把模型的"下载-量化-推理"标准化了。

但这个阶段的天花板也一目了然：Ollama 能跑的模型，只有官方库和社区手动转换的那几百个。如果你在 HuggingFace 上看到一个有意思的 GGUF 模型——对不起，你得自己写 Modelfile 转。

2026 年上半年，Ollama 开始拆这个天花板。

##  03  第一变：GGUF 生态解锁——HuggingFace 模型随便跑

v0.30.0（2026 年 6 月 2 日发布）做了 Ollama 历史上最大的一次架构变化：  ** 不再需要 Modelfile 转换，直接跑 HuggingFace 上任意 GGUF 模型  ** 。

    # 这行命令在 v0.30.0 之前是不存在的  
    ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:latest  

所以呢？Ollama 的模型库从"官方精选几百个"变成了"HuggingFace 上几十万个 GGUF 文件"。你不再需要等社区大佬帮你转模型——在 HuggingFace 上看到任何 GGUF 文件，复制路径，  ` ollama run  ` 就起来了。

别小看这一行命令。在 v0.30.0 之前，如果你想让 Ollama 跑一个 HuggingFace 上好几个人都推荐、但没进官方库的模型，流程是这样的：下载 GGUF 文件 → 写 Modelfile → 调量化参数 →  ` ollama create  ` → 调试失败 → 搜 issue → 发现模板不对 → 再改 Modelfile → 终于跑起来。现在只需要一步。

** 但有一点要注意  ** ：v0.30.0 有一个 breaking change——  ` nomic-embed-text  ` 现在会对输入做 lowercase 处理。如果你在用 Ollama 跑 embedding（很多人在做本地 RAG），你已有的向量数据库  ** 需要全量重建索引  ** ，否则检索结果会乱套。如果你还没升级，先把这行看进去再升。

    # 升级前检查：如果你在用 nomic-embed-text 做 embedding  
    ollama list | grep nomic-embed-text  
    # 如果有输出 → 升级前先备份向量库，升级后全量重建  

##  04  第二变：ollama launch——给你的不是 API，是整套环境

2026 年 1 月，Ollama 发布了  ` ollama launch  ` 。这个功能单独拿出来说，是因为它改变了"Ollama 能用来干什么"这个问题的答案。

` ollama launch  ` 不是"启动一个推理服务"，而是  ** 自动配置并拉起整个 AI 开发工具  ** 。以 Claude Code 为例：

    ollama launch claude     # 一行，配好模型+API+上下文，Claude Code 直接开始工作  

同样的配方覆盖了四款工具：

* ** Claude Code  ** ——Anthropic 的 AI Coding agent，launch 后自动连上本地模型
* ** OpenCode  ** ——开源 AI coding 工具，主打终端原生体验
* ** Codex  ** ——OpenAI 的 coding agent，也能接本地模型
* ** OpenClaw  ** ——2026 新星，个人 AI 管家，接 WhatsApp/Telegram/Discord

每个 launch 目标内部是一个预配置的"工具配方"。Ollama 知道这个工具需要什么模型格式、什么 API endpoint、什么环境变量，自动帮你填好。你不需要知道  ` OPENAI_BASE_URL  ` 应该设成什么——它帮你设好了。

这个变化的本质是：Ollama 从"给你一个推理 API"变成了"给你一个能干活的环境"。Docker 从  ` docker run  ` （自己配网络、卷、端口）到  ` docker compose up  ` （全套栈一步到位）。Ollama 在走同一条路。

在 terminal 里跑一下，你就能看到它自动配置了什么：

这就是"从 API 到环境"的体验差异。

##  05  第三变：MLX 引擎——Mac 上的速度翻倍，但竞争已经杀到门口

2026 年 3 月，Ollama 给 Apple Silicon 用户送了一个大礼：MLX 引擎 preview。MLX 是 Apple 专为 M 系列芯片优化的 ML 框架，它不经过 CPU-GPU 之间的内存拷贝——直接用统一内存，所以比 llama.cpp 的 Q4_K_M 后端快。

    # 在 Mac 上切换 MLX 引擎  
    OLLAMA_ACCELERATE=mlx ollama run qwen3.5  

根据 XDA Developers 和 The Mac Observer 的实测，Ollama 的 MLX 引擎在 Mac 上输出速度相比 llama.cpp 后端提升了约 20%，而且支持 NVFP4 量化——精度损失比 Q4_K_M 小一半。

** 但这里有一个不能回避的事实。  **

LM Studio，Ollama 在桌面上最直接的竞品，从一开始就是纯 MLX 原生——不是"llama.cpp 为主 + MLX 为辅"的混合模式。结果呢？

模型规模  |  Ollama MLX (tok/s)  |  LM Studio MLX (tok/s)  |  差距
---|---|---|---
1B  |  149  |  237  |  +59%
8B  |  ~40  |  ~55  |  +38%
27B  |  24  |  33  |  +38%

LM Studio 在 MLX 上的快不是一点点，是 38-59%。

我不回避这个数据，因为这篇文章的读者不是来找"Ollama 天下第一"的自我安慰的。在 Mac 上，LM Studio 的推理速度确实比 Ollama 快。这是事实。

但 Ollama 的优势在别处：

1. ** 模型覆盖面  ** ：v0.30.0 GGUF 解锁后，Ollama 能跑的模型远多于 LM Studio
2. ** 工具集成  ** ：  ` ollama launch  ` 一键配齐四款 AI 开发工具，LM Studio 只给你一个 API
3. ** 平台覆盖  ** ：Windows / Linux / macOS 全部支持，LM Studio 的 Docker 支持还停在 CPU-only preview
4. ** 社区生态  ** ：165k Star 的社区带来更快的模型适配、更多的 issue 回复、更多的第三方集成

所以这个比较的实质不是"谁更快"——而是"你更需要什么"。如果你只在乎 Mac 上的推理速度，LM Studio 更强。如果你需要  ** 模型选择自由度 + AI 工具集成 + 跨平台  ** ，Ollama 仍然是最均衡的选择。

##  06  从模型启动器到本地 AI 网关

把 GGUF 解锁、ollama launch、MLX 引擎三条线放在一起，Ollama 的战略就清楚了：

    HuggingFace 几十万个 GGUF → [Ollama 模型层] → llama.cpp + MLX [推理层] → launch 生态 [工具层]  
        ↑ 模型来源不受限了          ↑ 双引擎各司其职              ↑ 开发者体验的护城河  

Ollama 不想赢推理性能的战争。那是 llama.cpp（极致兼容性）和 vLLM（极致吞吐量）的战场，Ollama 在中间层——  ** 它让"用模型干活"这件事不再需要关心底层  ** 。

这跟 Docker 的战略一模一样：Docker 没做最好的容器 runtime（containerd / runC 才是），但它做了最好的开发者体验——镜像生态 + docker-compose + 一键编排。Ollama 在做完全一样的事：不造最好的推理引擎，造最顺手的本地 AI 入口。

我不是说它必然成功。两个真实的风险：

* ** vLLM 从生产端下压  ** ：如果 vLLM 推出一键安装的消费版、内置 model hub 和 OpenAI 兼容 API，Ollama 的"简单好用"优势会被大幅削弱
* ** LM Studio 在 Mac 上蚕食  ** ：更流畅的 GUI + 内置 MCP 支持 + 更好的 MLX 性能——如果 LM Studio 再补上 launch 级别的工具集成，Mac 用户没有理由不换

Ollama 的战略是对的，但它能守住入口的时间窗口是有限的。

##  07  10 分钟从零到本地 AI 开发环境

说了这么多，给你一个可以今天就跑通的流程：

    # 1. 升级到最新版（Mac）  
    brew upgrade ollama  

    # 或者直接下载 v0.30.x+  
    # https://ollama.com/download  

    # 2. 验证版本  
    ollama --version  
    # 应该输出 v0.30.x 或更高  

    # 3. 直接从 HuggingFace 拉一个 GGUF 模型  
    ollama run hf.co/bartowski/Qwen2.5-7B-Instruct-GGUF:Q4_K_M  

    # 4. 确认模型在本地  
    ollama list  

    # 5. 在 Mac 上测试 MLX 引擎（仅 Apple Silicon）  
    OLLAMA_ACCELERATE=mlx ollama run qwen3.5  

    # 6. 一键启动 Claude Code 连本地模型  
    ollama launch claude  
    # Claude Code 现在用你本机的模型在工作了  

第六步如果你还没试过，值得花 10 分钟跑一遍。"本地模型 + AI Coding 工具"这个组合，体验和半年前完全不一样。

##  08  该不该升级？——2026 年年中 Ollama 的使用建议

分三种情况说。

** 如果你只是偶尔跑跑本地模型  ** ——升。不需要犹豫。GGUF 生态解锁让模型选择多了两个数量级，MLX 引擎在 Mac 上免费提速，无脑升级到最新版。唯一要注意的就是  ` nomic-embed-text  ` 的 breaking change（前面说了），如果你在用 embedding，先备份向量库。

** 如果你是 Mac 性能党  ** ——升，但两种用法并行。Ollama 最新版 + MLX 引擎做日常使用；如果某天要跑一个长推理任务、每 token 速度都很关键，装 LM Studio 做主力推理，Ollama 留着做  ` ollama launch  ` 的工具集成。两者完全可以共存——都用 localhost API，换端口就行。

** 如果你在搭生产环境  ** ——Ollama 不改。但如果你需要多用户并发或高吞吐（比如 50 人以上的团队共享一个推理节点），该上 vLLM。Ollama 内部没有 continuous batching，多个请求是串行处理的——这是它的架构选择，不是 bug，但也是它和 vLLM 之间最根本的差距。

* * *

Ollama 正在变成一个不需要你关心底层推理引擎的平台。它能不能成功，取决于它能不能在  ` ollama launch  ` 生态上跑得比竞品快——在 LM Studio 追上来之前，让更多工具变成 "Ollama 一键启动"。

这是 2026 年下半年最值得观察的本地 AI 故事线。不是推理性能的战争，是生态入口的战争。

我升级完敲下 ollama launch claude 那一刻才反应过来——它已经不是工具了，是入口。