--- source_url: "https://www.anthropic.com/news/claude-opus-4-7" ingested: 2026-06-26 sha256: 92566b7ad1c2e041 --- sha256: a760a88a153e86b3 --- title: "Claude Opus 4.7 并不是一次全面升级,甚至部分能力大幅衰退。\\n\\n大家应该在合适的场景下选择使用。\\n\\n昨晚 Opus 4.7 上线,全网又炸了。\\n\\n我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 \\n\\n发现这次的升级和之前有点不太一样。\\n\\n先说优点吧。\\n\\n编程:SWE-bench Pro 从 53.4% 涨到 64.3%,这是 Claude 的主战场,新模型不可能退步的。\\n\\n办公任务:OfficeQA Pro 从 57.1% 干到 80.6%,简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。\\n\\n视觉:图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%,接近满分,这也是这次升级最能打的地方了。\\n\\n另外还有个非常容易忽略的点,4.7 的指令遵循能力大幅增强了。\\n\\n官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果,可能以前模型会 \"脑补\" 你的意思,现在它直接照做。\\n\\n接下来我们再看看退步的部分。\\n\\n首先是长上下文检索能力大幅退步。\\n\\nMRCR v2 测试,256k 下从 91.9% 掉到 59.2%。1M 下更惨,78.3% 直接回到 32.2%。\\n\\n你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7,继续用 4.6。\\n\\n网页搜索:BrowseComp 从 83.7% 掉到 79.3%。\\n\\nAnthropic 也说了,做深度网页搜索,4.6 的 scaling curve 更好。\\n\\n翻译成人话 — deep research 场景,官方推荐你用 4.6。\\n\\n然后还有个最容易被忽略的:可能有隐形涨价。\\n\\nAPI 定价没变,还是 $5/$25。但 Anthropic 换了新 tokenizer。\\n\\n同一段代码、同一份文档、同一个 prompt,丢给 4.7 要多吃最多 35% 的 token。\\n\\n官方的解释是:模型更准了,一次过的概率更高,省了来回修改的轮次,所以总成本可能反而低。\\n\\n逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。\\n\\n如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景,那就是纯纯多烧 token。\\n\\n所以怎么选?\\n\\n写代码、办公自动化、视觉理解,屏幕操作类 Agent → 4.7,直接上。\\n\\n长文档精确检索、deep research → 4.6,别换。\\n\\n日常随便用用,考虑成本问题还是 4.6。\\n\\n一句话总结:Opus 4.7 在编程和视觉上有肉眼可见的飞跃。\\n\\n但全面升级?谈不上。" source_url: "https://mp.weixin.qq.com/s/oLTaFFlSocYKcWf253TurA" tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] source_type: wechat provenance_state: extracted sha256: 423d312cdbce68c9c2d4841f114e29102688a29f3c3816824ae8b62d7499a336 --- Claude Opus 4.7 并不是一次全面升级,甚至部分能力大幅衰退。 大家应该在合适的场景下选择使用。 昨晚 Opus 4.7 上线,全网又炸了。 我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 发现这次的升级和之前有点不太一样。 先说优点吧。 编程:SWE-bench Pro 从 53.4% 涨到 64.3%,这是 Claude 的主战场,新模型不可能退步的。 办公任务:OfficeQA Pro 从 57.1% 干到 80.6%,简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。 视觉:图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%,接近满分,这也是这次升级最能打的地方了。 另外还有个非常容易忽略的点,4.7 的指令遵循能力大幅增强了。 官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果,可能以前模型会 "脑补" 你的意思,现在它直接照做。 接下来我们再看看退步的部分。 首先是长上下文检索能力大幅退步。 MRCR v2 测试,256k 下从 91.9% 掉到 59.2%。1M 下更惨,78.3% 直接回到 32.2%。 你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7,继续用 4.6。 网页搜索:BrowseComp 从 83.7% 掉到 79.3%。 Anthropic 也说了,做深度网页搜索,4.6 的 scaling curve 更好。 翻译成人话 — deep research 场景,官方推荐你用 4.6。 然后还有个最容易被忽略的:可能有隐形涨价。 API 定价没变,还是 $5/$25。但 Anthropic 换了新 tokenizer。 同一段代码、同一份文档、同一个 prompt,丢给 4.7 要多吃最多 35% 的 token。 官方的解释是:模型更准了,一次过的概率更高,省了来回修改的轮次,所以总成本可能反而低。 逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。 如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景,那就是纯纯多烧 token。 所以怎么选? 写代码、办公自动化、视觉理解,屏幕操作类 Agent → 4.7,直接上。 长文档精确检索、deep research → 4.6,别换。 日常随便用用,考虑成本问题还是 4.6。 一句话总结:Opus 4.7 在编程和视觉上有肉眼可见的飞跃。 但全面升级?谈不上。 关闭 * * ** ** 更多 * * * * * * 名称已清空 * ** 微信扫一扫赞赏作者 ** 喜欢作者 [ 其它金额 ](javascript:;) * 赞赏后展示我的头像 作品 暂无作品 喜欢作者 其它金额 ¥ * 最低赞赏 ¥0 确定 * 返回 * * ** 其它金额 ** 更多 * * * * * * 赞赏金额 ¥ 最低赞赏 ¥0 1 2 3 4 5 6 7 8 9 0 . * * 天津 , 2026年4月17日 10:17