---
source_url: "https://mp.weixin.qq.com/s/oLTaFFlSocYKcWf253TurA"
ingested: 2026-06-26
sha256: 97c6e02eb4f9b8b9
---
sha256: 0654453a53442ea0
---
source: wechat
source_url: https://mp.weixin.qq.com/s/oLTaFFlSocYKcWf253TurA
tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw]
title: "claude-opus-47-并不是一次全面升级甚至部分能力大幅衰退nn大家应该在合适的场景下选择使用nn昨晚-opus-47-上线全网又炸了nn我仔细看了下官"
created: 2026-05-12
updated: 2026-05-12
review_value: 7
review_confidence: 9
review_recommendation: worth-reading
review_stars: 3
review_reasoning: "The article provides a well-structured, balanced evaluation of Claude Opus 4.7 with specific benchmarks"
ingested: 2026-05-12
sha256: 0d9175d66e1f412e3a6d8897142f92f6dd3839fd2f3d6fd319aebbb43a0e08ce
---
# Claude Opus 4.7 并不是一次全面升级，甚至部分能力大幅衰退。\n\n大家应该在合适的场景下选择使用。\n\n昨晚 Opus 4.7 上线，全网又炸了。\n\n我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 \n\n发现这次的升级和之前有点不太一样。\n\n先说优点吧。\n\n编程：SWE-bench Pro 从 53.4% 涨到 64.3%，这是 Claude 的主战场，新模型不可能退步的。\n\n办公任务：OfficeQA Pro 从 57.1% 干到 80.6%，简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。\n\n视觉：图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%，接近满分，这也是这次升级最能打的地方了。\n\n另外还有个非常容易忽略的点，4.7 的指令遵循能力大幅增强了。\n\n官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果，可能以前模型会 "脑补" 你的意思，现在它直接照做。\n\n接下来我们再看看退步的部分。\n\n首先是长上下文检索能力大幅退步。\n\nMRCR v2 测试，256k 下从 91.9% 掉到 59.2%。1M 下更惨，78.3% 直接回到 32.2%。\n\n你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7，继续用 4.6。\n\n网页搜索：BrowseComp 从 83.7% 掉到 79.3%。\n\nAnthropic 也说了，做深度网页搜索，4.6 的 scaling curve 更好。\n\n翻译成人话 — deep research 场景，官方推荐你用 4.6。\n\n然后还有个最容易被忽略的：可能有隐形涨价。\n\nAPI 定价没变，还是 $5/$25。但 Anthropic 换了新 tokenizer。\n\n同一段代码、同一份文档、同一个 prompt，丢给 4.7 要多吃最多 35% 的 token。\n\n官方的解释是：模型更准了，一次过的概率更高，省了来回修改的轮次，所以总成本可能反而低。\n\n逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。\n\n如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景，那就是纯纯多烧 token。\n\n所以怎么选？\n\n写代码、办公自动化、视觉理解，屏幕操作类 Agent → 4.7，直接上。\n\n长文档精确检索、deep research → 4.6，别换。\n\n日常随便用用，考虑成本问题还是 4.6。\n\n一句话总结：Opus 4.7 在编程和视觉上有肉眼可见的飞跃。\n\n但全面升级？谈不上。
Claude Opus 4.7 并不是一次全面升级，甚至部分能力大幅衰退。
大家应该在合适的场景下选择使用。
昨晚 Opus 4.7 上线，全网又炸了。
我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7
发现这次的升级和之前有点不太一样。
先说优点吧。
编程：SWE-bench Pro 从 53.4% 涨到 64.3%，这是 Claude 的主战场，新模型不可能退步的。
办公任务：OfficeQA Pro 从 57.1% 干到 80.6%，简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。
视觉：图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%，接近满分，这也是这次升级最能打的地方了。
另外还有个非常容易忽略的点，4.7 的指令遵循能力大幅增强了。
官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果，可能以前模型会 "脑补" 你的意思，现在它直接照做。
接下来我们再看看退步的部分。
首先是长上下文检索能力大幅退步。
MRCR v2 测试，256k 下从 91.9% 掉到 59.2%。1M 下更惨，78.3% 直接回到 32.2%。
你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7，继续用 4.6。
网页搜索：BrowseComp 从 83.7% 掉到 79.3%。
Anthropic 也说了，做深度网页搜索，4.6 的 scaling curve 更好。
翻译成人话 — deep research 场景，官方推荐你用 4.6。
然后还有个最容易被忽略的：可能有隐形涨价。
API 定价没变，还是 $5/$25。但 Anthropic 换了新 tokenizer。
同一段代码、同一份文档、同一个 prompt，丢给 4.7 要多吃最多 35% 的 token。
官方的解释是：模型更准了，一次过的概率更高，省了来回修改的轮次，所以总成本可能反而低。
逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。
如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景，那就是纯纯多烧 token。
所以怎么选？
写代码、办公自动化、视觉理解，屏幕操作类 Agent → 4.7，直接上。
长文档精确检索、deep research → 4.6，别换。
日常随便用用，考虑成本问题还是 4.6。
一句话总结：Opus 4.7 在编程和视觉上有肉眼可见的飞跃。
但全面升级？谈不上。
关闭 __
****
更多 __
__
__
名称已清空
**微信扫一扫赞赏作者**
喜欢作者  [ 其它金额 ](<>)
__
赞赏后展示我的头像
作品
暂无作品
喜欢作者
其它金额
¥
最低赞赏 ¥0
确定
__
返回 __
**其它金额**
更多 __
__
__
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
__
天津  ,  2026年4月17日 10:17