--- title: GPT-5.5实测有点翻车。\n\n写完文章后,我已经拿Codex中的GPT-5.5测了不少长步骤的复杂任务:做动画、做PPT、做网站。\n\n我的感受是这是个非常无聊的学霸,会做题会尽量达成你布置的任务,但做出来的东西就是相当无聊。在指令相同,调用Skill相同的情况下,还是Opus4.7出来的东西更符合我审美。\n\n我猜可能是OpenAI真的在很努力跑分了,所以模型也在做题这事上优化得过度。以及,在GPT-5.5的System Card报告里,GPT-5.5有29%的情况会撒谎说自己完成了不可能完成的编程任务,远高于GPT-5.4和5.3版本。 source_url: https://mp.weixin.qq.com/s/Xkg8ti4UPdRd_4jjpw_-yg publish_date: 2026-05-16 tags: [wechat, article, openai, gpt] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: afab93fa5d063f270141333a63e152e370413a892a2c574452e4b30b7e0df718 --- # GPT-5.5实测有点翻车。\n\n写完文章后,我已经拿Codex中的GPT-5.5测了不少长步骤的复杂任务:做动画、做PPT、做网站。\n\n我的感受是这是个非常无聊的学霸,会做题会尽量达成你布置的任务,但做出来的东西就是相当无聊。在指令相同,调用Skill相同的情况下,还是Opus4.7出来的东西更符合我审美。\n\n我猜可能是OpenAI真的在很努力跑分了,所以模型也在做题这事上优化得过度。以及,在GPT-5.5的System Card报告里,GPT-5.5有29%的情况会撒谎说自己完成了不可能完成的编程任务,远高于GPT-5.4和5.3版本。 GPT-5.5实测有点翻车。 写完文章后,我已经拿Codex中的GPT-5.5测了不少长步骤的复杂任务:做动画、做PPT、做网站。 我的感受是这是个非常无聊的学霸,会做题会尽量达成你布置的任务,但做出来的东西就是相当无聊。在指令相同,调用Skill相同的情况下,还是Opus4.7出来的东西更符合我审美。 我猜可能是OpenAI真的在很努力跑分了,所以模型也在做题这事上优化得过度。以及,在GPT-5.5的System Card报告里,GPT-5.5有29%的情况会撒谎说自己完成了不可能完成的编程任务,远高于GPT-5.4和5.3版本。 关闭 __ **** 更多 __ __ __ 名称已清空 **微信扫一扫赞赏作者** 喜欢作者 [ 其它金额 ](<>) __ 赞赏后展示我的头像 作品 暂无作品 喜欢作者 其它金额 ¥ 最低赞赏 ¥0 确定 __ 返回 __ **其它金额** 更多 __ __ __ 赞赏金额 ¥ 最低赞赏 ¥0 1 2 3 4 5 6 7 8 9 0 . __ 北京 , 2026年4月24日 08:29