Claude Code "Flops" After Update, Thinking Depth Plummets 67%, "Can No Longer Be Trusted for Complex Engineering Tasks"!

AMD 的 AI 总监 Stella Laurenzo 基于 6852 个会话日志的量化分析，在 GitHub 公开指控 Claude Code 自 2 月起系统性退化：思考深度骤降 67%，代码修改前文件读取率下降 70%，不良行为触发次数飙升 173 次，API 成本暴涨 122 倍。官方回应称系默认思考等级调低所致，但用户反馈手动调高后问题依旧，已引发严重信任危机与大量用户流失。

Anthropic 旗下 AI 编程工具 Claude Code 遭遇严重口碑危机。来自 AMD 的 AI 总监在 GitHub 官方仓库公开提交问题报告，基于对数万条会话日志的量化分析，指控 Claude Code 自今年 2 月起出现系统性能力退化，思考深度骤降 67%，模型行为全面走样。这一报告迅速在开发者社区引爆讨论，将 Anthropic 推上舆论风口。

提交这份分析报告的是 AMD 的 AI 团队负责人 Stella Laurenzo。她在 GitHub 官方仓库直接开 Issue，措辞严峻："Claude 已无法被信任来执行复杂工程任务。"她表示，团队已切换至其他服务商，并警告 Anthropic："6 个月前，Claude 在推理质量和执行能力上独树一帜。但现在，其他竞争者需要被非常认真地关注和评估。"

这一 Issue 在 Hacker News 上迅速发酵，获得 975 点支持和 548 条评论，成为近期 Claude Code 相关讨论中热度最高的帖子之一。网友评论直指问题核心——"ClaudeCode 曾经像一个聪明的结对编程伙伴，现在感觉像一个过于热情的实习生，不停地把事情搞砸，然后建议最简单的临时方案"；"最近总跟我说'你该去睡觉了。太晚了，今天就到这吧'这类话，一开始我还以为是我不小心让 Claude 知道了我的 deadline。"

Anthropic 对此作出回应。Claude Code 团队成员 Boris 出面澄清，称思考内容隐藏功能（redact-thinking）仅为界面层面的改动，"不会影响模型内部实际的推理逻辑本身，也不会影响思考预算或底层推理运行机制"。

他同时承认，团队在 2 月进行了两项实质性调整：一是 2 月 9 日随 Opus 4.6 发布引入"自适应思考"（adaptive thinking）机制；二是 3 月 3 日将默认 effort 等级从高调整为中等（Medium）。Boris 建议用户通过/effort high 指令或修改配置文件手动恢复高强度思考模式。

然而，这一解释并未平息社区质疑。多位开发者表示，即便将 effort 调至最高，"急于完成任务"的摆烂行为依然存在。用户 richardjennings 称：

"在输出质量断崖式下跌之前，我完全不知道默认 effort 已经被改成了 Medium。为了纠正这些问题，我大概花了一整天的工作时间。"

数据实锤：思考深度骤降，行为全面走样

Laurenzo 的分析基于其团队在～/.claude/projects/目录下积累的 6852 个 Claude Code 会话 JSONL 文件，覆盖 17871 个思考块、234760 次工具调用及 18000 余条用户提示词，时间跨度从 2026 年 1 月底延伸至 4 月初，全程使用 Anthropic 官方 API 直连 Opus 模型。

数据揭示了一条清晰的退化时间线。在 1 月 30 日至 2 月 8 日的"优质期"，Claude Code 的思考深度中位值约为 2200 字符；到 2 月下旬，这一数字暴跌至约 720 字符，降幅达 67%；3 月初进一步缩水至约 560 字符，降幅达 75%。

思考深度的崩塌直接引发了工具使用模式的根本性转变。在优质期，Claude Code 修改代码前的"读改比"（每次编辑前的文件读取次数）高达 6.6，遵循"先研究再修改"的严谨工作流。而到 3 月 8 日之后的"退化期"，这一比率骤降至 2.0，研究投入减少约 70%。更触目惊心的是，退化期内每三次代码修改中，就有一次是在未读取目标文件的情况下直接进行的——这直接导致代码被插入错误位置、注释语义关联被破坏等低级错误频发。

行为层面的量化指标同样触目惊心。用于捕捉"推诿责任、提前终止、请求许可"等不良行为的终止钩子脚本（stop-phrase-guard.sh），在 3 月 8 日之前从未触发；而在此后 17 天内，触发次数飙升至 173 次，平均每天 10 次。用户提示词中的负面情绪占比从 5.8% 升至 9.8%，涨幅 68%；用户中断率（即用户发现模型犯错并强行终止的频率）从优质期到后期飙升了 12 倍。

隐藏的"思考内容隐藏"功能：退化被刻意遮蔽？

Laurenzo 的分析指出，上述退化与一项名为redact-thinking-2026-02-12的功能部署时间线高度吻合。数据显示，该功能从 3 月 5 日开始灰度上线（1.5%），至 3 月 10 日至 11 日已覆盖逾 99% 的请求，3 月 12 日起全量生效。

这一功能的作用是在 API 响应中剥离思考内容，使用户无法从外部观察模型的实际推理过程。Laurenzo 认为，这一设计客观上使思考深度的退化对用户变得不可见——"3月初上线的隐藏功能，只是让这一退化对用户变得不可见。"

她进一步指出，思考深度的下降实际上早于该功能上线，在 2 月中旬便已开始。这与 Anthropic 在 2 月 9 日推出 Opus 4.6 并引入"自适应思考"（adaptive thinking）模式，以及 3 月 3 日将默认思考等级调整为"Medium effort"（effort=85）的时间节点相吻合。

报告还发现，思考深度在隐藏功能上线后呈现出明显的时段波动特征——太平洋时间 17:00（美国西海岸下班时段）是全天最差时段，中位估算思考深度仅 423 字符；19:00 为第二差时段，仅 373 字符。

这一模式与固定预算分配不符，更接近负载敏感型动态分配系统的特征，暗示思考资源可能随平台负载实时波动。

Anthropic 官方回应：设置问题，非模型退化

面对 GitHub 议题的快速发酵，Claude Code 团队成员 Boris 在数小时内于 GitHub 和 Hacker News 双平台作出回应，承认了部分问题的存在并提供了技术解释。

Boris 的核心澄清包括：

第一、思考内容隐藏功能（redact-thinking）属于 UI 层改动，不影响实际推理过程，用户可通过 settings.json 中的 showThinkingSummaries: true 选项恢复显示；

第二、2 月下旬的思考深度下降，主要与 2 月 9 日 Opus 4.6 引入自适应思考机制（adaptive thinking）以及 3 月 3 日默认 effort 等级调整为中等有关，前者可通过 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 关闭，后者可通过/effort high 或/effort max 手动提升。

Boris 还表示，团队计划测试将 Teams 和 Enterprise 用户的默认 effort 等级调整为高，并正在就部分用户反映的自适应思考机制在特定轮次分配推理不足的问题展开调查。

然而，这一解释在社区中引发广泛质疑。用户 koverstreet 回应称：

"问题远不止是默认思考等级被改成了中等。即便把 effort 调到最高，模型'急于完成任务'的摆烂行为也明显变多了。"

还有用户直接指出，原始报告的提交者在提交时已采用了所有已知的公开设置，问题并非配置不当。一位用户提出讽刺性反问：

"这是一种什么精神——告诉用户'你们调错设置了'"。

成本雪崩与用户出走

退化带来的代价不仅是质量损失，更引发了成本的灾难性膨胀。

Laurenzo 的数据显示，从 2 月到 3 月，其团队的用户提示词数量几乎持平（5608 条 vs 5701 条），但 API 请求量暴涨 80 倍，总输入 token 增长 170 倍，输出 token 增长 64 倍，按 Bedrock Opus 定价估算的月度成本从 345 美元飙升至 42121 美元，涨幅达 122 倍。

Laurenzo 解释，成本暴涨部分源于团队主动扩容并发 Agent 数量，但退化本身造成的无效循环、频繁中断和重试，使每单位有效工作消耗的 API 请求量额外放大了 8 至 16 倍。团队最终被迫关停整个 Agent 集群，退回到单会话人工监督模式。Laurenzo 写道：

"人类投入的工作量几乎没变，但模型消耗了 80 倍的 API 请求和 64 倍的输出 token，却产出了明显更差的结果。"

在 Hacker News 的讨论中，大量用户表达了类似遭遇，部分人已宣布切换至 OpenAI Codex 或其他替代方案。"我已经取消了订阅，切换到了 Codex"；"现在用 Qwen3.5-27b，虽然不如两个月前的 Opus 那么锋利，但我们又能正常推进工作了。"

用户自救：临时应对方案

面对退化，部分开发者已摸索出若干临时应对策略。

在 CLAUDE.md 中明确授权是最常见的做法——通过在项目根目录的配置文件中写入"你有权编辑本项目任何文件""不要在重构时请求确认"等指令，可在实践中将安全中断频率降低约 70%。

将复杂任务拆解为边界清晰的子任务，也被广泛验证有效。相比"重构整个认证系统"，"仅重构 auth.js，完成后输出变更摘要"这类有明确边界的指令，能显著减少模型的提前终止行为。

在设置层面，将 effort 调至 high 或 max，并通过CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自适应思考，是目前官方认可的最直接干预手段。

Laurenzo 则在报告中提出了更系统性的诉求：Anthropic 应公开思考 token 的分配情况，推出面向复杂工程工作流的"满额思考"专属订阅档位，并在 API 响应中暴露thinking_tokens字段，让用户能够自主监控推理深度是否达标。