
Anthropic launches a midnight bloodbath in the $50 billion industry! The doomsday of code auditing has arrived

Anthropic 推出了 Claude Code 的新功能,新增代码审计功能,直接挑战 500 亿美元的代码安全审计行业。经过测试,PR 中实质性评审意见的比例从 16% 增至 54%,且错误率低于 1%。该功能的成本仅为传统审计的 1/2000,可能导致安全股大跌,标志着传统代码审计的终结。
就在刚刚,Anthropic 又出手了!
Claude Code 之父重磅官宣:Claude Code 新增代码评审(Code Review)新功能。

这一次,它瞄准了一个价值 500 亿美元的产业——代码安全审计。
Anthropic 刚刚发布的新功能,可以说是在用极其简单粗暴的方式,直接挑战整个代码安全行业。
有人惊呼:价值 500 亿美元的行业,被 Anthropic 一夜干翻了!
现在,可以坐等安全股大跌了。

在 Anthropic,几乎每个 PR 都测试了此系统。
经过数月的测试,结果如下:
- 包含实质性评审意见的 PR 比例从 16% 增加到 54%。
- 工程师认为评审结果错误的比例不到 1%。
- 在大型 Pull Request(1000 行以上)中,84% 的 PR 存在表面问题,平均每份 PR 存在 7.5 个问题。
目前,该功能已给 Claude Team 和 Enterprise 测试版中作为研究预览上线。

500 亿美金市场的噩梦
Anthropic 的这个产品,简直是让全球 AI 圈和网络安全界(AppSec)发生了一场足以载入史册的大地震。
资深开发者纷纷惊呼,价值 500 亿的代码审计行业被端了!
这是因为,在过去,大公司为了防止代码里的 Bug 或安全漏洞流向生产环境,每年要支付给传统安全厂商(如 Snyk、Checkmarx 等)高达5 万美金甚至更高的授权费,雇佣专业团队进行扫描和审计。
而现在,Claude 却可以直接派一队 AI 智能体潜伏在你的 PR 里,24 小时待命。
而且,按 token 计算,它的单次 Review 成本,平均只要 15-25 美元!
5 万美金和 25 美金,差了 2000 倍。
这根本不是功能更新,这是给传统代码审计吹响了终结的号角。

Code Review,开发者最痛苦的环节
如果你问一个任何一个工程团队:软件开发中最大的瓶颈环节,是哪一个?
相信很多人的答案,都是代码评审(Code Review)。
过去几年,AI 写代码的能力是日新月异,突飞猛进,无论是 GitHub Copilot、Cursor、Claude Code 还是 ChatGPT,用上这些工具的开发者,写出的代码量直接暴涨。
结果,问题来了——虽然代码被飞速产出,审代码的人却并没有变多。
Anthropic 发现,过去一年里,每位工程师的代码产出增加了 200%,但很多 PR(Pull Request)只是被快速扫了一眼。
连开发者自己都承认,很多代码评审,不过是在走流程而已。
于是,大量 Bug、漏洞、逻辑问题就这样被带进生产环境。
这也就是为什么,很多企业愿意花天价去买安全扫描工具。
然而问题来了——这些工具并不聪明。
传统代码扫描工具,到底有什么问题?
如果你用过传统 AppSec 工具,比如 Snyk、Checkmarx、Veracode、SonarQube 等,你大概率会有这样的感受:误报太多了。
原因在于,这些工具大多数基于静态规则和已知漏洞库,可以扫描代码,却无法真正理解代码。
经常发生的一个场景,就是工具提醒「可能有 SQL 注入风险」,开发者检查了半天,却发现没有问题。
于是大家慢慢开始忽略警告,而真正危险的问题,就往往被忽略过去。
因此,企业仍然需要大量人工 Code Review,而 Anthropic 这次做的,就是把它自动化。
Anthropic,扔出一个 AI 代码评审军团
这一次,Claude Code Review 的思路其实很简单。
在 Claude Code 中,系统可以自动分析 Pull Request,并从多个角度进行检查,例如:
- 代码规范是否符合项目规则
- 是否存在潜在 bug
- 修改是否与历史代码逻辑冲突
- 之前 PR 中提出的问题是否再次出现
最终,它们会输出两个结果:一个高信号总结评论,和一个具体代码位置的 inline 评论。
也就是说,你打开 PR 时,就能看到一份 AI 评审报告,看到真正重要的问题,而不是几十页的流水账。
「AI 写代码,AI 评审」的时代,终于还是来了。

Claude 自我循环、自我递归,苗头出现了。

随着 AI 能力日益强大,以后人类唯一的作用可能就是打开 AI 开关了,键盘上只需要 Claude 按键了。

多 Agent 系统,Claude Code 评审军团出动
Claude Code Review 最大的特点就是,它不是一个 AI,而是一个团队。
当一个 PR 被创建时,系统会自动启动一支 AI Agent 团队。
据介绍,Claude 新的代码评审功能会派出多个 AI「评审智能体」并行工作,每个智能体负责不同类型的检查。

这些智能体通过验证来过滤误报,并根据严重性对错误进行排序。最终结果会作为一条高信号的综合评语,以及针对特定错误的内联评论,呈现在 PR 上。
评审规模会随 PR 大小调整。
大型或复杂的变更会获得更多智能体和更深入的审阅;微小的变更则会快速通过。根据 Anthropic 的测试,平均评审时间约为 20 分钟。
最终,通过多 Agent 相互验证,就可以减少误报。
这个过程中,它会重点查找逻辑错误、安全漏洞、边界条件(edge case)缺陷和隐蔽的回归问题。
所有发现的问题都会按严重等级(severity) 标记。

- 红色圆点表示普通问题,即合并代码前应修复的 bug;
- 黄色圆点表示轻微问题,建议修复,但不会阻止合并;
- 紫色圆点表示既存问题,非本次 PR 引入的 bug。
每条评审评论还包含一个 可折叠的推理说明(extended reasoning)。
展开后,你可以看到:
- Claude 为什么标记该问题
- 它是如何验证这个问题确实存在的

需要注意的是,这些评论不会自动批准或阻止 PR 合并,因此不会破坏现有的代码评审流程。
默认情况下,Claude Code Review 主要关注代码正确性(correctness)。
也就是说,它重点检查:
- 会导致生产环境故障的 bug
- 实际逻辑问题
而不会重点关注代码格式、风格偏好、是否缺少测试等问题。
如果希望扩展检查范围,需要用户进行配置。
内部测试结果,堪称恐怖
Anthropic 的内部测试结果,堪称恐怖!也更加证明了,传统的代码评审,基本就是个笑话。
内部数据实在是触目惊心:只有 16% 的 PR 获得了实质性的评审意见。
在 1000 行以上的大型 PR 中,84% 的代码都被它揪出了问题,平均每个 PR 抓到 7.5 个 Bug。
为什么?原因就是,工程师太忙了。
Anthropic 在过去一年里,每个工程师的代码产出增长了 200%。代码越来越多,谁还有功夫一行一行细看?
而在实施该功能后,代码库中有实质性修复建议的 PR 比例,从 16% 暴涨到了 54%。
这意味着,以前有近 40% 的潜在屎山代码,是在人类程序员眼皮子底下溜过去的,而现在,它们全被 Claude 揪了出来。
更恐怖的是小于 50 行的小 PR,从前大家觉得,就这么几行,能有什么问题。
结果,其中的 31% 都被发现了问题,每三个小改动,就有一个藏着 bug。
而那些被揪出来的问题,工程师的的认可度直接达到 99% 以上!只有不到 1% 的结果,被工程师标记为误报。
这个准确率,已经超过了绝大多数人类 reviewer。

Anthropic 举了自己内部的一个例子:对一个生产服务的一行代码更改,看起来是常规操作,属于通常会快速获得批准的差异。但代码评审将其标记为严重问题。
该更改会导致身份验证失效,这种故障模式在差异对比中容易被忽略,但一经指出就非常明显。
该问题在合并前得到了修复,工程师事后表示,他们自己可能不会发现这个问题。
再讲一个真实案例。
iXsystems,一家做 TrueNAS 的公司,在用 Code Review 评审了一个 ZFS 加密相关的代码重构。
这是一个很深度的技术改动,review 的人都是这个领域的专家。
结果,Code Review 干了一件让所有人意外的事:它在「相邻代码」里发现了一个潜在的 bug。

那个 bug 不在这次改动的核心范围,只是代码「恰好被改动涉及到了」。这个类型不匹配的问题,会导致每次同步时悄悄擦除加密密钥缓存。
这是一个隐藏了很久很久的 bug,一直在那里,只是没人发现。
人类专家几乎不可能发现,因为它不在 diff 里,不是要关注的重点,但说不定某一天,它就会炸掉你的系统。
但是,现在 Code Review 一下子将它揪出。
行业大洗牌,来了
现在,安全公司和 SaaS 厂商都在哀嚎。
每年收 5 万美金的代码安全公司,还能活多久?
不是它们的技术不好,而是商业逻辑变了。
如果 Anthropic 可以用智能体团队,花 20 美元就能解决深度的业务逻辑安全审计,谁还会去买那些动辄几万美金、误报率还高得离谱的传统扫描器?
如果你还在手动 Review 几千行代码,或者还在为高昂的安全审计费买单,醒醒吧,时代变了。
今夜,AppSec 行业的股票,可能真的要感受一下 AI 的寒意了。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
