
AI frenzy cannot withstand the harsh reality: Companies lower AI agent expectations, full automation still requires several years

媒体报道,企业正从 AI 代理的狂热预期中回落:尽管 AI 聊天与编码工具已提升效率,但能 “接管整份工作” 的 AI 代理在落地中频频受挫,不仅部署难、成本高,还常出现自信却错误的输出,难以用于客服和网络安全等关键环节。多家企业放缓全自动化计划,转向 “人机协作” 模式,并将 AI 代理视为需长期投入、短期难见成效的研发项目。一些科技高管预计,AI 代理距离真正成熟落地仍需数年时间。
媒体报道,AI 通过通用型聊天机器人和 AI 编程工具正在改变人们的工作方式,为 OpenAI 和微软等公司的收入带来增长,各家公司一直在尝试把员工的工作内容交给人工智能代理(AI agents)。
然而,许多企业在使用更复杂的 AI 代理时却遇到了困难,这些代理往往 “胜任不了工作”,因此 AI 提供商不得不亲自介入、与客户一起排查问题,避免 AI“搞砸事情”。
例如,欧洲零售商 Fnac 在使用 AI 客服代理时遇到困难。Fnac 曾测试过 OpenAI、Google 和其他实验室的模型,但效果不佳。该公司首席数字与电商负责人 Olivier Theulle 对媒体表示,可靠性是个问题:当顾客反馈产品有缺陷时,AI 要求顾客提供产品序列号,但却把这些序列号与其他产品的序列号混淆了,而这些序列号仅有一位数字不同。
Fnac 每年营收达 100 亿美元。Theulle 说,直到与以色列公司 AI21 Labs 达成合作,并获得其工程师的协助后,这个 AI 代理的表现才开始变得稳定。AI21 联合 CEO Ori Goshen 说,
“问题在于,模型开箱即用时在各类基准测试上表现很好,但在真实企业环境中表现并不好。”
“需要进行相当程度的定制化。”
一些公司对媒体表示,只有在自家软件工程师花上数月时间部署 AI 代理,并从 AI 公司那里获得直接技术支持后,他们才能真正从中受益。如今,科技公司领导者也表示,企业不能指望在没有 AI 厂商 “手把手扶持” 的情况下,让复杂 AI 项目顺利运行。
风投 Vinod Khosla 在 10 月接受媒体采访时表示,
“这就像说 ‘我们有辆赛车,任何人都能开’,但普通人根本无法发挥赛车的最大性能。”
Khosla 是 OpenAI 的早期投资者,最近又投资了一家 AI 咨询初创公司,该公司向 T-Mobile 等企业派驻工程师,帮助他们在大型组织内落地 AI。这家初创公司 Distyl 只是众多在该领域崛起的公司之一,它们为需要支持的企业提供高科技咨询服务。OpenAI、Anthropic、Salesforce 和 Snowflake 等 AI 开发商和 AI 代理提供商也开始招聘前线部署工程师(FDEs)或推出类似咨询服务,但这往往会提高他们的成本。
另一个例子则是专为汽车经销商提供软件、年销售额 90 亿美元的 Cox Automotive。此前该公司开发一个 AI 代理,用于为经销商制作营销网页。由于该公司是亚马逊云服务 AWS 在汽车领域的最大客户之一,所以得到了 “白手套式的服务”。
Cox 首席产品官 Marianne Johnson 对媒体表示,AWS 工程师和为该代理提供 AI 技术的 Anthropic 工程师飞到 Cox 位于亚特兰大的总部,与 Cox 的软件开发人员并肩工作了数天共同构建这个工具。她拒绝透露 Cox 为此向 AWS 和 Anthropic 支付了多少费用,但估计未来数年可节省数百万美元的人力成本,因为公司无需再人工为客户制作网站。
“它很自信地胡说八道”
AI 代理的目标是处理客户服务问题、管理 IT 系统等各种任务。AI 和云服务提供商正在押注企业使用 AI 代理带来的收入,将其作为未来一两年投入数千亿美元建设 AI 数据中心的理由。
但这些供应商以及部分客户高管表示,AI 代理太难配置,而且行为常常不可预测。这使得它们无法用于那些一旦出错就会造成严重后果的任务。因此客户降低了预期,不再奢望 AI 代理能自动化太多工作,并暂缓在客户支持和网络安全等关键岗位部署 AI 代理。
例如,IT 服务巨头 Kyndryl 今年开始测试微软的 Security Copilot,这是一款聊天机器人,旨在对接企业 IT 系统,用简单英语解释潜在安全漏洞,相当于自动化网络安全分析师的工作。但负责公司内部网络安全的 Scott Owenby 对媒体表示,当 Kyndryl 员工尝试询问一些基础问题,比如 “哪些公司设备运行的是过期软件” 时,Security Copilot 给出的答案明显是错误的。Owenby 说,
“它信心满满地胡说八道,而我佩服这种自信,但我无法相信它的数据。”
Kyndryl 花了约 5 万美元测试了 Security Copilot 六个月,之后决定停止使用这款软件。Owenby 说,
“我基本上是把 5 万美元烧了。这不算多,如果哪怕有一点用我们都会继续用,但我们没想到它居然完全没法用。”
Owenby 还说,其他 AI 工具效果更好,例如 Palo Alto Networks 的软件可以自动处理网络安全中重复繁琐的工作,例如调查员工从新地点登录或截取敏感数据截图的情况。这使得他过去一年减少了部分安全团队的人手,但他表示仍然需要工作人员监控这些 AI 工具,而不能完全让 AI 全权执行。
“有些炒作成分”
博世电动工具(Bosch Power Tools)年营收超 57 亿美元。该公司数字客户体验负责人 Florian Haustein 对媒体表示,公司一年多以来一直在测试一款聊天机器人,用于回答客户关于工具使用方式和故障排查的问题。
但 Haustein 表示,这款聊天机器人仍然经常给出错误答案,一些错误答案甚至可能导致用户受伤。因此,该项目仍停留在试点阶段。他还表示,博世正在测试 Google、OpenAI 等多家实验室的模型。
Haustein 对媒体说,博世在另一个不那么激进的客服聊天机器人上收效更好,该机器人只回答更基础的问题,例如在哪可以买到某款产品;还有一款由 SAP 提供的 AI 工具能读取客户咨询内容,并自动分配给合适的人类员工。Haustein 说,
“我认为 ‘完全用 AI 做客服’ 有些炒作。”
“你必须确保答案接近 100% 准确……但我们仍然看到幻觉和错误答案。我认为我们还没有达到能够完全自动化所需要的信心水平。”
一些技术供应商也承认 AI 代理还未成熟。亚马逊 CEO Andy Jassy 在上周四的财报电话会上说:
“现阶段,构建 AI 代理仍比想象中困难。”
“但随着时间推移,企业从 AI 中实现的很多价值将来自 AI 代理。”
AI 代理产品收入难计算
目前,通用聊天机器人、编程助手、AI 搜索和 AI 视频生成工具的采用,已经帮助工程、市场和产品管理团队提升了效率,企业高管们对媒体表示。
这推动了 AI 供应商的新收入增长:根据媒体的生成式 AI 数据库,由 OpenAI 和 Anthropic 引领的 20 家 AI 原生初创公司,每年因 AI 办公用途获得的年化收入已达 230 亿美元,而三年前几乎为零。
但要单独计算 “AI 代理” 带来的收入却很困难。在 Google、微软和亚马逊等云公司,大部分收入增长来自 OpenAI、Anthropic 和 Meta 等大型 AI 开发商租用服务器,而非企业类 AI 应用。
在出售 AI 代理的企业软件公司中,结果不一。Salesforce 今年早些时候表示,其 Agentforce 产品(用于自动化销售邮件、跟踪发票等任务)年收入超过 1 亿美元。ServiceNow 则称,其用于自动处理 IT 服务工单的 AI 软件,有望在 2026 年底前实现 10 亿美元收入。但这两家公司的收入增长最近几个季度都比 2023 年大多数时间慢。
SAP 尚未单独公布 AI 产品收入,但 CEO Christian Klein 在本月的财报电话中表示,AI 将在未来两年带来 “双位数收入增长”。
许多提供 AI 代理的软件公司,包括 Salesforce、Snowflake 和 Xero,目前甚至没有对这类产品收费,他们希望等客户真正认可价值之后再收费。
ServiceNow 全球客户运营总裁 Paul Fipps 对媒体表示,近期客户在试点 AI 功能方面不再那么兴奋,因为他们变得更加现实,开始考虑 AI 代理究竟能合理自动化哪些任务。Fipps 说,
“在过去 12 到 18 个月里,由于生成式 AI 的发展速度太快,很多客户积极试点这些 AI 能力,钟摆被推到了极端的一侧。”
“现在你看到钟摆开始回摆。”
他仍然乐观,认为随着 AI 代理不断进步,未来几年企业会继续大力投入。
目前,AI 代理在软件开发领域最成功。AI 编程代理正成为许多公司工程团队的标配。但软件工程师仍需检查 AI 的代码,因为 AI 会犯错,意味着任务还不能完全自动化。
“保持现实”
Palo Alto Networks 首席执行官 Nikesh Arora 表示,销售 AI 工具的公司必须谨慎,不要过度承诺 AI 能自动化多少工作。他认为,网络安全岗位要实现完全自动化仍需数年。
“我们保持现实的态度,(完全自动化)需要更多努力,我们必须非常确定,当把操作交给 AI 时,它采取的行动是正确的,因为网络安全是有后果的。”
尽管如此,公司仍然认可 AI 代理带来的收益,即使需要 “有人看着”。例如,加拿大太阳马戏团 Cirque du Soleil 正在使用 SAP 提供的一款 AI 代理,追踪其服装和舞台布景供应商的发票。
当供应商发邮件询问发票状态时,AI 代理会检查 SAP 系统中发票是否处理完毕,并草拟回复邮件。过去,该公司有两名全职员工做这件事;现在,这两人已被安排到其他部门,只需一人审核 AI 草稿再发出即可。
该工具的运营成本低于一名全职员工的薪资,副总裁 Philippe Lalumière 对媒体说:
“有时候 AI 写的邮件不太礼貌,但供应商得到回复更快、更清楚,所以整体满意度更高。我们没有因为它裁员,但生产力提升很明显。”
与此同时,其他 AI 代理供应商也提醒客户,要把这些工具视为实验性项目,而不是能立即带来回报的投资。
微软核心 AI 产品开发总裁 Asha Sharma 上周在 The Information 的 WTF 峰会上表示:
“把 AI 代理视为研发预算……一种将在未来 5 到 10 年见效的投资。”
“我认为我们还处在非常早期阶段……我们现在有数百万个 AI 代理投入生产使用,但大家仍然在摸索如何让 AI 代理真正有用。”
