DingTalk's Wukong Gets Its Golden Cudgel

钉钉于 3 月 17 日发布了名为"悟空"的 AI 平台，具备强大的自动化能力，能够接管浏览器进行比价、自动创建任务并发送摘要到手机等功能。该平台类似于孙悟空的金箍棒，能在多个电商平台上进行比价，并生成 Excel 文件。此外，悟空还可以自动执行定时任务，生成网站和数据动画，展现出从 0 到 1 的能力。

孙悟空真正让天庭头疼，是拿到金箍棒之后——随心所欲的 “本命法宝”，让他如虎添翼，所向披靡。

3 月 17 日，钉钉发布了名叫"悟空"的 AI 平台。它能接管你的浏览器、替你搜东西、在你不在的时候操作你的电脑——有手有脚，能执行。

而阿里千问刚发布的 Qwen3.5-Omni，一个能看视频、听音频、把音视频拆成可以直接干活的结构化数据的全模态模型——像极了孙悟空的那根金箍棒。

目前，猴子和棒子还没完全合体。

但一旦合上，这东西会很强。

一、悟空能干什么活

钉钉的悟空，是能力强大但守规矩的企业级 “龙虾”。

（1）一句话全网比价

我让它在淘宝、京东、拼多多上搜"大疆 Osmo Pocket 3"，比价格和销量，截图，整理成 Excel。

它接管了我的浏览器——打开淘宝，输入关键词，滚动浏览，截图保存；跳到京东，同样动作；再到拼多多。

三个平台跑完，桌面上多了一个 Excel 文件：前 5 个最便宜且高销量的商品，按平台、店铺、价格、链接排列，最低价标红。

它不是在"告诉"我哪个便宜。它在"替"我比价、截图、制表。全程我只打了一段话。

当然有毛刺——需要提前在各平台登录好账号，否则验证码会拦住它。

（2）内容雷达

第二个很实用的场景，不是发生在电脑前。

我用手机钉钉给悟空发了一条消息：设个每天早 9 点的定时任务，自动打开电脑浏览器搜"最新 AI 动态，制作做一个 AI 相关的选题"，提取 3 条摘要附来源链接，发到我手机上。

悟空调取了相关 Skill，自动创建了任务。第二天早 9 点过几分，手机弹出早报——排版整齐，链接可点。

（3）拉客户、做网站

我还拿悟空跑了一个建网站的任务，选了官方技能市场的 skills，跑出了可运行的网站和完整源码——审美还需打磨，但从 0 到 1 的能力确实在；市场部门以用它生成定时的竞品监控；动画大师一句话出完整数据动画视频。

发布会上还有一些更激进的演示。一个汽修门店店长对悟空说"帮我拉 100 个客人"，AI 自主完成了从竞品分析、学习爆款、社媒发帖到评论引导的全链路。

这些场景如果日常能稳定跑通，说明 AI 正在从"执行指令"走向"帮你干完"。

说完亮点，也聊聊产品初期不可避免的不稳定因素。官方给了一个案例的数据，有用户反馈，做一个 PPT 消耗了约 2.7 亿 Token。AI 从对话走向执行后，操作文件、反复修改、跨系统调用，token 消耗是量级变化。

悟空的 RealDoc 文件系统官方称 token 效率提升了 5 倍，方向对了，但对精打细算的中小企业来说，可能还需要更稳定的系统、更优秀的 skills 来让 ROI 算的清晰、算的过来。

二、金箍棒长什么样

悟空有手有脚，但暂时缺一样东西：眼睛和耳朵。它能操作浏览器、读文档、跨端执行，却还看不懂一段视频里发生了什么，听不出一段录音里谁说了什么、语气如何。

你一定有过这种经历：两小时的会议录像安安静静躺在网盘里，没人回看——因为回看的成本几乎等于再开一次会。爆款带货视频刷到了，隐约觉得转化逻辑值得学，但没时间逐帧拆解。英文播客、方言客服录音——听过就过了。大量有价值的音视频内容，"看过"之后再没有然后。

阿里千问刚发布的 Qwen3.5-Omni，做的就是把"看过就过"变成"拆开来用"。

说说我们的实测。

我们用它来拆爆款 TikTok 带货视频。

输入一条义乌招商类带货视频，模型按 Hook、卖点排序、画面证明点、字幕策略、情绪节奏、CTA 时间点、目标人群七个维度做了结构化拆解。核心洞察让我印象深刻——"这条视频卖的不是商品，而是确定性"：三级物理证据链构建信任、"2 万种 SKU+20 美分均价"制造数字锚点、保姆式承诺实现风险逆转。

更关键的是迁移能力：要求它按同样逻辑给"T 恤定制工厂"写一个脚本，它成功输出了可执行的 5 步模板，Hook 改成了"拉扯 T 恤展示弹性"，实力证明换成"印花机喷墨特写 + 揉搓不掉色"，连评论区运营引导都写好了。

还有一个"口述写代码"的测试。手绘一张故意画得很粗糙的 APP 线框图，打开摄像头对着镜头口述需求，它直接生成了可运行的 React 代码。继续口述修改——侧边栏、圆角、深色主题、按压动画——多轮迭代下来上下文始终没丢。边看、边说、边改，这是人类最自然的交互方式，它接住了。

底层支撑这些表现的：混合注意力 MoE 架构，超 1 亿小时音频数据的原生多模态预训练，215 项第三方测试取得 SOTA，多项指标超越 Gemini-3.1 Pro。256K 上下文窗口，支持超 10 小时音频。113 种语言和方言的语音识别，36 种语言和方言的 TTS 合成。定价：每百万 Token 输入不到 0.8 元——不到 Gemini-3.1 Pro 的十分之一。

一句话概括：Qwen3.5-Omni 让音视频变得"可拆"——不是"看懂了"就完了，而是拆成可检索、可复用、可以直接拿去干活的数据资产。

三、当悟空拿起金箍棒

悟空能操作浏览器、读写文件、跨端执行、调用钉钉上千项能力，但它处理不了音视频，就没办法让用户在最自然的商业场景中广泛使用；Qwen3.5-Omni 能把视频按时间戳拆成结构化数据、听懂多语言录音、理解画面和语音的混合输入，恰恰弥补上了这一环。

如果两者成功结合：你把两小时的会议录像扔给它。它不只是生成一份纪要——它听出谁在什么时间说了什么、语气是坚定还是犹豫、哪些话是待办事项，然后直接在钉钉里创建任务、分配给对应的人、设好截止日期。从"看懂会议"到"执行会议结论"，中间不需要任何人再动手。

运营团队不用每天人工盯竞品的短视频账号了。AI 自己去看竞品视频、拆解转化逻辑——就像 Qwen3.5-Omni 拆那条 TikTok 带货视频一样——输出可迁移的脚本模板，然后在悟空里自动在社交媒体上发布改编后的内容，甚至进一步拉客获客。从"分析竞品"到"产出内容"到 “获客转化”，一条龙搞定。

或者更日常一点：客服录音质检。过去需要人听、人记、人打分，一天能质检的通话量有限。接入全模态能力后，AI 自己听完所有录音，输出每通电话的情绪轨迹和话术评分，标记出问题通话，生成改进建议，再把结果写进钉钉的管理系统。

这几个场景的共同逻辑是一样的：感知→理解→执行，完整闭环。悟空解决了执行，Qwen3.5-Omni 解决了感知，且 Qwen3.5-Omni 不到 0.8 元/百万 Token 的定价也让整个飞轮在价格上可行，拼图就差合上这一步。

结语

西游记里，悟空从石头缝蹦出来时就已经能打了。但他拿到金箍棒、认了师父、上了路之后，变得越来越强。

钉钉的悟空已经蹦出来了。金箍棒刚铸好，还没交到手上。取经的路很长——Token 成本要降，产品要磨，2700 万企业的认知要一家一家啃。

但猴子、棒子、路，都在了。

本文来自微信公众号 “硬 AI”，关注更多 AI 前沿资讯请移步这里

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。