
DingTalk's Wukong Gets Its Golden Cudgel
钉钉于 3 月 17 日发布了名为"悟空"的 AI 平台,具备强大的自动化能力,能够接管浏览器进行比价、自动创建任务并发送摘要到手机等功能。该平台类似于孙悟空的金箍棒,能在多个电商平台上进行比价,并生成 Excel 文件。此外,悟空还可以自动执行定时任务,生成网站和数据动画,展现出从 0 到 1 的能力。
孙悟空真正让天庭头疼,是拿到金箍棒之后——随心所欲的 “本命法宝”,让他如虎添翼,所向披靡。
3 月 17 日,钉钉发布了名叫"悟空"的 AI 平台。它能接管你的浏览器、替你搜东西、在你不在的时候操作你的电脑——有手有脚,能执行。
而阿里千问刚发布的 Qwen3.5-Omni,一个能看视频、听音频、把音视频拆成可以直接干活的结构化数据的全模态模型——像极了孙悟空的那根金箍棒。
目前,猴子和棒子还没完全合体。
但一旦合上,这东西会很强。

一、悟空能干什么活
钉钉的悟空,是能力强大但守规矩的企业级 “龙虾”。
(1)一句话全网比价
我让它在淘宝、京东、拼多多上搜"大疆 Osmo Pocket 3",比价格和销量,截图,整理成 Excel。
它接管了我的浏览器——打开淘宝,输入关键词,滚动浏览,截图保存;跳到京东,同样动作;再到拼多多。
三个平台跑完,桌面上多了一个 Excel 文件:前 5 个最便宜且高销量的商品,按平台、店铺、价格、链接排列,最低价标红。
它不是在"告诉"我哪个便宜。它在"替"我比价、截图、制表。全程我只打了一段话。
当然有毛刺——需要提前在各平台登录好账号,否则验证码会拦住它。

(2)内容雷达
第二个很实用的场景,不是发生在电脑前。
我用手机钉钉给悟空发了一条消息:设个每天早 9 点的定时任务,自动打开电脑浏览器搜"最新 AI 动态,制作做一个 AI 相关的选题",提取 3 条摘要附来源链接,发到我手机上。
悟空调取了相关 Skill,自动创建了任务。第二天早 9 点过几分,手机弹出早报——排版整齐,链接可点。

(3)拉客户、做网站
我还拿悟空跑了一个建网站的任务,选了官方技能市场的 skills,跑出了可运行的网站和完整源码——审美还需打磨,但从 0 到 1 的能力确实在;市场部门以用它生成定时的竞品监控;动画大师一句话出完整数据动画视频。

发布会上还有一些更激进的演示。一个汽修门店店长对悟空说"帮我拉 100 个客人",AI 自主完成了从竞品分析、学习爆款、社媒发帖到评论引导的全链路。
这些场景如果日常能稳定跑通,说明 AI 正在从"执行指令"走向"帮你干完"。
说完亮点,也聊聊产品初期不可避免的不稳定因素。官方给了一个案例的数据,有用户反馈,做一个 PPT 消耗了约 2.7 亿 Token。AI 从对话走向执行后,操作文件、反复修改、跨系统调用,token 消耗是量级变化。
悟空的 RealDoc 文件系统官方称 token 效率提升了 5 倍,方向对了,但对精打细算的中小企业来说,可能还需要更稳定的系统、更优秀的 skills 来让 ROI 算的清晰、算的过来。
二、金箍棒长什么样
悟空有手有脚,但暂时缺一样东西:眼睛和耳朵。它能操作浏览器、读文档、跨端执行,却还看不懂一段视频里发生了什么,听不出一段录音里谁说了什么、语气如何。
你一定有过这种经历:两小时的会议录像安安静静躺在网盘里,没人回看——因为回看的成本几乎等于再开一次会。爆款带货视频刷到了,隐约觉得转化逻辑值得学,但没时间逐帧拆解。英文播客、方言客服录音——听过就过了。大量有价值的音视频内容,"看过"之后再没有然后。
阿里千问刚发布的 Qwen3.5-Omni,做的就是把"看过就过"变成"拆开来用"。
说说我们的实测。
我们用它来拆爆款 TikTok 带货视频。
输入一条义乌招商类带货视频,模型按 Hook、卖点排序、画面证明点、字幕策略、情绪节奏、CTA 时间点、目标人群七个维度做了结构化拆解。核心洞察让我印象深刻——"这条视频卖的不是商品,而是确定性":三级物理证据链构建信任、"2 万种 SKU+20 美分均价"制造数字锚点、保姆式承诺实现风险逆转。
更关键的是迁移能力:要求它按同样逻辑给"T 恤定制工厂"写一个脚本,它成功输出了可执行的 5 步模板,Hook 改成了"拉扯 T 恤展示弹性",实力证明换成"印花机喷墨特写 + 揉搓不掉色",连评论区运营引导都写好了。

还有一个"口述写代码"的测试。手绘一张故意画得很粗糙的 APP 线框图,打开摄像头对着镜头口述需求,它直接生成了可运行的 React 代码。继续口述修改——侧边栏、圆角、深色主题、按压动画——多轮迭代下来上下文始终没丢。边看、边说、边改,这是人类最自然的交互方式,它接住了。

底层支撑这些表现的:混合注意力 MoE 架构,超 1 亿小时音频数据的原生多模态预训练,215 项第三方测试取得 SOTA,多项指标超越 Gemini-3.1 Pro。256K 上下文窗口,支持超 10 小时音频。113 种语言和方言的语音识别,36 种语言和方言的 TTS 合成。定价:每百万 Token 输入不到 0.8 元——不到 Gemini-3.1 Pro 的十分之一。
一句话概括:Qwen3.5-Omni 让音视频变得"可拆"——不是"看懂了"就完了,而是拆成可检索、可复用、可以直接拿去干活的数据资产。
三、当悟空拿起金箍棒
悟空能操作浏览器、读写文件、跨端执行、调用钉钉上千项能力,但它处理不了音视频,就没办法让用户在最自然的商业场景中广泛使用;Qwen3.5-Omni 能把视频按时间戳拆成结构化数据、听懂多语言录音、理解画面和语音的混合输入,恰恰弥补上了这一环。
如果两者成功结合:你把两小时的会议录像扔给它。它不只是生成一份纪要——它听出谁在什么时间说了什么、语气是坚定还是犹豫、哪些话是待办事项,然后直接在钉钉里创建任务、分配给对应的人、设好截止日期。从"看懂会议"到"执行会议结论",中间不需要任何人再动手。
运营团队不用每天人工盯竞品的短视频账号了。AI 自己去看竞品视频、拆解转化逻辑——就像 Qwen3.5-Omni 拆那条 TikTok 带货视频一样——输出可迁移的脚本模板,然后在悟空里自动在社交媒体上发布改编后的内容,甚至进一步拉客获客。从"分析竞品"到"产出内容"到 “获客转化”,一条龙搞定。
或者更日常一点:客服录音质检。过去需要人听、人记、人打分,一天能质检的通话量有限。接入全模态能力后,AI 自己听完所有录音,输出每通电话的情绪轨迹和话术评分,标记出问题通话,生成改进建议,再把结果写进钉钉的管理系统。
这几个场景的共同逻辑是一样的:感知→理解→执行,完整闭环。悟空解决了执行,Qwen3.5-Omni 解决了感知,且 Qwen3.5-Omni 不到 0.8 元/百万 Token 的定价也让整个飞轮在价格上可行,拼图就差合上这一步。
结语
西游记里,悟空从石头缝蹦出来时就已经能打了。但他拿到金箍棒、认了师父、上了路之后,变得越来越强。
钉钉的悟空已经蹦出来了。金箍棒刚铸好,还没交到手上。取经的路很长——Token 成本要降,产品要磨,2700 万企业的认知要一家一家啃。
但猴子、棒子、路,都在了。
本文来自微信公众号 “硬 AI”,关注更多 AI 前沿资讯请移步这里
