AI 界一夜变天
Open AI 又投下一枚 “核弹”。
作者 | 柴旭晨
没有丝毫预热和剧透,Open AI 深夜直接丢下核弹炸了街,从业者深感要变天。
2 月 16 日凌晨,Open AI 发布了首个 “文生视频” 模型 Sora。官方介绍,Sora 能根据文字指令创造出包含丰富细节的逼真场景、角色,且能用多角度镜头,生成一镜到底的 60 秒长视频。
目前官网上已经更新了 48 个样片,视频中人物、背景都具有惊人的一致性。并且借助于对语言的深刻理解,Sora 创造出的角色能表达丰富的情感。
更令业内惊叹的是,Sora 身上似乎开始出现 “世界模型” 的雏形。通过大量观察训练,它学会了许多关于真实世界的物理规律。
要知道,原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节在 3D 建模中表现得如现实场景般真实,为此专门成立研究部门,且投入了不菲的成本和时间才得以实现。而如今,Sora 只需要一行描述、几次提示便能自动完成。
虽然 Open AI 坦言 Sora 仍有一些效果上的瑕疵,也因潜在的风险暂未对公众开放。但凭借着极度真实的视觉效果,这一足以 “模糊虚实” 的王炸级技术,正粗暴地冲击着大众心智。
事实上,文生视频并非 Open AI 的独门,赛道早已涌入大量玩家。去年下半年开始,谷歌、Meta 及部分 AI 创业公司相继下场试水,国内的字节跳动也于 11 月推出了文生视频模型 Pixel Dance,阿里云的 Animate Anyone 以及百度文心大模型的类似功能同样在内测。
入局者众多,但各家效果却未达预期,当 Runway Gen2、Pika、PixVerse 等 AI 视频工具还在突破数秒内的连贯性时,Sora 已经将时长拉至 1 分钟,大幅度拉高生成视频的可用性。影眸科技 CTO 张启煊评价道,Sora 跟 Pika、Runway 及同类玩家已拉开代差。
颠覆性的效果,伴随的是颠覆性的思路。360 董事长周鸿祎指出,现在所有文生图、视频的模型都是在 2D 平面上对图形元素进行操作,并未适用物理定律。
而 Open AI 利用了其大语言模型优势,将 LLM 和 Diffusion 结合训练,通过学习视频,理解现实世界的动态变化规律,并模拟、创造出新的视觉内容,由此产生的视频真实感十足。
回溯来看,文生视频能蔚然成风,成为全球新一轮 AIGC 竞赛的焦点,因为大家都嗅到了短视频在全球直播电商、内容创作等新兴行业的巨大机遇。周鸿祎就认为,Sora 可能给广告业、电影预告片、短视频行业带来巨大颠覆,成为激发创作力的工具。
AI 从业者更一叶知秋地感受到,Sora 在展示视频制作能力外,更多暗含的是大模型逐渐掌握对真实世界的理解及模拟能力后,可能会带来更惊叹的突破和成果。
有强劲大模型的底座、基于对人类语言的解析、对人类知识和世界模型的了解,再叠加其他技术,周鸿祎认为这便可以创造各个领域的超级工具。因为这种 “先记忆,再预测”,正是人类理解并与世界交互的方式。
他举例称 ,Sora 对物理世界的模拟,就会对智能驾驶领域产生巨大影响。原先智驾 “重感知” 却 “轻认知”,他认为人在驾驶时的很多判断,是基于对这个世界的理解,缺乏这一点很难做出真正的无人驾驶。
行业专家普遍认为,应用层面衍化的终局,便是真正通用人工智能(AGI)时代的到来。
Sora 的技术文档就写道,“我们的结果表明,视频生成模型是有希望向构建通用物理世界模拟器迈进的路径”。
“一旦人工智能接上摄像头,把所有电影、视频都看一遍,其对世界的理解将远超文字学习。AGI 真的就不远了,不是 10-20 年的问题,可能一两年就能实现。” 周鸿祎如是说道。
“我相信 Open AI 手里或许还藏着一些秘密武器,无论是 GPT-5,还是机器学习自动产生内容。” 周鸿祎称,“奥特曼是个营销大师,知道怎样掌握节奏”。
这与 Sam Altman 要筹集 7 万亿美元,塑全球 AI 芯片基础设施的野心形成闭环,因为通往通用人工智能的道路上,需要极为庞大的算力。
近期有投资界人士透露,Open AI 正讨论新一轮融资,估值高达千亿美元。作为头羊,有着独霸 AI 行业、重塑全球 AI 芯片行业的庞大野心的 Open AI,势必要借助资本的助推不断滚雪球。
回溯来看,在这场 AI 公司、资本交织的游戏中,技术迭代一直是跳跃式的,并不会给大家慢慢来的时间。
未来的世界和 AI 行业究竟会驶向何方?还难以断言,但眼下的 2024,必将又是刺激的一年。