Tencent and OpenAI are targeting the same track

华尔街见闻
2024.05.15 09:39
portai
I'm PortAI, I can summarize articles.

用 AI 重塑业务。

图为:腾讯文生图负责人芦清林

作者 | 黄 昱

编辑 | 周智宇

AI 多模态大模型持续火热,腾讯也出招了。

5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级,该模型采用了与 Sora 一致的 DiT 架构(Diffusion With Transformer),不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

在腾讯方面看来,DiT 架构很可能成为下一代主流视觉生成架构。未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

并且腾讯将混元文生图大模型开源,可供企业与个人开发者免费商用。

这是业内首个中文原生的 DiT 架构文生图开源模型。它希望借此填补文生图开源社区 DiT 架构空白,让更多开发者参与其中,以更快追赶上国外先进闭源多模态大模型。

腾讯也能在这个过程中,借着大模型重构自身业务,为现有业务赋能。从最新财报来看,大模型已对腾讯的业务产生积极作用。

此次腾讯升级的混元文生图大模型参数量 15 亿,支持中英文双语输入,支持最长 256 个字符(业界主流是 77 个)的图片生成指令,支持用户文本改写以及多轮绘画。

过去几年,主流的文生图模型以基于 U-Net 架构的扩散模型为主,然而 U-Net 模型容易陷入性能瓶颈,面临着扩展性问题,DiT 架构主要是替换了模型中的 U-Net 架构的部分。Transformer 架构只要算力与数据量足够,可以无限扩展。

基于 Transformer 架构的模型似乎更有潜力让文生图模型变得更聪明。因此,混元文生图从 2023 年 7 月起就开始做研发,全链路自研,从零开始训练。今年初,混元文生图大模型已全面升级为 DiT 架构。

据华尔街见闻了解,结合腾讯内部广告等真实场景需求优化与架构升级,最新的腾讯混元文生图大模型,对比基于 U-Net 架构的模型,视觉生成整体效果提升 20%,同时在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果有明显提升。

腾讯文生图负责人芦清林指出,与 Dalle3、SD3、Midjorney 这三个业界知名的闭源文生图模型相比,混元文生图大模型排在 Dalle3 和 Midjorney 之后,在所有开源文生图模型中,混元文生图大模型则表现最好。

芦清林进一步指出,在混元文生图大模型开源之前,开源和闭源的文生图技术能力差距是在逐渐拉大的,腾讯希望通过此次开源能够把这个差距缩小。

芦清林也透露,今年初 OpenAI 推出 Sora 就是因为他们有了一个很强的 DiT 架构模型,此次混元文生图大模型开源有一个初衷,就是希望通过把 DiT 架构模型拿出来,让业界想做文生视频的同行可以快速地将这一技术拓展到视频上去,可以帮助大家节省很多时间。

腾讯一直是开源技术的支持者,过去已开源了超 170 个项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块。

芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”

多模态是大势所趋。开源证券指出,国内外 AI 多模态大模型的持续突破及后续商业化,或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本,提高 IP 开发、广告营销及教学效率,扩大商业化空间。

去年 9 月发布混元大模型时,腾讯就十分强调实用性,称混元大模型是 “从实践中来,到实践中去” 的实用级大模型。在混元文生图大模型开源后,不排除腾讯也会将大语言模型开源。

当然,开源或闭源都只是不同技术路线的选择,最终目的还是商业化应用。按照腾讯的规划,腾讯做混元大模型一定先是服务腾讯本身,再是通过腾讯云向产业规划,C 端的应用则还在探索阶段。

芦清林对华尔街见闻表示,混元文生视频的商业化探索不算紧迫,因为腾讯内部的业务场景非常丰富,能给自身业务赋能已经很好。至于 to C 端的商业化,还没有明确的计划,但不排除会尝试。

在 5 月 14 日晚腾讯一季度业绩说明会上,腾讯管理层也表示,腾讯在积极创造和测试不同的 AI 产品,看看哪些产品对公司现有的产品有意义。随着时间的推移,这些产品将在微信等拥有大量用户的平台上推出。

据腾讯披露,目前已有超过 400 项腾讯业务和应用场景,接入腾讯混元大模型内测。腾讯混元文生图能力则被广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。

国内外 AI“军备竞赛” 战局正酣,但这是一场马拉松比赛。在等待 “AI 的 iPhone 时刻” 真正来临前,腾讯选择了一条更扎实的路,让 AI 成为自己业务的 “倍增器”,面对这场技术变革,也会更加从容。