Tencent and OpenAI are targeting the same track

用 AI 重塑业务。

作者 | 黄昱

编辑 | 周智宇

AI 多模态大模型持续火热，腾讯也出招了。

5 月 14 日，腾讯宣布旗下的混元文生图大模型全面升级，该模型采用了与 Sora 一致的 DiT 架构（Diffusion With Transformer），不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

在腾讯方面看来，DiT 架构很可能成为下一代主流视觉生成架构。未来，DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

并且腾讯将混元文生图大模型开源，可供企业与个人开发者免费商用。

这是业内首个中文原生的 DiT 架构文生图开源模型。它希望借此填补文生图开源社区 DiT 架构空白，让更多开发者参与其中，以更快追赶上国外先进闭源多模态大模型。

腾讯也能在这个过程中，借着大模型重构自身业务，为现有业务赋能。从最新财报来看，大模型已对腾讯的业务产生积极作用。

此次腾讯升级的混元文生图大模型参数量 15 亿，支持中英文双语输入，支持最长 256 个字符（业界主流是 77 个）的图片生成指令，支持用户文本改写以及多轮绘画。

过去几年，主流的文生图模型以基于 U-Net 架构的扩散模型为主，然而 U-Net 模型容易陷入性能瓶颈，面临着扩展性问题，DiT 架构主要是替换了模型中的 U-Net 架构的部分。Transformer 架构只要算力与数据量足够，可以无限扩展。

基于 Transformer 架构的模型似乎更有潜力让文生图模型变得更聪明。因此，混元文生图从 2023 年 7 月起就开始做研发，全链路自研，从零开始训练。今年初，混元文生图大模型已全面升级为 DiT 架构。

据华尔街见闻了解，结合腾讯内部广告等真实场景需求优化与架构升级，最新的腾讯混元文生图大模型，对比基于 U-Net 架构的模型，视觉生成整体效果提升 20%，同时在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果有明显提升。

腾讯文生图负责人芦清林指出，与 Dalle3、SD3、Midjorney 这三个业界知名的闭源文生图模型相比，混元文生图大模型排在 Dalle3 和 Midjorney 之后，在所有开源文生图模型中，混元文生图大模型则表现最好。

芦清林进一步指出，在混元文生图大模型开源之前，开源和闭源的文生图技术能力差距是在逐渐拉大的，腾讯希望通过此次开源能够把这个差距缩小。

芦清林也透露，今年初 OpenAI 推出 Sora 就是因为他们有了一个很强的 DiT 架构模型，此次混元文生图大模型开源有一个初衷，就是希望通过把 DiT 架构模型拿出来，让业界想做文生视频的同行可以快速地将这一技术拓展到视频上去，可以帮助大家节省很多时间。

腾讯一直是开源技术的支持者，过去已开源了超 170 个项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块。

芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态，推动大模型行业加速发展。”

多模态是大势所趋。开源证券指出，国内外 AI 多模态大模型的持续突破及后续商业化，或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本，提高 IP 开发、广告营销及教学效率，扩大商业化空间。

去年 9 月发布混元大模型时，腾讯就十分强调实用性，称混元大模型是 “从实践中来，到实践中去” 的实用级大模型。在混元文生图大模型开源后，不排除腾讯也会将大语言模型开源。

当然，开源或闭源都只是不同技术路线的选择，最终目的还是商业化应用。按照腾讯的规划，腾讯做混元大模型一定先是服务腾讯本身，再是通过腾讯云向产业规划，C 端的应用则还在探索阶段。

芦清林对华尔街见闻表示，混元文生视频的商业化探索不算紧迫，因为腾讯内部的业务场景非常丰富，能给自身业务赋能已经很好。至于 to C 端的商业化，还没有明确的计划，但不排除会尝试。

在 5 月 14 日晚腾讯一季度业绩说明会上，腾讯管理层也表示，腾讯在积极创造和测试不同的 AI 产品，看看哪些产品对公司现有的产品有意义。随着时间的推移，这些产品将在微信等拥有大量用户的平台上推出。

据腾讯披露，目前已有超过 400 项腾讯业务和应用场景，接入腾讯混元大模型内测。腾讯混元文生图能力则被广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。

国内外 AI“军备竞赛” 战局正酣，但这是一场马拉松比赛。在等待 “AI 的 iPhone 时刻” 真正来临前，腾讯选择了一条更扎实的路，让 AI 成为自己业务的 “倍增器”，面对这场技术变革，也会更加从容。