Alibaba officially released Qwen 3.7-Plus, with comprehensive upgrades in visual and language capabilities

智通财经

2026.06.01 22:51

6 月 2 日，阿里巴巴旗下千问正式发布 Qwen3.7-Plus 多模态模型。该模型全面升级视觉 - 语言能力，融合 GUI 与 CLI 交互，具备编码、工具使用及生产力工作流智能体能力。基于此构建的 Hybrid-Agent 系统实现了 APP 全链路自动化开发，展示了强大的跨框架泛化与多步工作流处理能力。

智通财经 APP 获悉，6 月 2 日，阿里巴巴 (09988) 旗下千问正式发布 Qwen3.7-Plus，将视觉与语言统一为一体化智能体基座的多模态模型。在 Qwen3.7 强大文本能力的基础上，Qwen3.7-Plus 全面升级了视觉 - 语言能力，同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。

据介绍，Qwen3.7-Plus 的核心特色在于其作为多模态交互混合智能体的能力。它能够感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码、端到端导航移动应用，以及基于网络知识回答视觉问题——在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手，它以全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务。它具备跨框架泛化能力，无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署，均能保持稳定表现。

基于 Qwen3.7-Plus 构建的 Hybrid-Agent 智能体系统，将大模型的代码生成能力与 GUI 自动化执行深度融合，实现了从需求分析到版本迭代的 APP 全链路开发。Agent 持续稳定运行 11+ 小时，全程自动完成了一款英语单词学习 APP 的完整研发闭环。累计生成代码超过 10,000+ 行，触发 Agent 调用超过 1,000+ 次，覆盖软件开发全生命周期的核心环节：需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI 自动化测试、多场景并行化测试、产品说明自动更新、自动版本迭代演进。

此外，Qwen3.7-Plus 还支持多模态推理 (可解析地铁线路图等复杂视觉信息)、搜索增强视觉问答、图像/视频转 SVG 矢量代码、视觉驱动的网页设计等功能，并在浏览器 Agent 场景中可自动完成 ECS 云服务器采购、运维链路闭环等任务。模型在 BabyVision、MathVision、ScreenSpot Pro、AndroidWorld 等多项高难度基准上表现强劲。目前 Qwen3.7-Plus 已在阿里云百炼平台上线，支持 OpenAI 兼容 API 与 Anthropic 协议调用。