
Alibaba officially released Qwen 3.7-Plus, with comprehensive upgrades in visual and language capabilities
6 月 2 日,阿里巴巴旗下千问正式发布 Qwen3.7-Plus 多模态模型。该模型全面升级视觉 - 语言能力,融合 GUI 与 CLI 交互,具备编码、工具使用及生产力工作流智能体能力。基于此构建的 Hybrid-Agent 系统实现了 APP 全链路自动化开发,展示了强大的跨框架泛化与多步工作流处理能力。
智通财经 APP 获悉,6 月 2 日,阿里巴巴 (09988) 旗下千问正式发布 Qwen3.7-Plus,将视觉与语言统一为一体化智能体基座的多模态模型。在 Qwen3.7 强大文本能力的基础上,Qwen3.7-Plus 全面升级了视觉 - 语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。
据介绍,Qwen3.7-Plus 的核心特色在于其作为多模态交互混合智能体的能力。它能够感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码、端到端导航移动应用,以及基于网络知识回答视觉问题——在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,它以全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务。它具备跨框架泛化能力,无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定表现。
基于 Qwen3.7-Plus 构建的 Hybrid-Agent 智能体系统,将大模型的代码生成能力与 GUI 自动化执行深度融合,实现了从需求分析到版本迭代的 APP 全链路开发。Agent 持续稳定运行 11+ 小时,全程自动完成了一款英语单词学习 APP 的完整研发闭环。累计生成代码超过 10,000+ 行,触发 Agent 调用超过 1,000+ 次,覆盖软件开发全生命周期的核心环节:需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI 自动化测试、多场景并行化测试、产品说明自动更新、自动版本迭代演进。
此外,Qwen3.7-Plus 还支持多模态推理 (可解析地铁线路图等复杂视觉信息)、搜索增强视觉问答、图像/视频转 SVG 矢量代码、视觉驱动的网页设计等功能,并在浏览器 Agent 场景中可自动完成 ECS 云服务器采购、运维链路闭环等任务。模型在 BabyVision、MathVision、ScreenSpot Pro、AndroidWorld 等多项高难度基准上表现强劲。目前 Qwen3.7-Plus 已在阿里云百炼平台上线,支持 OpenAI 兼容 API 与 Anthropic 协议调用。
