记者实测 | 速度更快成本更低,人机交互更自然,OpenAI 新模型免费开放
OpenAI 发布了新模型 GPT-4o 和 AI 聊天机器人 ChatGPT 的桌面版本。GPT-4o 具有较准确的生成结果和快速的速度,成本仅为前一代模型的一半,音频和视频功能也有改善。ChatGPT 免费用户也可以使用 GPT-4o。OpenAI 还与苹果合作推出了适用于 macOS 的桌面级应用。新模型具有感知情绪的能力,可以处理用户的打断。这是 OpenAI 在易用性方面迈出的一大步。
当地时间 5 月 13 日,OpenAI 通过直播展示了产品更新。与此前传出的市场消息不同,OpenAI 并未推出搜索引擎,也未推出 GPT-4.5 或 GPT-5,而是发布了 GPT-4 系列新模型 GPT-4o 以及 AI 聊天机器人 ChatGPT 的桌面版本,聚焦多模态和端侧应用。
此前 OpenAI 公司 CEO 奥尔特曼(Sam Altman)就已经否认了公司将会发布 GPT-5,他表示新版 GPT 非常 “神奇”。根据 OpenAI 官方网站介绍,GPT-4o 中的 “o” 代表 Omni,也就是 “全能” 的意思。
据介绍,GPT-4o 文本、推理、编码能力达到 GPT-4 Turbo 水平,速度是上一代 AI 大模型 GPT-4 Turbo 的两倍,但成本仅为 GPT-4 Turbo 的一半,视频、音频功能得到改善。OpenAI CEO 奥尔特曼(Sam Altman)在博客中表示,ChatGPT 免费用户也能用上新发布的 GPT-4o。此外,OpenAI 还与苹果走到一起,推出了适用于 macOS 的桌面级应用。
OpenAI 技术负责人 Mira Murati 在直播中表示:“这是我们第一次在易用性方面真正迈出的一大步。”
价格低于 GPT-4 Turbo
OpenAI 研究员 Mark Chen 表示,新模型具有 “感知情绪” 的能力,能输出笑声、歌唱或表达情感,还可以处理用户打断它的情况。
在直播中,OpenAI 演示了一段 OpenAI 员工与 GPT-4o 对话的视频,模型反应速度与人类相近,GPT-4o 可利用手机摄像头描述其 “看到” 的东西。
另一段展示视频里,GPT-4o 被装在两个手机上,其中一个代表人类与电信公司打电话沟通设备更换事项,另一个 GPT-4o 扮演电信公司客服人员。OpenAI 还展示了 GPT-4o 搭载在手机上的实时翻译能力。
根据 OpenAI 介绍,GPT-4o 与 GPT-3.5、GPT-4 的语音对谈机制不同。GPT-3.5 和 GPT-4 会先将音频转换为文本,再接收文本生成文本,最后将文本转换为音频,经历这三个过程,音频中的情感表达等信息会被折损,而 GPT-4o 是跨文本、视觉和音频的端到端模型,是 OpenAI 第一个综合了这些维度的模型,可更好进行对谈。
OpenAI 将 GPT-4o 定位为 GPT-4 性能级别的模型。据介绍,GPT-4o 在传统基准测试中,文本、推理、编码能力达到 GPT-4 Turbo 的水平。该模型接收文本、音频和图像输入时,平均 320 毫秒响应音频输入,与人类对话中的响应时间相似,英文文本和代码能力与 GPT-4 Turbo 相当,在非英文文本上有改善,提高了 ChatGPT 针对 50 种不同语言的质量和速度,并通过 OpenAI 的 API 提供给开发人员,使其即时就可以开始使用新模型构建应用程序。
第一财经记者在 OpenAI 官网看到,GPT-4o 输入、输出每 1M token(文本单位)收费 0.005 美元、0.015 美元,GPT-4 Turbo 输入、输出每 1M token 收费 0.01 美元、0.03 美元。
“在过去两年中,我们花了大量精力在堆栈的每一层上提高 - 效率,作为这项研究的第一个成果,我们能使 GPT-4 级别的模型更广泛应用,GPT-4o 即日起扩展红队访问权限。” OpenAI 官网称,GPT-4o 的文本和图像功能今日在 ChatGPT 中推出,“我们计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。”
第一财经记者在 ChatGPT 网站看到,ChatGPT 已接入 GPT-4o 有限访问权限,但免费用户还不能使用图片生成功能。
记者使用了 GPT-4o 来描述图片,发现其生成结果较准确,5 秒左右就能生成描述图片的文字。
此外,OpenAI 还宣布推出一款适用于 macOS 的桌面级应用,使用键盘快捷键就可向 ChatGPT 提问。用户可通过电脑与 ChatGPT 语音对话,GPT-4o 的新音频和视频功能后续将推出。OpenAI 已向 Plus 用户推出 macOS 应用程序,今年晚些时候还将推出 Windows 版本。
值得注意的是,近日还有消息传出苹果与 OpenAI 商谈,以便在下一代 iPhone 操作系统使用 ChatGPT 功能。此次 OpenAI 重点展示了大模型在手机端侧应用的能力。
不过,此次 OpenAI 并未发布关于新模型的论文或技术文档。
今日,OpenAI 特别强调了新模型的风险和局限性。该公司称:“GPT-4o 的音频模式带来了各种新的风险。在接下来的几周和几个月里,我们将更关注技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。”
发力端侧应用
不少科技界人士发表了对 OpenAI 此次产品更新的看法。“我没想到 GPT-4o 会接近 GPT-5。传闻中 OpenAI 的 ‘Arrakis’ 模型就采用多模态输入和输入。事实上,它可能是 GPT-5 的一个早期检查点(checkpoint),尚未完成训练。” 英伟达高级科学家 Jim Fan 在社交媒体上评论称。
Jim Fan 认为,在谷歌召开 I/O 大会前,OpenAI 宁愿发布超过人们对 GPT-4.5 心理预期的产品,也不愿因为推出达不到人们期望的 GPT-5,而让人感到失望。此外,谁先赢得苹果,谁就将大获全胜,与 iOS 整合有几个层次,例如抛弃 Siri,OpenAI 为 iOS 提炼出一个更小层级、设备上运行的 GPT-4o。虽然此次未公开相关论文,加利福尼亚大学圣克鲁兹分校教授 Xin Eric Wang 还是评论认为,一个演示胜过千篇论文。
“比较让人失望的是,这次 OpenAI 没有发布 GPT-5,连 GPT-4.5 都没看到。OpenAI 发布了一系列应用,最重要的是发布了语音助手,由于使用了端到端大模型技术,体验远超 Siri。OpenAI 发布应用,恰恰说明应用在人工智能领域大有可为。目前看来,GPT-5 可能还要 ‘难产’ 一段时间。” 猎豹移动董事长兼 CEO 傅盛表示。
近期业内对大模型在既有参数下推动应用落地、商业变现多有讨论。OpenAI 在继续研发下一代更大参数模型 GPT-5 的同时,也在推动价格下降、应用场景和用户群体扩大。
从 API 价格看,GPT-3.5 Turbo 输入、输出每 1M token(文本单位)收费 0.0005 美元、0.0015 美元,GPT-4 为 0.03 美元、0.06 美元,GPT-4 之后定价就持续下降。今年 4 月,OpenAI 还宣布 ChatGPT 无需注册便可使用,此举被业界解读为扩大用户群体的努力,或其算力成本得到一定下降。此次产品更新后,奥尔特曼在其博客中强调,OpenAI 使命的一个关键部分是让强大的人工智能工具免费,或以一个不错的价格推出。
包括 OpenAI 推出 macOS 桌面级应用在内,业内近期对大模型落地端侧多有期待。苹果就多次传出与大模型厂商洽谈合作,苹果自身还在端侧小模型领域布局,并推出可支持 AI 运行、性能更强的 M4 芯片。
近日一场对谈中,金沙江创投主管合伙人朱啸虎也判断,此前 Meta 发布的 Llama3 系列两个小模型性能强大,iPad Pro 则用了 M4 芯片,以后端侧可能就直接跑一个小模型了。几百亿参数的小模型也可在端侧直接跑,尤其是今年下半年 iPhone 新品可能就类似,明年应用层将会爆发。