The battle of voice AI assistants begins! OpenAI VS Google - "iOS VS Android" in the AI mobile world

苹果 iOS 18 有望引入 ChatGPT 技术，而谷歌则掌控着安卓系统的 “命脉”。AI 助手之后，AI 眼镜会是下个战场吗？

本文作者：李笑寅

来源：硬 AI

本周，AI 圈 “王炸” 不断：谷歌宣布进入 Gemini 时代，“狂甩” 一堆更新，直接对线提前一天 “截胡” 推出新品的 OpenAI。

OpenAI 的 GPT-4o 卓越的实时交互能力令人印象深刻，而谷歌的 Project Astra 同样以相媲美的能力作为反击，引发行业对 AI 助手的讨论度飙升。

根据已公开的信息，同样作为 AI 语音助手，GPT-4o 和 Project Astra 都基于多模态模型打造，支持文本、图片和音视频内容的接收/生成，并能做到超短延迟、实时交互。

另外，根据此前的媒体报道，苹果已经与 OpenAI 达成协议，将在全新操作系统 iOS 18 中引入 ChatGPT 技术，而谷歌掌控着安卓系统的 “命脉”。这不禁令人联想：GPT-4o 和 Gemini 之间的这场对决会不会是下一个 AI 手机届的 “iOS VS 安卓”？

正面 “硬刚”，谁更胜一筹？

逐一对比 GPT-4o 和 Project Astra（在 Gemini 中提供 Gemini Live 功能），会发现这两款 AI 助手的确存在细节差异。

1）使用场景

GPT-4o 的响应延迟平均为 320 毫秒，最快在 232 毫秒内回应音频输入，接近人类对话的反应时间。在发布会演示中，GPT-4o 的日常使用场景包括：口译、读写编码、数学教学、汇总并解读信息、视频识别情绪等。

Gemini Live 的视觉识别和语音交互效果和 GPT-4o 不相上下，同样提供了对话式自然语言语音界面和通过手机摄像头进行实时视频分析的能力，反应速度也够快，能进行自然日常对话。DeepMind CEO Demis Hassabis 形容其为 “一直希望打造一款在日常生活中有用的通用智能体”。

从易用性来看，二者之间差别不大。

不过，一个可能导致市场反响不同的点在于，GPT-4o 的演示是现场完成的，而谷歌的演示是发布会前录制的。

2）多模态能力

多模态能力是两款 AI 助手主打的宣传点，目前看来，GPT-4o 可能在音频方面略微领先，而 Project Astra 展示的视觉功能则更胜一筹。

演示中，GPT-4o 展示了逼真的声音、丝滑的对话流程、唱歌，甚至能够根据用户的预期猜测情绪；而 Project Astra 展示了更 “高级” 的视觉功能，比如能够 “记住” 你把眼镜放在哪里。

在多模态模型方面，Gemini 依赖其他模型进行输出，包括使用 Imagen 3 处理图像和 Veo 处理视频；而 GPT-4o 采用的是原生的多模态，自发生成图像和声音。

3）产品定位

GPT-4o 的推出引发了市场对于现实版 “Her” 的讨论，因其 AI 助手拥有情感表达充沛的女声，甚至具有闲聊和开玩笑的能力，而 Project Astra 虽然也是女声，但语气更加沉着冷静，更实事求是。

这体现出二者对于 “AI 助手” 产品定位的不同，OpenAI 希望其更 “拟人化”，而谷歌则希望其更 “代理化”。

谷歌曾表示，有意避免生产 “Her” 类型的人工智能。

在 DeepMind 上个月发表的论文中，该公司详细介绍了拟人化 AI 的潜在缺点，认为这种 AI 助手将模糊 “人机界限”，可能会导致敏感信息泄露、人类情感依赖、代理能力削弱等问题。

4）访问路径

OpenAI 表示，即日起在 Web 界面和 GPT 应用程序上推出 GPT-4o 的文本和视觉功能。该公司还表示，将在未来几周内增加语音功能，开发人员现可以访问 API 中的文本和视觉功能。

谷歌表示，Gemini Live 将在“未来几个月”通过 Google 的高级 AI 计划 Gemini Advanced 推出。

有观点认为，OpenAI 推出新功能的时点更早，可能意味着其产品在获取新用户方面更具优势。

5）费用

GPT-4o 面向 ChatGPT 的所有用户免费开放，API 价格降价 50%。

不过，目前官方给出的免费限制在一定的消息数量上，超过这个消息量后，免费用户的模型将被切换回 ChatGPT，也就是 GPT3.5，而付费用户（每月 20 美元起）则将拥有五倍的 GPT-4o 消息量上限。

Gemini Advanced 提供两个月的免费试用期，此后每月收费 20 美元。

AI 眼镜会是下个战场吗？

伴随端侧 AI 应用的推进，AI 助手将真正落地并应用于日常生活，届时其实际效用才会逐一显现。

不过，AI 语音助手似乎暗示了一种新的电子科技趋势：从文本转向音频。

而接下来，视觉能力的深度融合似乎也正在路上。

发布会上，谷歌表示，Project Astra 的另一重潜力在于，可以与谷歌眼镜一起配合使用——盲人戴上后，可以在日常生活中获得实时语音讲解。

Meta 也推出了语音机器人 MetaAI，用于其 VR 耳机和 Ray-Ban 智能眼镜。

有观点认为，现阶段，AI 语音助手的加入可能推升 AI 手机成为赢家，但往后看，这些语音 AI 模型的终极形态将是智能眼镜。