硬刚谷歌，OpenAI 即将公布新功能，不是 GPT-5 也不是搜索

OpenAI 新产品或是一个具备视觉和听觉功能的全新多模态 AI 模型，且具有比目前的聊天机器人更好的逻辑推理能力。

OpenAI 将于 5 月 13 日周一举办发布全新的产品。但却对到底要发布什么闪烁其词。此前网友猜测的 GPT-5 或者 AI 搜索引擎都被否定。（OpenAI 直播时间周一太平洋时间 10:00，北京时间凌晨 1 点）

CEO 奥特曼发推表示：

不是 GPT-5，也不是搜索引擎，但我们一直在努力开发一些大家会喜欢的新东西！对我来说，它就像魔法一样。

这个神秘的新产品到底是什么？媒体援引两位知情人士说法称，新产品是一个具备视觉和听觉功能的 AI 模型，且具有比目前的聊天机器人更好的逻辑推理能力。

一个有视觉和听觉的全新多模态 AI

报道称，OpenAI 最快可能会在下周一公开展示新产品，以抢在下周谷歌的一系列产品发布之前。（北京时间周三凌晨 1 点：谷歌 I/O 2024 开发者大会）

奥特曼希望最终开发出一种类似电影《她》中的 AI 助手那样能够快速响应的人工智能，并以这种技术支持苹果 Siri 等现有语音助手。

华尔街见闻此前提到，苹果已经与 OpenAI 达成协议，将在 iOS 18 中使用后者的技术，强化 Siri 的功能。

OpenAI 已经有了可以转录音频和将文本转换成语音的软件，但这些功能是通过单独的 AI 聊天机器人实现的，而新产品则将这些功能整合在了一起，而且能够更好地理解图像和音频，响应速度也更快。

OpenAI 认为，具有视觉和听觉功能的助手有可能像智能手机一样带来变革。它可以观察用户所处的环境信息，提供建议，潜在的用例如充当家庭教师、翻译标志、修理汽车等等。

由于新模型较为复杂，参数量级高，个人设备的配置暂时无法满足其性能需要。

媒体分析指出，新模型运行依赖云端，需要互联网连接才能工作。要使具有视觉和听觉功能的复杂人工智能对话变得足够小巧，以便在手机等个人设备上运行，可能需要几个月甚至几年的时间。

目前也没有消息透露 OpenAI 何时会向付费用户提供这些功能。不过根据一些企业的预览来看，OpenAI 的新模型可以改进其服务中已有的功能，如自动客户服务代理。一位知情人士对媒体表示，新软件的音频功能可以帮助客服人员更好地理解来电者的语音语调。

此外，媒体还称，OpenAI 希望新模型最终能免费开放给所有用户使用，因此需要让其运行成本低于目前的最强大模型 GPT-4 Turbo。