硬刚谷歌,OpenAI 即将公布新功能,不是 GPT-5 也不是搜索
OpenAI 新产品或是一个具备视觉和听觉功能的全新多模态 AI 模型,且具有比目前的聊天机器人更好的逻辑推理能力。
OpenAI 将于 5 月 13 日周一举办发布全新的产品。但却对到底要发布什么闪烁其词。此前网友猜测的 GPT-5 或者 AI 搜索引擎都被否定。(OpenAI 直播时间周一太平洋时间 10:00,北京时间凌晨 1 点)
CEO 奥特曼发推表示:
不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些大家会喜欢的新东西!对我来说,它就像魔法一样。
这个神秘的新产品到底是什么?媒体援引两位知情人士说法称,新产品是一个具备视觉和听觉功能的 AI 模型,且具有比目前的聊天机器人更好的逻辑推理能力。
一个有视觉和听觉的全新多模态 AI
报道称,OpenAI 最快可能会在下周一公开展示新产品,以抢在下周谷歌的一系列产品发布之前。(北京时间周三凌晨 1 点:谷歌 I/O 2024 开发者大会)
奥特曼希望最终开发出一种类似电影《她》中的 AI 助手那样能够快速响应的人工智能,并以这种技术支持苹果 Siri 等现有语音助手。
华尔街见闻此前提到,苹果已经与 OpenAI 达成协议,将在 iOS 18 中使用后者的技术,强化 Siri 的功能。
OpenAI 已经有了可以转录音频和将文本转换成语音的软件,但这些功能是通过单独的 AI 聊天机器人实现的,而新产品则将这些功能整合在了一起,而且能够更好地理解图像和音频,响应速度也更快。
OpenAI 认为,具有视觉和听觉功能的助手有可能像智能手机一样带来变革。它可以观察用户所处的环境信息,提供建议,潜在的用例如充当家庭教师、翻译标志、修理汽车等等。
新模型暂时无法在个人设备上运行 最终会免费开放给所有用户
由于新模型较为复杂,参数量级高,个人设备的配置暂时无法满足其性能需要。
媒体分析指出,新模型运行依赖云端,需要互联网连接才能工作。要使具有视觉和听觉功能的复杂人工智能对话变得足够小巧,以便在手机等个人设备上运行,可能需要几个月甚至几年的时间。
目前也没有消息透露 OpenAI 何时会向付费用户提供这些功能。不过根据一些企业的预览来看,OpenAI 的新模型可以改进其服务中已有的功能,如自动客户服务代理。一位知情人士对媒体表示,新软件的音频功能可以帮助客服人员更好地理解来电者的语音语调。
此外,媒体还称,OpenAI 希望新模型最终能免费开放给所有用户使用,因此需要让其运行成本低于目前的最强大模型 GPT-4 Turbo。