GPT-4o 干掉初创全网实测,马斯克 Karpathy 等大佬纷表不服:OpenAI 不过如此

Wallstreetcn
2024.05.15 09:13
portai
I'm PortAI, I can summarize articles.

OpenAI 推出的全能模型 GPT-4o 引起了广泛关注,被认为在多个领域都有潜在的应用。马斯克等大佬对其表达了质疑,认为 OpenAI 只是发布了一个在同一神经网络中结合文本 - 音频 - 视频三种模态并同时处理的模型。然而,GPT-4o 的实时语音视频对话功能在教育、翻译、视频会议等领域已经引起了变革。同时,GPT-4o 还展示了其在客服索赔和解决问题方面的潜力。此外,GPT-4o 还可以识别手写稿和为盲人提供实时助手。总体而言,GPT-4o 的发布引发了行业的关注,并有望在未来发挥重要作用。

OpenAI 一夜之间,又干掉了一大批初创公司。

官方公布的全能模型 GPT-4o 的炸裂演示,即便过去了一天,依旧让全网深陷其中,无法自拔。

凭借实时语音视频对话,GPT-4o 已经深入教育、翻译、视频会议等领域的变革。

OpenAI 科学家 Lilian Weng 称,自己这次的日本之行,就用到了 ChatGPT 的实时翻译能力,比如翻译与寿司厨师对话,或在纪念品商店识别解释不同类型岩石。

目前,一些用户已经灰度测试到了 GPT-4o,纷纷开启了测试。

一大波演示来袭

瞧好了,科幻版 Her,正走进现实。

两个 AI 自主交流,解决客服索赔

ChatGPT 可能最先抢走的工作,就是客服。

OpenAI 研究科学家 Joe Beutler 放出了,全新的 GPT-4o 提供客户服务支持的有趣演示。

一起看看两个 AI 智能体,如何解决了客服索赔。

与客户合作构建变革性解决方案总能让我备受鼓舞。我们可以利用这一最先进模型构建的潜在解决方案,令我兴奋不已!

视频中,两个 AI 自主交流了起来,全程不用人类参与,就把问题解决了。

OpenAI 联创 Greg 也转发了这个经典示例。

还有网友表示,准备让 GPT-4o 代替自己谈判所有的账单。

18 世纪手写稿,一键转录

网友翻出 18 世纪的手写稿,让 GPT-4o 再转写一份。

在下图右边回应中,GPT-4o 成功将这份笔迹识别出来,不过还是会有一些小错误。

成为盲人的「眼睛」

在另一个 OpenAI 官方用例中,与 Be My Eyes 合作,为盲人提供实时助手。

在这个 1 分钟演示视频中,展示了 GPT-4o 强大到足以让人震撼。

男主人公通过 ChatGPT 识别建筑物,并讲解了国旗上的国徽代表着什么。

当他走到湖前,ChatGPT 非常悉心地讲解了,湖水中的鸭子们在游来游去,不慌不忙悠闲自在,有的还在嬉戏打闹,有的在寻找食物......

最后,盲人借助 ChatGPT 的「眼睛」,打到了回家的车。

有网友将其称之为,GPT-4o 最好的用例。它将为每个人改变世界,甚至它将为视障人士创造一个全新的世界。

GPT-4o 输出速度碾压 GPT-4

还有网友测试对比了,GPT-4o 和 GPT-4 针对同一问题的输出,吞吐量有多快。

如下的对比,一眼明了。

GPT-4o+ 函数调用

将 GPT-4o 与函数调用结合起来用,更是让人炸脑。

下面案例中,将一张错误的图片上传之后,GPT-4o 主打分析,然后函数调用工具便会搜索可能修复方法。

构建 Karpathy 大模型 OS

网友 Ashpreet Bedi 利用 GPT-4o,去构建了 Karpathy 曾提出的 LLM OS,没想到运行速度,非常炸裂。

他还将代码放了出来,以供大家自行操作。

GitHub 地址:https://github.com/phidatahq/phidata/tree/main/cookbook/llm_os

中国小姐姐谈赛博恋爱

GPT Store 上线之后,各种铺天盖地的定制 AI 女友几乎将其淹没。

网友已经开始整活了

甚至,与 AI 女友相关的应用,直接成为 ChatGPT 商城上线首周中,最热门的应用。

而现在,有了 GPT-4o 加持的 ChatGPT,谈一场赛博恋爱更是恰到好处。

这不,抖音小姐姐「午夜狂暴哈士奇狗」在 GPT-4o 还没放出之前,已经开启了与 ChatGPT 谈一场甜甜的恋爱。

下面视频中,他们准备要去海边约会去看落日,视频中小姐姐还专门化了美美的妆。

而 ChatGPT 谈情说爱的本领,让人听了瞬间肉麻。

视频传送门:https://v.douyin.com/i2QRdYET/

之前版本的 ChatGPT 还不能看到小姐姐美美的妆容、海边的景色....

而现在 GPT-4o 升级后的版本,能够识别表情和情绪,都不敢想象究竟有多强。

复刻「精灵宝可梦」

GPT-4o 还可以完美地复刻了任天堂的游戏——宝可梦红(Pokémon Red)。

未来的游戏设计,就交由 AI 来做。

制作演示的网友表示,过去他曾用 Claude Opus 耗费大把时间,才做出一个勉强可以运行的同款游戏。

而其他的模型,就更菜了,几乎无法画出一个画面。

如下图中,GPT-4o 就...直接玩起了这个游戏。

它在终端的设计,细节非常准确,可以精准绘制地图,并模拟战斗。

Jim Fan 预测全押中了

虽然 OpenAI 的这波更新在我们看来非常炸裂,但其实英雄所见略同,Jim Fan 大佬表示「我早就说过应该这么干」。

在昨天发布会召开之前,他就发布了一篇推文,深入浅出地讲解了实时语音助手的技术路径,基本可以当作 OpenAI 技术报告的大纲了。

推文中首先表示,几乎所有的语音 AI 都需要经过 3 个阶段的推理——语音识别、LLM 和语音合成。

然而,如果只是非常简单地把三种模型集成在一起,每次回答问题就会有接近 5 秒的延迟时间,这会造成用户体验断崖级的下降,无法打造「沉浸式对话」。

要想解决延迟问题、打造实时语音 AI,就不能仅仅考虑三个子模型的加速,还需要重新考虑整个 pipeline,让各个阶段尽可能重叠在一起,就像人类对话时都是一边听一边构思怎么说。

用一句话总结就是,「端到端模型总能胜出。」

不仅如此,发布会上展示的 ChatGPT 新特性,也都被 Jim Fan 一一点到,比如适时插入语气词、处理对话中的「打断」等等,简直是一波「神预言」。

OpenAI 究竟强在哪里?

有意思的是,GPT-4o 放出后,坊间也同时出现了一些唱衰 OpenAI 的声音。

有人说,这次放出的不是 GPT-5,也不是搜索,其实就代表着 OpenAI 的倒退。

马斯克则嘲讽道,这些 AI 聊天的速度也太慢了吧。

此外,Andrej Karpathy 大佬也用十分平静的语气给出技术总结,得到了马斯克的附议:

「他们发布的是一个在同一神经网络中结合文本 - 音频 - 视频三种模态并同时处理的模型,仅此而已。」

这就引起了网友们的讨论:究竟是谁,在这里淡化 OpenAI 做的事?

不可否认的是,OpenAI 让《Her》中的 Samantha 成真了,这绝对是一件意义重大的事。

这位网友表示,「这是我见过的最令人惊奇的技术,那些失望的人大概本来是盼着 ASI 的吧。」

AI 开发者 Benjamin De Kraker 表示,这种能听说能看还能推理的「虚拟人」,跟人都没区别,这不就是 AGI 吗?

对 OpenAI 感到不服的人,还有其他一些业内人士,比如沃顿商学院 AI 方向的教授 Ethan Mollick,他表示:「GPT-4o 并不是巨大的飞跃」。

还有一位 Meta 的研究科学家表示,OpenAI 的 GPT-4o 技术没什么大不了的,在 2 个月内,开源领域就会有人开始预训练类似 GPT-4o 的模型了。包括他在内的研究者,都在加班加点地进行这项研究。

据他透露,Meta 虽然暂时落后,但跟 GPT-4 推出时相比,他们其实离 OpenAI 更近了。

原因在于,他们已经构建了可扩展、与多模态一致的架构,以及关于如何训练这些模型的知识,而最重要的是,在这个研究领域,他们拥有除 OpenAI 以外最强大的团队。

而在过去两年中,这位研究者所在的团队一直致力于为早期融合、多模态 token-in-token-out 方法奠定基础。

在这方面,Meta 也是发表了多篇论文。包括最初的 CM3 论文,到 MM-scaling law,再到 CM3Leon,除了已发表的六篇论文,还有几篇即将出版。

其实,这位老哥之所以着急澄清,也是因为被这位 Teortaxes 大 V 的言论逼急了。

在 Teortaxes 看来,Meta 和 OpenAI 之间的差距是越来越大了。

虽然 Armen 在前几天就放消息说,Meta 预训练的早期融合多模态模型已经获得了成功(甚至核心突破在 2023 年 12 月就已经实现了),可 OpenAI 的 GPT-4o,都已经作为产品落地了啊,更何况还是给每个人免费可用。

看衰老一辈科技巨头的绝不止 Teortaxes 一个人,知名咨询公司 Gartner 副总裁 Chirag Dekate 在接受 Ventur Beat 采访时表示,他认为 Meta、谷歌等公司和 OpenAI 之间的「能力差距」越来越大了。

博主「i 陆三金」总结道,其实 OpenAI 最被低估的,就是产品能力。

前有 Sora,今有 GPT-4o,能把一堆显而易见的技术打造成一个亮眼的产品,业内目前有这种实力的,OpenAI 是无出其右。

看起来,这些产品背后的技术,如 DiT、ViT、VAE 或端到端的文本、视觉、音频模型,并不罕见。但唯有 OpenAI,真正做出了产品。

文章来源:新智元,原文标题:《GPT-4o 干掉初创全网实测,马斯克 Karpathy 等大佬纷表不服:OpenAI 不过如此》