AI Sets off a New Wave? OpenAI Rushes to Release "Multimodal" Large Model before Google Gemini

据报道，OpenAI 正在积极赶在谷歌 Gemini 发布前推出多模态大型语言模型（MLLM），即代号为 Gobi 的下一代大型语言模型，以击败谷歌并保持领先地位。

本以为谷歌会在 “多模态” 大模型方面首次占据领先地位，该公司的集大成之作——Gemini 即将发布，预计将于今年秋天首次亮相，据报道正在与选定的企业客户进行测试。

然而，OpenAI 又要来截胡了。

据媒体最新报道，OpenAI 正在积极努力将多模式功能（类似于 Gemini 预计提供的功能）纳入 GPT-4，目标赶在 Gemini 发布前推出多模态大型语言模型（MLLM），即代号为 Gobi 的下一代大型语言模型，以击败谷歌并保持领先地位。

随着 ChatGPT 在各领域展现出非凡能力，多模态大型语言模型近来也成为了研究的热点，它利用强大的大型语言模型（LLM）作为 “大脑”，可以执行各种多模态任务。

MLLM 展现出了传统方法所不具备的能力，比如能够根据图像创作故事、视觉知识问答、无需 OCR（光学字符识别）的数学推理等，从自然语言理解到图像解释等，提供更广泛的信息处理能力。

报道称，OpenAI 早在 3 月份发布 GPT-4 时就预先展示了这些功能，但除了一家名为 “Be My Eyes” 的公司外，没有向其他公司开放。后者主要为有视力障碍或失明的人开发移动应用程序。六个月后，OpenAI 正准备在更大范围内推出被称为 GPT-Vision 的功能。

为什么 OpenAI 花了这么长时间才推出这项功能？报道称主要是担心新的视觉功能会被不良行为者利用，比如通过自动解决验证码来冒充人类，或者通过面部识别来跟踪人们。但 OpenAI 的工程师们似乎接近于解决围绕这项新技术的法律担忧。

谷歌也面临这个问题，当该公司被问及正在采取哪些措施来防止 Gemini 滥用时，谷歌发言人指出，该公司在 7 月份做出了一系列承诺，以确保其所有产品能够负责任地开发。

然而，考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据（包括来自搜索和 YouTube 等平台的数据），该行业向多模态模型的发展可能会有利于发挥谷歌的优势。一位使用过早期版本的人说，与现有的模型相比，Gemini 似乎已经产生了更少的错误答案。

OpenAI 首席执行官 Sam Altman 在最近的各种采访中暗示，GPT-5 还没有出现，但他们计划对 GPT-4 进行各种增强，新的增强模型可能是其中之一。

报道称，OpenAI 似乎还没有开始训练 Gobi，所以现在就说它最终会成为 GPT-5 还为时过早。

在上周接受《连线》杂志采访时，谷歌 CEO 皮查伊表达了他对谷歌目前在 AI 领域地位的信心，并认可技术进步的持久性，以及他们在平衡创新与责任方面深思熟虑的战略。

无论如何，这场竞赛就相当于人工智能版的 iPhone 与 Android。人们正屏息以待 Gemini 的到来，它将揭示谷歌和 OpenAI 之间的差距到底有多大。