Wallstreetcn
2023.12.14 00:57
portai
I'm PortAI, I can summarize articles.

全网首发!谷歌 Gemini 多模态接口开放!DataLearnerAI 第一时间测试 Gemini Pro 多模态能力,比想象惊喜!

Google Gemini 是 Google 最新发布的大模型系列,包含三个不同参数规模的 4 个模型。Gemini 的多模态能力很强,测试发现视频无法处理,图片中手写的文本内容英文效果不错,但是中文识别不够。Gemini Pro 可以根据输入的视频、图片以及图文混合指令生成文本内容。DataLearnerAI 第一时间测试 Gemini Pro 多模态能力,发现 Gemini 的多模态能力比 GPT-4V 好用很多,也很准。

Google Gemini 是 Google 最新发布的大模型系列。这是一系列的多模态的大模型,谷歌官方宣布在各项评分中 Gemini 超过了 GPT-4V。但是,谷歌的宣传视频被很多人质疑造假嫌疑,导致被全网嘲讽。而今天,Google 官方的 Gemini 多模态接口开放,DataLearnerAI 第一时间申请测试,结果让人惊喜,结论就是Gemini 的多模态能力很强(本来想测试对比 GPT-4V,但是最近 GPT-4V 解析图片失败率很高,放弃)。

Google 的 Gemini 简介

Gemini 模型是一个系列模型,包含三个不同参数规模的 4 个模型。

根据官方的提示,这四个模型均为多模态大模型。在今天,Google 的 Pro 版本的多模态接口已经开放,Gemini Pro 可以根据输入的视频、图片以及图文混合指令生成文本内容

DataLearnerAI 本次测试的能力包括手写文本识别图片文本信息 json 化抽取基于图文 few-shot 的图片理解、视频描述几个内容。

手写文本识别

在这个测试中,我们分别用 Gemini 识别提取图片中手写的文本内容,结果发现英文效果不错,但是中文识别不够(其实难度也很高)。

这是在手机上手写的一个中文结果,最终 Gemini 返回的如下:

可以,看到漏掉了几个字。但是如果换成英文,则效果不错:

图片信息 json 格式化提取

在这个测试中,我们从 HKT 官网截取了一段运营商套餐费用信息,然后使用Gemini 提取图片信息,并用 json 返回,信息提取非常准确,而且可以识别是三个不同的套餐,进而生成了一个数组,包含了三组 json:

可以看到,尽管这个图片信息密集,但是 Gemini 可以准确识别其中的逻辑结构,并分组输出。

基于图文 few-shot 的图片理解

这个测试非常有意思,是一个多模态 few-shot案例。就是你先给出 2 个图文关系,每一个都是一幅图 + 一个 json 输出。相当于有 2 个示例,然后给 Gemini 一个新的图片,Gemini 可以自动理解前面的图文关系,生成新的 json 文本。在这个测试中,DataLearnerAI 先给出了 2 组图片,分别是睡觉的猫咪和奔跑的狗狗,图是 Google 截图,类似如下的输入:

  1. [cat.jpg]

  2. {"object":"cat","status":"sleeping"}

  3. [dog.jpg]

  4. {"object":"dog","status":"running"}

  5. [tiger.jpg]

最终谷歌的 Gemini 准确输出了一个在吃东西的老虎。

识别图片中人物(男孩女孩)的数量

这个测试中,我们先用 ChatGPT 生成了一组在 “快乐” 加班的人,然后让 Gemini 数这图中有多少人。

emmm,图片的人很快乐,但是多少人虽然看不太清楚,如果远处的人也算的化,应该是不止 35 个的。而 ChatGPT 认为只有 20 个人!

接下来,我们继续做了一个测试,输入一个图片,让 Gemini 用 json 返回图片中男孩和女孩的数量:

这个结果没有问题!

基于视频生成旅游描述

这一段测试主要是上传了几十秒的南京城市宣传片,让 Gemini 基于这个宣传片生成一份旅游广告的描述。根据官网的描述,Gemini 可以理解视频描述的是什么,里面的人有什么动作或者在做什么,甚至基于视频生成广告描述。但是,我们测试了很多次,该接口都测试失败,遂放弃。

但是,不管怎么说,从图片的测试结果看,Gemini Pro 的多模态能力或者说图片的理解能力是非常强的。官网的示例中还有给出 2 个图片,一个图片是某种坚果,第二种图片是各种不同坚果在市场的价格,然后问第一个图片的东西价格多少。这些多模态能力是非常强大的,对于未来很多事情都打开了想象空间。

Gemini 多模态能力总结

尽管测试不太完美,视频无法处理,但是总体来说还是要比想象好很多,这个能力比目前 GPT-4V 官方的 web 版本好用很多,也很准确。而且从实测结果看,可用性很高。值得推荐~

本文作者:DataLearner,来源:,原文标题:《全网首发!谷歌 Gemini 多模态接口开放!DataLearnerAI 第一时间测试 Gemini Pro 多模态能力,比想象惊喜!》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。