AI 一周见闻:谷歌从模型到应用全面冲刺,OpenAI3D 建模只需 100 秒,Meta 开源新模型,AI 学会人类感知 | 见智研究
谷歌从模型到应用全面进击 AI,PaLM2 让 Bard 更强大,Workspace 叫板 Office;3D 建模大突破,OpenAI3D 模型 Shap-E,生成 3D 模型从 2 分钟优化到 100 秒;Meta 开源 ImageBind 新模型,AI 学会人类感知,图片是嫁接桥梁;GPT4 最强对手 Claude 史诗升级,解读百页资料仅需一分钟;此外还有三种黑科技。
每周见闻
本周要点汇总:
1、谷歌从模型到应用全面进击 AI,PaLM2 让 Bard 更强大,办公套装 Workspace 叫板 Office。
2、3D 建模大突破,OpenAI 推出文本生成 3D 模型—Shap-E,生成 3D 模型从 2 分钟优化到 100 秒。
3、Meta 开源 ImageBind 新模型,AI 学会人类感知,图片是嫁接桥梁。
4、GPT4 最强对手 Claude 史诗升级,解读百页资料仅需一分钟。
5、还有三种黑科技,AI 超写实数字人为何凸显商业价值、AI 更懂视频等内容。
企业新品发布
1、谷歌从模型到应用全面进击 AI
本周谷歌的 I/O 发布会备受瞩目,新品发布效果超出市场的预期。谷歌不仅仅发布了新模型 PaLM2,还将 AI 全面接入办公套装 Workspace,直接叫板 Office。
值得关注的是,新推出 PalM2 模型有四种大小,包括 Gecko、Otter、Bison 和 Unicorn。Gecko 作为最轻量的版本,可以部署到移动端,易于微调各类细分模型,提供每秒处理 20 个 token 的能力。
此前大模型在边缘侧终端的应用主要是依靠 API 接口调用的方式,大模型的训练和推理仍在云端进行,对边缘侧终端及芯片形态更新没有太大需求。
轻量化 Gecko 版本,能够提供 AIGC 更为定制化、时延更低,安全性、隐私性更好的应用,开拓 AI 模型在终端芯片推理的场景,边缘侧智能终端以及 SoC 有望全面升级,进入新的更新换代周期。
见智研究认为:谷歌的 PalM2 模型推出,能够更好的驱动机器人 Bard 升级,不仅能够使用 100 中语言回复用户,多模态版本的 Bard 还更新了图像、编程、应用集成等功能;而且还在医学上被认达到临床专家水平。
此外,PalM2 大模型的又一亮点就是全球首个支持移动端部署的大模型 AI,被看做是点燃移动边缘端的 Ai 大模型竞赛。意味着大模型竞赛的路线现在已经从 PC 端拓展到手机和 IOT 领域。
从谷歌的研发力和生态的角度来看:
在 AI 基础设施上:A3 虚拟机训练速度目前比其他设施快 80%,成本低 50%;Vertex AI 平台能够给开发者提供多种基础模型,用于微调从而尽快得到专属模型。
在应用生态上:谷歌搜索推出 Converse 的生成式 AI 功能,不仅能够写邮件、写文案、做表格、PPT 能力直接对标 Office,而且在决定购买性价比更好的产品时候特别有用。
之后最值得关注的是谷歌将推出基于 Bard 的拓展插件,扩大机器人的应用场景,比如让 Adobe 生成全新的图像,用 REDFIN 进行一个地区的所有房地产市场研究,购物、订酒店、找工作都不在话下。
2、3D 建模重大突破,OpenAI 推出文本生成 3D 模型—Shap-E
传统 3D 模型需要开发者进行手动建模,而 Shap-E 模型可以只用过自然语言的描述创建 3D 模型,极大的提高了创作的效率和质量。Shap-E 模型可在 GitHub 上免费获得,并支持在 PC 上本地运行。下载完所有文件和模型后,不需要联网。最重要的是,它不需要 OpenAI API 密钥,完全免费。
见智研究认为:Shap-E 应用于更常见的扩散模型,与此前发布的 Point-E 模型区别在于:Shap-E 直接创建物体的形状和纹理,并采用称为神经辐射场 (NeRF) 的特征来克服早期模型的模糊性,使三维场景看起来像逼真的环境。Point-E 是根据文本提示生成 3D 点云。
此外,每个 Shap-E 样本在单个 NVIDIA V13 GPU 上生成大约需要 100 秒,Point-E 将花费多达两分钟的时间在同一硬件上渲染。因此 Shap-E 比 Point-E 运行效率更快。
但该模型也仍有一定的缺陷,比如它在组合概念方面的能力有限,未来通过收集或生成更大的带注释的 3D 数据集可能有助于解决这些问题。生成的样本通常看起来粗糙或缺乏细节,编码器有时会丢失详细的纹理。
虽然文字生成 3D 模型暂且比不上图片的呈现效果,但仍旧是未来一个重要的方向。
3、Meta 开源 ImageBind 新模型,AI 学会人类感知
Meta 在开源大模型的路上一骑绝尘,继两个月前开源 LLaMA 大模型之后,再次于 5 月 9 日开源了一个新的 AI 模型—— ImageBind。这个模型与众不同之处便是可以将多个数据流连接在一起,包括文本、图像/视频和音频、视觉、IMU、热数据和深度(Depth)数据。这也是业界第一个能够整合六种类型数据的模型。
见智研究认为:ImageBind 无需针对每一种可能性进行训练,而是直接预测数据之间的联系的方式类似于人类感知。
ImageBind 通过图像的绑定属性,将每个模态的嵌入与图像嵌入对齐,即图像与各种模式共存,可以作为连接这些模式的桥梁,例如利用网络数据将文本与图像连接起来,或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。这对于多模态发展来说具有重大意义。
4、GPT4 最强对手 Claude 史诗升级,解读百页资料仅需一分钟
据 Anthropic 官方介绍,升级后的 Claude-100k 版本,对话和任务处理能力双双得到极大提升。一方面,是 “一次性可处理文本量” 的增加,另一方面则是 “记忆力” 的增加。
见智研究认为:此前大模型都存在对读取超长文本的困难,而 Claude-100k 打开此该领域的天花板,GPT-4 也不过才做到 3.2 万 token,而 Claude-100k 能做到一次记忆 10 万 token;能学习论文、几小时的博客、财报等等都不在话下,更重要的是它不仅能通读全文总结其中的要点,还能进一步完成具体任务,如写代码、整理表格等。本次更新对于机器文本学习来说是重大跃迁。
AI 黑科技
1、 AI 艺人、女友商业价值显现
本周 AI 女友 Caryn、“AI 孙燕姿” 都爆火出圈;无论是和网友谈恋爱收费每分钟 1 美元 ,还是永生艺人,都让数字人的商业价值备受瞩目。
见智研究认为:AI 虚拟人、数字人商业价值的提高,本质原因是AI 让建模数字人的成本大幅降低。此前,CG 建模数字人的制作周期通常需要 1-2 个月,报价在百万元左右不等,而现在 AI 建模技术的快速迭代,让 3D 写实数字人的价格降至千元级别。这也是为什么该应用能够快速进行推广的核心原因。
2、AI 看视频:检索关键字,精准卡位时间点
Twelve Labs 能够做到让 AI 读懂视频,并且通过关键字搜索的方式从视频中提取特征,例如动作、对象、屏幕上的文本、语音和人物。
见智研究认为:此功能必然是视频创作者的福音,能够让机器批量检索大量视频,并且精准定位所需要的视频画面,效率非常高。此功能是将视频中的信息逐一定义为向量,从而实现快速检索的功能。
3、 4D 渲染—实现高清动态还原
Synthesia Research 发布 HumanRF(运动中人类的高保真神经辐射场),通过视频输入来捕捉运动中人的全部外观细节,能够让合成的视频更加高清,从 4MP 的分别率升级到 12MP 运行。HumanRF 极大的解决了摄像机拍摄后进行高分辨率视频合成的困难。
见智研究认为:4D 高清合成的突破性,对于视频创作来说具有重大意义。当下看到可以应用场景包括电影制作、电脑游戏或视频会议等,边界还能够不断拓展到超写实数字人的视频生成领域。
下周关注重点
OpenAI 向所有 ChatGPT Plus 用户开放联网功能和众多插件!从 Alpha 到 Beta,它们将允许 ChatGPT 访问互联网并使用 70 多个第三方插件。这些插件包括创建新网站,文本转音频,购物比价下单,总结和分析 PDF 文档,创建专属自己的智能工作流等等,涵盖日常生活的衣食住行各个方面。