From Transformer to Brain-Computer Interface, Apple's press conference reveals much more than just MR.

华尔街见闻
2023.06.06 07:04
portai
I'm PortAI, I can summarize articles.

苹果或许才是将脑机和 AI 应用结合最好的公司?

被吐槽价格太贵,实用性差,带着外接电池…但见智研究看来,苹果昨晚的发布会,超越预期。

苹果一直以来引以为傲的并不是炫技,而是把所有黑科技运用于应用,为用户创造最好的交互体验,这一次在苹果的 MR 设备 Vision Pro 上,苹果再次做到了。

无需手柄的空中直接操控,设备间的无缝投屏切换,流畅的 UI 操控实时反馈,3D 摄像机等等,这一切看似简单的交互组合在一起就不再是简单,而是真正的软硬结合的实力。

没有炫技,却看到了苹果把黑科技应用落地

苹果 WWDC23 大会,没有主打炫技术,但处处都是黑科技。脑机接口、Transformer AI 模型等应用在了产品的交互体验中。

其中给见智研究印象最深的要数两只手在空中操控而 Vision Pro 得到的及时反馈。有过无线设备使用经验的朋友一定会对延迟这件事深恶痛绝,但是从苹果的宣传中可以看到,这些操作几乎是完全实时进行。

市场都在认为,这是苹果在 Vision Pro 前安装的多颗摄像头的功劳。

见智研究从今早苹果的一位神经功能开发者的推特中获得了答案,远不止摄像头这么简单!

根据苹果神经技术设计师 Sterling Crispin 所述:

这种全新的脑机接口方式已经成为专利技术,对瞳孔变化进行监测,能够被用来预测之后的行为,并且该技术已经被验证是有效的,通过这种监测瞳孔的方式来实时进行 UI 创建,这是一种非常酷的体验。

用户在混合现实或虚拟现实体验中,AI 模型试图预测用户是否感到好奇、思维游离、害怕、注意、回忆过去的经历,或其他一些认知状态。

这些可以通过眼球追踪、大脑中的脑电活动、心脏跳动和节律、肌肉活动、血液密度、血压、皮肤传导等测量来推断,使预判行为成为可能

与此同时,Sterling Crispin 还提到 Vision Pro 采用了机器学习监测身体和大脑的信号,来预测人类的情绪,从而创建更适合的虚拟环境来增强用户体验。

由此可见,Vision Pro 的这种脑机预测行为方式,突破了以往交互延迟慢的问题,配合摄像头,让 UI 延迟大幅降低,体验的流畅度达到了全新的高度。

此前 XR 设备的发展路径一直是拼硬件升级,但最大的问题还是在于交互体验感、沉浸感难以提高。而苹果Vision Pro 就很好的解决了这个问题,这正是在此前苹果硬件规格已经传遍市场后仍超预期的地方。

苹果:人与人不应是赛博朋克下的符号

从另外一些细节让苹果的理念更加凸显——不想让人与人之间变成赛博朋克下的符号。

苹果创造性的在 Vision Pro 的正面渲染显示了人的眼睛(一向热衷黑科技的付鹏老师也在第一时间换了头像),苹果强调了在人与人交流时,眼神的互动。

这并不是苹果第一次强调人与人对话时,眼神交流的重要性。苹果早在多个版本前的 FaceTime 中,就对视频时眼球位置进行了 AI 调整,将我们看着屏幕时歪掉的注意力方向调整为注视对方的方向。

而在 Vision Pro 中,苹果进一步增强了人与人眼神交互,当眼睛和正面走来的人进行交流的时候,透过 MR 设备还能够直接进行交流,而不需要摘下设备,当瞳孔行为发生变化时,又可再次进入沉浸式虚拟空间。

在使用 Vision Pro 的 FaceTime 功能时,对方会看到一个利用深度学习,渲染出来的实时的你,通过空间操作系统 VisionOS 把数字内容融入真实世界。

苹果自己的 AI 也来了

市场认为,苹果此次发布会没有任何关于 AI 模型的内容,但这个也是有误的。

见智研究发现,在最新升级的 iOS17 系统介绍中,苹果宣布使用 Transformer 语言模型用于输入和语音识别文字。

通过 Transformer 模型,苹果能够随着用户每次打字不断改进体验与准确度,进行自动语言语法纠正,方便于用户在打字时获得实时预测文字推荐,只要轻点空格键就能添加整个单词或完成句子,让文字输入比以往更加快捷。听写功能利用全新语言识别模型,准确度进一步提升。

Transformer 正是 OpenAI 等一系列大模型的基础。而根据苹果一向的隐私政策,毫无意外,这项技术也是纯本地化运行。

苹果将语言预测模型引入输入法和语音传输中,是有一次将前沿技术和应用结合的最好案例。Transformer 是人机对话助手最强的底层技术支持,而苹果是第一个将该技术内嵌在移动端产品系统中的公司,之后 iOS 17 在语音语言输入体验上会带来全新的感受。

同时我们可以期待的是,苹果明年很可能会给用户带来本地化 LLM 大模型,本地化的判断一方面是因为苹果对用户隐私的关心程度实在太高,另一方面苹果在处理硬件上已经积累了相当的技术,软硬一体化的大模型应用会更加有效。

如同 Mac 带入个人计算时代,iPhone 带入移动计算,Vision pro 将带入空间计算时代。

见智研究认为:Vision pro 的出现将真正开启新的计算时代,而生成式 AI 对苹果 MR 设备或许也是相互成就,因为此前 MR 的实时渲染对算力的消耗要远大于生成式 AI。此前我们在AI+XR 将成为下一代移动端战场一文进行过分析,认为生成式 AI 的快速发展与 MR 的结合将会带来移动端产品的全面升级,特别是在应用内容创新方面会突破此前的开发方式,极大改善现阶段 XR 爆款内容匮乏的问题。

生成式 AI 和苹果 MR 就是时势和英雄。

综上

7 年来,苹果在用搬山的能力处理 Vision Pro 的每一个细节,这个软硬结合的能力并不是谁随便都能模仿的来的;每一个细小的问题都能看出来苹果是花了非常大的功夫在解决。

这也是发布会前,即便是苹果 MR 的硬件 BOM 清单到处流传,但 Vision Pro 亮相之后还是让见智研究认为超预期的原因。