对话式 AI 的天花板来了,Hume AI 再拿 5000 万美金融资

Wallstreetcn
2024.03.29 08:21
portai
I'm PortAI, I can summarize articles.

Hume AI 最近推出了共情 AI 语音接口 EVI,可以将情感智能人工智能语音集成到健康和保健、AR/VR、客户服务呼叫中心、医疗保健等领域的应用程序中。Hume AI 利用声调了解用户何时说完话,预测他们的偏好,并随着时间的推移优化满意度。这个创新有望加速 AI 取代客服行业的进程。

之前我介绍过好几个对话式 AI 产品,或者也可以将它们称为 AI Phone,比方说 Bland AI、Retell 以及 Arini 等,它们被广泛应用于客服、销售以及医疗健康行业,主要处理客服或前台这些工作。

因为这些产品的大量出现,以及一些大企业已经开始用 AI 来取代其客服人员,比方说 Klarna 已经用 AI 取代了 700 名客服人员,于是我在之前的文章《AI 取代人类的工作,正在从客服行业开始》里说,客服可能会是第一个被 AI 大量取代的行业。

这点和 Sequoia 在 AI Ascent 2024 大会上的观点基本上一致(在 vcsmemo.com 阅读),而 Hume 这个产品的最新成果,肯定会加速这一进程,这是我目前看到所有对话式 AI 产品里一个天花板的存在。

Hume AI 刚刚推出了世界上第一款共情 AI 语音接口 EVI(Empathic Voice Interface),它可以让开发人员能够通过几行代码将情感智能人工智能语音集成到健康和保健、AR/VR、客户服务呼叫中心、医疗保健等领域的应用程序中。

它根据数百万次人类互动的数据进行训练,利用声调了解用户何时说完话,预测他们的偏好,并随着时间的推移优化满意度,由 Hume 开发的一种新型多模态生成式人工智能(称为移情大语言模型 (eLLM))提供支持。

这个模型将大型语言模型 (LLM) 与表情测量相结合,Hume 将其称为移情大型语言模型 (eLLM),使 EVI 能够根据上下文和用户的情绪表达来调整其用词和语气。在用户中断 AI 时它会停止说话,并以低于 700 毫秒的延迟实时生成快速响应,从而实现流畅的、接近人类水平的对话。

我简单做了一下体验后(上面是对话时的一个截图),真的是有那种 Wow 的感觉。与这个 AI 的对话,它给我的感觉比真人还舒服,我甚至可以直接教它说中文,而它教我英文,它就像真人一样会跟着我学着说中文,体验真的是很不错(我一般的文章很少用形容词来说一个产品),这放到客服行业,绝大部分客服被干掉我想只是时间问题。当然还有很多其它行业可以使用它,只要涉及到与人对话。

发布这个产品的同时,Hume AI 刚刚宣布完成 了 5000 万美金的 B 轮融资,由 EQT Ventures 领投,Union Square Ventures、Nat Friedman & Daniel Gross、Metaplanet、Northwell Holdings、Comcast Ventures 和 LG Technology Ventures 跟投。

Hume AI 由 Alan Cowen 博士创立,他之前是 Google 研究员和科学家,因开创语义空间理论而闻名。语义空间理论是一种理解情感体验和表达的计算方法,揭示了声音、面部和手势的细微差别,这些细微差别现在被理解为成为全球人类交流的核心。

Alan Cowen 认为,AI 需要情感并且其界面的未来将是基于语音的

当前人工智能系统的主要局限性在于,它们受到肤浅的人类评级和指令的指导,这些评级和指令容易出错,无法利用人工智能的巨大潜力来提出让人们快乐的新方法。通过构建直接从人类幸福的代理中学习的人工智能,我们有效地教它从第一性原理重建人类的偏好,然后用它与它交谈的每一个新人和它嵌入的每个新应用程序来更新这些知识。

AI 界面的未来将是基于语音的,因为语音比打字快四倍,携带的信息量也是打字的两倍,但为了充分利用这一点,你真的需要一个更多地捕捉不仅仅是语言的对话界面。

一位叫 Dacher Keltner 的情感科学家说,Alan Cowen 的研究改变了我们对声音、面部、身体和手势中情感表达的丰富语言的理解,他的作品开辟了整个研究领域,以理解声音的情感丰富性和面部表情的微妙之处。

目前 Hume 的团队有 35 个人,团队在顶级期刊上已经发表了 8 篇论文。在去年 2 月份完成 1270 万美金的 A 轮融资时,Hume 就已经向 2000 多家公司和研究机构推出其技术的测试版,而早期重点关注在医疗保健行业的应用。

当时 USV 的合伙人 Andy Weissman 说,随着人工智能技术开始塑造我们生活的方方面面,我们将确保它培养我们的情绪健康,并将其作为一项基本的首要目标。

与面部表情相比,声音更丰富,它带有非语言暗示。Hume 对语音韵律中的一些微妙品质进行了解码:语调、音色和节奏。它通过理解某事是如何说的,而不仅仅是说了什么,从而超越了语言。他们还研究 “人声爆发”,包括叹息、喘息、咕噜声、大笑、尖叫、哎呀和啊等。

Sequoia 合伙人 Pack Grady 在 AI Ascent 2024 大会上说,AI 最大的机会之一,是用软件取代服务,因为 AI 具备了类人的交互能力。这个交互能力体现在创造力和推理能力,有了创造力和推理能力,就相当于 AI 拥有了大脑的左右两半球。如果 AI 还具有了情感表达,未来将会如何演变?

本文来源:投资实习所,原文标题:《对话式 AI 的天花板来了,Hume AI 再拿 5000 万美金融资》