1000+AI 智能体复活,OpenAI 版元宇宙上线? ChatGPT+VR 百分百还原「西部世界」
ChatGPT 加持的「上古卷轴 5」中,1000+AI 智能体被注入灵魂,能够行动自如,还会陪人聊天。
游戏版的「西部世界」已然成为现实。
YouTube 博主 Art from the Machine 正式发布 Mantella,能够让「上古卷轴 5」中的 NPC 们复活的全新 AI Mod。
项目一经发布,在 Reddit 上掀起轩然大波。
通过 ChatGPT、以及文本转语音工具 xVASynth、语音识别模型 Whisper 直接让游戏中 AI 智能体拥有意识,进行自然对话。
值得一提的是,Mantella Mod 支持 1000 多个 NPC,以及 20+ 种语言。
网友纷纷表示,绝对要改变游戏规则。
很多玩家在游戏里打怪升级什么的早就玩腻了。
可以想象,在 VR 模式下安装了这个 Mod 后,肯定有玩家就在「上古卷轴」里面找 NPC 聊天,一聊就是一整天。
升级是不可能升级的,这辈子都不会升级了,打怪什么的又难打。只有找 NPC 聊天才能打发游戏里的时间。
游戏里的老哥们各个都有自己的故事,说话又好听,超喜欢和 NPC 们在游戏里聊天的了。
有网友甚至觉得,这个 Mod 不仅仅是游戏,而是开启了一个人类和计算机交互新时代。
1000+NPC 注入「灵魂」
过去的几个月里,Mantella 一直在进行公开测试,作者在 19 日终于发布了这个 Mod。
简单来说,这个 Mod 就是把「上古卷轴 5:天际」里边所有的 NPC 都接入了 ChatGPT GPT,让 AI 帮助原本只会来回移动的 NPC 真的活过来了。
这 1000 多个 NPC 全部都直接能语音互动,而且每个人都有自己独特的背景。
NPC 能够记住你和他之前对话的内容,也知道他们自己所处的位置,游戏里的时间,以及玩家在游戏中他看到的操作,比如拾取了什么物品。
NPC 的对话内容由 ChatGPT 生成,而在游戏内的语音实现则由一款名为 xVASynth 的 AI 工具实现。
一起看看,NPC 们如何与人对话交流。
玩家:这些奶酪多少钱?
NPC:这些奶酪是我们这里的精品,需要 10 金币。你还有其他需要的吗?
玩家:麦当劳。
NPC:对不起,「上古卷轴」里没有麦当劳。
玩家:我抢走了的你的妻子。
NPC:我不信,我没有结婚,更别说有妻子了,你可能搞错了...
更有趣的是,NPC 还会幽默回复你的对话。
NPC:如果你是在暗示,你假设是我的妻子或你没有妻子,我很抱歉听到这个消息。
其实,用 AI 让游戏角色更加鲜活,英伟达也在攻关。
还记得,老黄在今年的 COMPUTEX 大会上,推出了全新的定制 AI 模型代工服务 ——Avatar Cloud Engine (ACE) for Game。
在一个充满「赛博朋克」风格的拉面店场景中,玩家按下一个按钮,可以用自己的声音说话,然后店主 Jin 会进行回答。
Jin 是一个 NPC 角色,但他的回答是由生成式 AI 根据玩家的语音输入实时生成的。
Jin 还有着逼真的面部动画和声音,全部与玩家的语气和背景故事相符。
这个逼真人物角色的生成,使用了一个实时人工智能模型渲染工具 Nvidia ACE。
老黄表示,这个游戏中的角色并没有预先设定。他们有一个典型的任务提供者 NPC 类型。
背后技术介绍
Mod 制作者通过 ChatGPT—xVASynth—Whisper,构成了一个「群活」NPC 的技术框架。
Whisper 能够识别玩家通过麦克风输入的语音内容,并且转化成文字,经由 API 调用 ChatGPT 对玩家说的话进行文字回复。
然后再通过 xVASynth 将 ChatGPT 生成的文字回复生成符合游戏角色特点的游戏内语音,和玩家直接进行语音交流。
而且整个流程的实现几乎没有成本,为一需要服一点点 ChatGPT 调用 API 的费用。大概玩一天需要几美分。
xVASynth
https://www.nexusmods.com/skyrimspecialedition/mods/44184
他可以根据游戏中某一个声音,来生成符合这个声音的游戏 NPC 配音台词。
xVASynth 使用神经语音合成(Neural Speech Synthesis)来专门生成游戏中的 NPC 的语音对话。它是基于一个根据游戏中的角色语音数据单独训练的模型。
支持从文本到语音的转换(TTS)或者音频直接输入进行语音转换(V/C)。
通过这个工具,用户只要提供一小段特定的声音素材作为模板,就能使用文字来直接生成和模板风格一致的语音内容。
Mentella 就是采用了 ChatGPT 生成 NPC 对话内容 +xVASynth 转化为游戏内语音的框架完成的。
xVASynth 针对文字的语音转换,能让用户可以控制语音的很多细节,例如单个字母的音高和持续时间、能量、情感和风格,来突出角色所要表达的情绪和重点。
神经语音合成技术的使用可以让它产生自然的声音,现有数据串联的传统方法很难做到这一点。这也意味着可以在配音演员已经读出的内容之外生成全新的语音内容。
这样生成的语音就不会是一段「机里机气」的 AI 转述音频了,能让 NPC 的真实感和游戏玩家的沉浸感大大加强。
更吊的是它可以支持 28 种语言,并且可以使用同一文本提示在多种语言之间切换输出。大大方便了游戏制作者进行多语言版本的制作。
为了方便用户处理游戏中成千上万个不同的游戏语音,它还内建了一个 3D 语音嵌入可视化工具。
这个 3D 可视化 UI 也是由 AI 生成的,用户可以按游戏的 NPC 的属性对语音进行上色,比如性别,职业等等,让用户摆脱了传统通过时间轴来控制语音的方式。
现在 xVASynth 也已经上架 Steam,可以让游戏开发者和玩家免费使用大部分功能。
Whisper
而为了完成语音交互,NPC 除了自己发音,还必须要能识别玩家和他们的语音交流。
Mod 开发者使用的是由 OpenAI 发布的语音转文字 AI 工具:Whisper。
OpenAI 通过网络收集了超过 68 万小时的多语言和多任务监督数据训练出了 Whisper。
使用如此庞大且多样化的数据集使得 Whisper 对口音、背景噪音和专有名词有非常强的适应能力。此外,还可以进行多种语言的转录和翻译。
Whisper 采用的是一种简单的端到端的构架,通过 Transformer 编码器-Transformer 解码器的形式实现语音的识别。
输入音频被分成 30 秒的块,转换为梅尔频谱图,然后传递到编码器。
解码器经过训练来预测相应的文本内容,并与特殊标记混合在一起,指示单个模型来执行语言识别、多语言语音转录和英语语音翻译等任务。
网友热议
试过之后网友表示非常好,语音恰到好处,一点不违和,沉浸感爆棚。
也许是《上古卷轴》历史上最厉害的 Mod!
这个网友跟了这个 Mod 很长时间,认为这个 Mod 直接让《上古卷轴:天际》变了一个游戏,未来也许所有游戏的交互方式都会发生改变。
等不及要马上爽一把了!
参考资料:
https://www.reddit.com/r/singularity/comments/15vgk38/mantella_mod_bring_skyrim_npcs_to_life_using_ai/
https://www.nexusmods.com/skyrimspecialedition/mods/98631