AI Weekly News: Microsoft launches AI transformation with Windows 11; NVIDIA reduces office software costs by 23%; Video training becomes a crucial learning path for robots

1.Copilot” 落户” Windows11，操作系统的 AI 变革时刻已来； 2.金山办公引入英伟达推理服务器和 GPU，图像任务能降本 23%； 3.Midjourney 5.2 又更新，这次 AI 生图开始卷向表情包； 4.十秒剪视频，Whisper 模型让每个人都能成为 “剪辑师”； 5.机器人看 YouTube 学会做家务，大规模视频训练机器人成为重要路径； 6.Unity 推出 AI Hub 平台，股价飙涨 15%，AI 革命游戏的进程在加速；

见智视角

本周 AI 的重要风向在 win 操作系统、办公软件应用和大模型私有化部署所展现出巨大的市场潜力。微软的操作系统变革将为用户带来更智能、高效的体验，办公软件应用的 AI 技术将提高图像处理能力，而大模型私有化部署的发展将使 AI 在 to B 应用上更加安全可控，这些趋势将对相关行业和公司的发展产生重要影响，为 AI 的广泛应用提供更多机遇。

本周要点

AI 应用：

Copilot"落户"Windows11，操作系统的 AI 变革时刻已来

金山办公引入英伟达推理服务器和 GPU，图像任务能降本 23%

Midjourney 5.2 又更新，这次 AI 生图开始卷向表情包

十秒剪视频，Whisper 模型让每个人都能成为 “剪辑师”

机器人看 YouTube 学会做家务，大规模视频训练机器人成为重要路径

Unity 推出 AI Hub 平台，股价飙涨 15%，AI 革命游戏的进程在加速

大模型：

谷歌 DeepMind 花数千万美元打造 ChatGPT 的竞品，多模态视频训练将成为特色

PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大

恒生电子发布金融行业大模型 LightGPT，金融大模型场景多样化，需求确定性强

智谱 AI 为大模型应用更近一步！成为法律专用大模型底座

融资风向：AI 安全成为资本的下一个风口，CalypsoAI 融资 2300 万美元

AI 应用

1、Copilot"落户"Windows11，操作系统的 AI 变革时刻已来

微软官宣向开发者频道中的 Windows Insiders 提供 Windows Copilot 的早期预览。

第一个预览版重点关注集成 UI 体验，Windows Copilot 将显示为停靠在右侧的侧栏，不会与桌面内容重叠，并且将在打开的应用程序窗口旁边无障碍运行，可以随时与 Windows Copilot 进行交互。

在 window11 Copilot 的预览版本中，用户可以提出以下种类问题：

内容涉及：个性化系统设置、截图、文生文和文生图的功能；

此外，Win11 更新还包括本机支持读取其他存档文件格式；如常见.rar\ .7z 等压缩文件；

见智点评：

微软兑现了在 5 月份的 Build 大会上的承诺，本次 Copilot 的预览版本落地 win11，成为操作系统迈入 AI 时代的重要一步，之后 win11 会成为第一代 AI 系统的大规模商用版本；此外，微软也表示在 25 年会停止 win10 的服务，包括专业版和家庭版，意味着那时起操作系统将会全面进入 AI 时代。这将为用户提供更智能、高效的操作体验，并为微软带来新的商业机会。

2、金山办公引入英伟达推理服务器和 GPU，图像任务能降本 23%

金山办公官宣与 NVIDIA 团队合作，为解决图像识别和理解任务耗时过长和成本的问题，

引入 NVIDIA T4 Tensor Core GPU 进行推理、NVIDIA TensorRT 8.2.4 进行模型加速、NVIDIA Triton 推理服务器 22.04 在 K8S 上进行模型部署与编排。

通过 GPU 推理和 TensorRT 加速，成功将耗时从 15 秒降低到了 2.4 秒左右；部署成本节省了 23% 。

见智点评：

英伟达推理服务器的部署，成功优化了 GPU 的利用率，提高了办公软件对图像文档识别和推理的效率，能够实现办公软件业务降本增效的预期。这一合作为 WPS AI 的落地应用提供了更高效的解决方案，这部分 AI 新能力集中在阅读理解、问答、人机交互等方面。

WPS AI 已经开始内测阶段，启动大规模商用后，对国内办公软件使用体验将带来全面升级。这一合作将提升金山办公的图像处理能力，并为其在办公软件市场中的竞争力带来优势。

3、Midjourney 5.2 又更新，这次 AI 生图开始卷向表情包

Midjourney 5.2 更新「weird」新功能，可自定义诡异等级。根据官网显示通过调节 weird 参数的大小即能够控制生成照片的诡异风格，参数越大照片越奇怪；但是该功能还只限于付费用户使用；

此外，还更新了「turbo」模式：该功能是能够以四倍速加速图片生成；不过相较于传统快速作业模式仍旧是需要消耗 2 倍的 GPU；

见智点评：

图片生成在 AI 的影响下正在从传统模式进入一种新范式，weird 模式增加了图片超越常规认知的可能性创作，这种模式具备更多娱乐属性，如果免费开放应用，那么大概率会在社交圈引爆。这一更新将进一步推动表情包制作的自动化和智能化，为用户提供更多创意和娱乐选择。

4、十秒剪视频，Whisper 模型让每个人都能成为 “剪辑师”

荷兰开发者 Matthijs Hollemans 在 HuggingFace 上基于 Whisper 开发了视频剪辑新功能，现在剪视频能够精准到每个字。

在平台上可以对上传的视频内容进行同步文字转化，只需要选择留下的文字，然后就可以直接生成所需的片段。使用过程非常简单，可累比相机界的 “傻瓜相机”。

见智点评：

AI 应用层出不穷，此前主要是 AI 生成图片内卷非常严重，几乎是每周都有重要更新，现在这个迭代速度已经开始向视频领域蔓延，这个小白剪视频的功能让剪视频门槛大大降低，同时节省了很多制作时间，效率优化超过 90%，对于视频创作行业来说具有重大影响。这将进一步推动用户在社交媒体上的创作和分享活动，对于 Whisper 模型的开发商来说，商业机会也将随之增加。

5、机器人看 YouTube 学会做家务，大规模视频训练机器人成为重要路径

CMU 机器人研究所助理教授 Deepak Pathak 展示了一种视觉机器人桥方法（VRB）；通过让机器观看人类行为方式的视频完成行为模拟，并验证了该方法的有效性。机器人观看了几个人类开抽屉的视频后，可以效仿人类行为做出打开抽屉的动作。

见智点评：

这种方法的关键在于利用大规模的视频数据来训练机器人，并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性，可以通过观察互联网和 YouTube 等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力，并为机器人在日常生活中的应用提供更多的机会。

视频训练将成为机器人学习的重要路径，进一步推动机器人技术在家庭和服务领域的应用和发展。

6、Unity 推出 AI Hub 平台，股价飙涨 15%，AI 革命游戏的进程在加速

全球领先的 3D 内容平台 Unity 宣布推出 AI Hub 平台，允许 AI 软件开发者通过 AI Hub 向游戏研发商直接供应开发软件，并通过 Unity 的 Asset Store 收费；

同时推出了 10 个经验证的解决方案，还在 Unity Asset Store 中推出两款新的 AI 产品 “Unity Sentis“及 “Unity Muse” 并正式启动内测，预计将赋能 AI 驱动的游戏开发效率提升以及玩法升级。

见智点评：

AI 将以非常迅速的节奏改变游戏制作方式以及降低成本，这已经成为游戏行业不可逆转的路径。游戏行业的格局或许也会因为生成式 AI 带来巨变，AI 革命游戏行业的进程在加速。

新 AI 平台的推出印证了目前开发人员对于 AI 工具的巨大需求存在，而 Unity 似乎已经找到了新的盈利模式，AI Hub 平台很快将成为开发者和游戏公司最受欢迎的资源聚合平台，看起来 Unity 将会在这场全新变革中赚的盆满钵满

大模型

1、谷歌 DeepMind 花数千万美元打造 ChatGPT 的竞品，多模态视频训练将成为特色

谷歌 DeepMind CEO Hassabis 近日对外媒 Wired 表示，Gemini 还在开发中，还需要几个月，而谷歌 DeepMind 已经准备砸进数千万美元，甚至数亿。

The Information 最近的一篇报道表述：谷歌的研究人员一直在使用 YouTube 来开发 Gemini。

人工智能从业者表示：这可能是谷歌 DeepMind 的一个优势，因为它可以 “比抓取视频的竞争对手更完整地访问视频数据”。

见智点评：

Google 或是受到上一代聊天机器人 Bard 发布会重大失误的刺激，目前对 Gemini 给予了厚望，希望不仅仅是对标 ChatGPT，更想要超越，所以在训练下一代聊天机器人时候，更侧重多模态训练，特别是视频数据投喂，这点目前是 ChatGPT 所做不到的，也是 Google 想要的差异化市场竞争，大厂对大模型的争夺仍在继续。

2、PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大

开发者 Iván Martínez Toro 发布了 PrivateGPT 开源模型，该模型允许用户在无需互联网连接的情况下，通过提供自己的文档来向模型提问。

PrivateGPT 可以在家用设备上进行本地运行，使用前需要下载名为"gpt4all"的开源大语言模型（LLM）。用户需要将所有相关文件放入一个目录中，以供模型引入所有数据。完成 LLM 的训练后，用户可以向模型提出任何问题，它将使用提供的文档作为上下文来回答。PrivateGPT 能够处理超过 58000 个单词，目前需要大量本地计算资源（推荐使用高端 CPU）进行设置。

Toro 表示，当前 PrivateGPT 处于概念验证（PoC）阶段，它至少证明了可以在本地创建类似于 ChatGPT 的大模型。可以预见，一旦这种 PoC 转变为实际产品，PrivateGPT 将具备让公司获得个性化、安全和私密的 ChatGPT 来提高生产力的潜力。

见智点评：

PrivateGPT 开启行业对本地化部署的重视程度，这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署，用户可以更好地控制和保护他们的数据，减少了数据泄露和侵犯隐私的风险；开源模型和本地化部署将在未来产生积极的影响。

3、恒生电子发布金融行业大模型 LightGPT，金融大模型场景多样化，需求确定性强

LightGPT 可以为投顾、客服、投研、运营、风控、合规、研发等金融业务场景提供底层 AI 能服务，支持超过 80+ 金融专属任务指令微调。具备金融专业问答、逻辑推理、超长文本处理能力、多模态交互能力、代码处理等能力；

模型使用了超 4000 亿 tokens 的金融领域数据（包括资讯、公告、研报、结构化数据等）和超过 400 亿 tokens 的语种强化数据（包括金融教材、金融百科、政府报告、法规条例等），并以之作为大模型的二次预训练语料。

LightGPT 拥有更为丰富、轻量化的部署方式，支持私有化/云部署以及灵活 API 调用，推理端仅需一机 2 卡部署。

见智点评：

一方面基于数据安全，一方面基于应用场景多样化，金融大模型的需求确定性很强。

此前彭博已推出金融行业大语言模型 BloombergGPT；腾讯云也正在携手神州信息开展金融大模型合作；此前我们也作过多次金融大模型发展的动态点评，很多券商、银行和基金公司都在进行 AI 研发投入，以及 AI 产品的推出；恒生电子基于此前金融行业多年的 IT 服务经验，本次推出 LightGPT 大模型具有重要意义，之后我们也会继续跟进 LightGPT 开放测试之后的体验反馈。

4、智谱 AI 为大模型应用更近一步！成为法律专用大模型底座

幂律联合智谱 AI 发布基于中文千亿大模型的法律垂直大模型——PowerLawGLM，聚焦于法律细分领域，针对中文法律场景的应用效果具有独特优势，具备丰富的法律知识和法律语言理解能力。

基于 PowerLawGLM 大模型的能力，幂律还打造了法律对话产品 ChatMe，现已正式上线，首批开放 50 个内测名额

PowerLawGLM 是基于智谱的 ChatGLM 130B 通用千亿对话大模型进行联合研发，经过多轮多次高质量法律文本数据（裁判文书、法律法规、法律知识问答等）清洗及模型增量训练，得到法律版基座大模型 LawGLM 130B。在 100 个问题的评测结果上来看：PowerLawGLM 可实现 70% 左右的最优答案。

见智点评：

大模型如果直接应用在法律领域，会存在输出结果与需求很严重不匹配程度很高的问题。因为大模型的数据结果是基于数据训练来生成的，但是不同国家的法律规则是完全不同的，具有很强的专业性和区域限制，所以采用全球通用大模型很难得到满意的内容。

中文千亿大模型的法律垂直大模型 PowerLawGLM 就能够很好的适配我国的案例情况。中文法律大模型仅仅是一个开始，未来很多行业都会陆续推出专业领域的大模型，同时会基于垂直大模型打造人工智能对话产品。智谱 AI 做为最底层模型，对于开发专业领域大模型具有重要意义；之前还开源过一个更小容量的 ChatGLM-6B 模型，特别适合学习和轻量开发；另外最值得关注的是大模型训练中如何平衡训练稳定性和效率。

AI 融资

AI 安全成为资本的下一个风口，CalypsoAI 融资 2300 万美元

CalypsoAI 的产品可对标 360 安全管家，主要发布一些 ChatGPT 等大语言模型提供安全护栏的产品，包括恶意代码检测、越狱预防等特色防护功能。要解决数据隐私、安全防护、输出非法信息等难点，以加快金融、医疗、法律等行业对 ChatGPT 等生成式 AI 产品的场景化落地。

CalypsoAI 在官网宣布，获得 2300 万美元（约 1.6 亿元）A-1 轮融资。本次由 Paladin Capital Group 领投，洛克希德·马丁风险投资、Hakluyt Capital 等跟投。

见智点评：

资本的关注焦点已经不局限于大模型、AI 应用、现在已经开始下注 AI 安全产品。毕竟大模型做为底层工具，一旦被污染或遭受攻击，输出的内容则会完全偏离预期，无疑是对算力资源的浪费，同时还会产生公司数据泄露等安全问题。所以 AI 安全产品也必然会成为未来市场需求的一个重要领域。

下周关注：人工智能大会

AI Weekly News: Microsoft launches AI transformation with Windows 11; NVIDIA reduces office software costs by 23%; Video training becomes a crucial learning path for robots | Insight Research

见智视角

本周要点

AI 应用

大模型

AI 融资