商汤加入 AI 大战!首次实时演示大模型体系 代码编写效率提升 62%
商汤科技宣布推出大模型体系 “商汤日日新大模型”,内含自然语言生成、文生图、感知模型标注以及模型研发功能。同时,商汤还发布商汤自研中文语言大模型应用平台 “商量 SenseChat”。该模型可实现多轮对话、逻辑推理、语言纠错、内容创作、情感分析等多种功能。商汤科技同时也发布了超 10 亿参数自研文生图生成模型 “秒画”,支持多种风格生成。据商汤科技介绍,商汤人工智能计算中心算力可支持 20 个千亿参数超大模型同时训练。商汤科技以通用人工智能作为核心发展战略,将持续拥抱新技术,积极发展人才和技术。
GPT 的诞生引燃了沉寂许久的人工智能新浪潮,“颠覆性变革” 正在发生,是否拥有超大模型与高算力开始渐渐成为衡量一家人工智能企业能力的主要标准。
4 月 10 日,人工智能软件公司商汤科技董事长兼 CEO 徐立,在技术交流日上宣布,将推出大模型体系 “商汤日日新大模型”,包括自然语言生成、文生图、感知模型标注以及模型研发功能。
“日日新” 取自《礼记·大学》:“汤之盘铭曰:苟日新,日日新,又日新。”
商汤还宣布推出商汤自研中文语言大模型应用平台 “商量 SenseChat”。
徐立介绍称,商量是一个 1800 亿参数的中文大语言模型,可实现多轮对话、逻辑推理、语言纠错、内容创作、情感分析等,并在现场演示了其作广告语、续写儿童故事、编程等功能,下图为商汤大模型实时演示:
徐立表示,内部实测代码编写效率提升 62%,HumanEval 测试集一次通过率 40.2%。下一代软件开发范式是 AI for AI,代码=80%AI 生成 +20% 人工。
此外,商汤还介绍了超 10 亿参数自研文生图生成模型 “秒画”,支持二次元等多种生成风格。单卡 A100 支持,2 秒生成 1 张 512K 分辨率的图片。用户可基于单卡 A100 自训练。基于平台发布的模型,可设置 to B 服务 API(应用程序编程接口),结合商汤大算力对外提供服务。
同时,徐立指出,人工智能的能力由大模型参数量乘以训练数据量决定。商汤人工智能计算中心,算力可支持 20 个千亿参数超大模型同时训练。
徐立此前曾表示,商汤将通用人工智能(AGI)作为核心发展战略,以期在未来几年内实现重大突破:
人工智能是一个前景广阔的赛道,商汤将一如既往地坚定投入在迈向通用人工智能的前沿研发与商业化进程中。
商汤 SenseCore 庞大的算力输出能力
徐立在交流日介绍称,人工智能的能力由大模型参数量乘以训练数据量决定。商汤人工智能计算中心算力达 5000+p,当前可支持 20 个千亿参数超大模型同时训练。
根据商汤 3 月 28 日公布的财报显示,服务于大模型训练的商汤 SenseCore AI 大装置,目前已支持 8 家客户进行大模型训练,总共提供了 7000 多张 GPU 卡。
SenseCore 已支持了超过 10 个大模型训练项目,包括语言大模型、文生图模型、视觉大模型、多模态模型等自研模型和客户自定义模型。
从算力能力上看,年内,商汤 SenseCore AI 大装置在持续进行扩建,共计完成了 2.7 万块 GPU 的部署并实现了 5.0 exaFLOPS 的算力输出能力。
目前该装置可最多支持 20 个千亿参数量大模型(以千卡并行)同时训练,最高可支持万亿参数超大模型的训练。
商汤科技联合创始人兼首席科学家王晓刚教授在此前接受媒体采访时表示,商汤多年人才和技术积累使其具有与 OpenAI 相比非常类似的优势:
商汤有非常多的研发人员能深入到一线,用模型去解决实际问题,有很好的积累。‘好的原材料’ 就是要深入到各个行业里积累非常多的 know-how。美国公司 OpenAI 能够把 ChatGPT 做出来,背后也有多年积累,从小模型到大模型的研发,中间积累了非常多的 know-how。”
王晓刚教授指出,深度学习一下子颠覆了所有传统,现在的关键是 “拥抱全新研究范式” 和 “转变观念”:
颠覆会不断出现,且以非常快的速度出现。现在重新有了一个机会。这对于整个行业发展非常好。
十年前,商汤还没有诞生,我们创始团队在当时做的决定就是-All in deep learning。我们之前在传统视觉技术里也有较长积累,但是,当新技术来了,我们就果断地去拥抱新技术。今天也一样。”