Surpassing GPT-4 in all aspects! Anthropic has launched its fastest and most powerful AI model, Claude 3, capable of summarizing 150,000 words.

获得谷歌支持的 AI 初创公司 Anthropic 首次推出 Claude 3 AI 模型，可总结 15 万单词，超越 ChatGPT 的 3000 单词能力。此外，该模型首次支持多模态功能，允许用户上传图像和文件。

ChatGPT4 和 Gemini Ultra 被 Claude 3 AI 模型超越了？

3 月 4 日周一，人工智能公司 Anthropic 推出了名为 Claude 3 的 AI 模型和新型聊天机器人，其中包括 Opus、Sonnet 和 Haiku 三种模型，该公司声称，这是迄今为止它们开发的最快速、最强大的产品。

Anthropic 公司由前 OpenAI 的研究高管创立。在过去一年里，该公司成功完成了五轮融资，总额达 73 亿美元，并推出了与 OpenAI 的 ChatGPT 直接竞争的产品，获得了谷歌、Salesforce 和亚马逊等大型企业的支持，从一个有前景的初创公司成长为在 AI 领域受到业界广泛关注和支持的热门企业。

值得一提的是，Claude 3 模型具备处理和总结大量文本数据的强大能力，能够总结高达 15 万个英文单词，相当于长篇大作《白鲸记》或《哈利波特与死亡圣器》的长度。相比之下，OpenAI 的 ChatGPT 只能总结归纳大约 3000 个单词。此外，Anthropic 还首次允许上传图像和文件。

Claude 3 长文本处理能力远胜 ChatGPT

该公司表示，Claude 3 Opus 是三个模型中最强大的一个，它在处理复杂问题和逻辑推理方面表现卓越，超越了 OpenAI 的 GPT-4 和 Google 的 Gemini Ultra。

其他模型 Sonnet 和 Haiku 在处理能力或功能方面相对有限，但同时也更经济实惠，因而比 Opus 更便宜，适合那些不需要 Opus 高级功能的用户或企业。

根据 Anthropic 联合创始人 Daniela Amodei 及 Anthropic 公司的说法，Claude 3 模型存在以下特点：

1）多模态支持和文本处理能力：

Claude 3 是 Anthropic 首次入了多模态功能的模型，能够处理和文档、图像、视频等多种数据类型，允许用户上传图像和文件，极大地扩展了模型的应用范围和实用性，使其成为行业内最受关注的应用之一。
Claude 3 模型能够总结高达 15 万个英文单词，远超过 OpenAI 的 ChatGPT 的 3000 个单词，此外，Claude 3 还能够根据用户的需求提供不同格式的输出，如备忘录、信件或故事等，这一能力使得 Claude 3 在处理长篇文本方面远超过 OpenAI 的 ChatGPT。
Claude 3 对用户意图和上下文的理解更加细腻，它能通过深入分析语言的语义、语境和情感等方面，提供更准确和相关的回应。

2）风险理解能力的提升：

Anthropic 联合创始人 Daniela Amodei 表示，新推出的 Claude 3 模型在理解敏感或争议话题的风险方面较前一版本有所提升，能更准确地判断何时回应或保持谨慎。以往的 Claude 2 模型在处理敏感话题时过于保守，有时会过度拒绝回应敏感或有争议的话题，而 Claude 3 致力于在在保持安全和谨慎的同时，致力于减少不必要的回应限制，使模型更灵活实用。

具体发布时间方面，Anthropic 称，Sonnet 和 Opus 已从周一起在 159 个国家/地区推出，而 Haiku 也将很快推出。

团队方面，Amodei 透露，公司在开发核心 AI 模型时采用了分层的团队结构。核心开发团队由 60 到 80 人组成，负责模型的算法和架构设计。技术支持团队则有 120 到 150 人，负责编程、数据处理、测试和部署等工作。

在模型的最后迭代中，直接参与开发的人数为 30 到 35 人，但整体支持团队达到了约 150 人。虽然直接参与核心开发的团队规模相对较小，但整个项目的支持团队规模较大，这种团队配置确保了模型开发的高效协作和优化。

仅文本不够，AI 模型需多模态功能

在过去一年中，生成式 AI 成为商业和技术界的焦点话题，并迅速渗透到多个领域，包括教育、在线旅游、医疗行业和在线广告等，各大企业财报电话会议中也反复出现 AI 话题。

根据 PitchBook 数据，2023 年 AI 领域的投资额达到了创纪录的 291 亿美元，交易量同比增长超过 260%，显示出投资者对 AI 发展潜力的强烈信心。

AI 迅速发展的同时，OpenAI 首席运营官 Brad Lightcap 指出，仅将文本和代码作为 AI 模型的输入和输出是不够的，AI 应该更接近于人类的自然感知和交互方式，他说道：

“世界是多模态的，人类的日常体验不仅包括文本，还涉及图像、声音等多种感觉输入。因此，仅将文本和代码作为人工智能模型的输入和输出是不够的。”

“为了让 AI 模型更好地模仿人类的感知和交互方式，它们需要能够处理和生成多种类型的数据。通过整合多种模态，人工智能模型可以提供更丰富、更真实的体验和应用，更接近于人类的自然感知和交互方式。”

然而，随着 AI 模型日益复杂化，尤其是在引入多模态功能如图像生成后，新的风险和挑战也随之而来。例如，谷歌最近因用户发现其 AI 图像生成器（Gemini 聊天机器人的一部分）的历史不准确和有问题的回应而将其下线，这一事件在社交媒体上引起了广泛关注。

与 Google 的 Gemini 不同，Anthropic 的 Claude 3 不具备生成图像的能力，它只允许用户上传图像和其他文档进行分析，从而在一定程度上减少了由自动生成内容引发的风险和争议。

Amodei 也承认：

“当然，没有任何模型是完美的，我认为提前说清楚这一点非常重要。在开发模型时，我们不仅追求模型的性能和功能，也同样重视模型的安全性和可靠性。当然，尽管进行了严格的开发和测试，模型偶尔会犯错，并在某些情况下产生不准确或不可预测的输出。”