GPT4 统治时代成为过去式,Claude3 登顶第一

700次阅读
没有评论

共计 2262 个字符,预计需要花费 6 分钟才能阅读完成。

前言

昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku,这个由 OpenAI 分裂出去的兄弟公司 Anthropic,在悄然无息之间,在 X 上发了个帖子就发布了一个王炸——Claude 3 系列模型,其系列测试更是超出 GPT4 现有水平,让 GPT4 的统治地位遭受剧烈动摇,那这里我们来分析一下 Claude 3 的强悍在哪里?

想去体验的朋友点击这里:Claude 3 免费体验,附 Opus 订阅教程

更智能的 Claude3 家族

Claude 3 包含三种最先进的模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,允许用户为其特定应用选择智能、速度和成本的最佳平衡。

这三款模型在推理、数学、编码、多语言理解和视觉处理等方面都相当扎眼

  • Haiku(中杯),轻量级的选择
  • Sonnet(大杯),平衡性能与速度
  • Opus(超大杯),AI 模型的巅峰之作
GPT4 统治时代成为过去式,Claude3 登顶第一
名字由来

Opus 大概意思就是史诗级乐章,特别厉害那种,

Sonnet 是十四行诗,

Haiku 是俳句,日本的那种三行短诗,

所以可以简单的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)

在这一系列模型中,Claude 3 Opus 是被认为最为先进的一款,特别是在处理高度复杂的任务方面。在包括本科级别的专业知识测评(MMLU)、研究生级别的专家推理测试(GPQA)、以及基本数学问题解答(GSM8K)等多种常见评测标准上,Opus 的表现超越了其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。Anthropic 官方宣称,作为旗舰级别的超大杯 Opus 模型,其智能程度堪比人类,能够游刃有余地应对开放式问题,并巧妙解决各种复杂挑战。

GPT4 统治时代成为过去式,Claude3 登顶第一

可能直接看这个图没有感觉,我举个实际的例子

比如 MGSM,多语言数学推理这个测试集,Claude 3 Opus 达到 90.7% 的准确率,用的是 0 -shot,GPT- 4 是 8 -shot,达到了 74.5%,0-shot 意味着大模型没有在 Prompt 里给任何示例,就直接被要求完成任务。而 8-shot 则是在干活前,给了 8 个示例你这就能看出来区别了。一个没给示例直接上,一个给了 8 个示例,给了 8 个示例的 GPT-4 反而还打不过 Claude 3 在复杂的推理任务上,Claude 3 可以说是全面完胜 GPT-4

视觉识别的巨大突破

Claude 3 相较于前代模型的显著进步之一,就在于其 视觉识别功能。具备处理包括照片、图表、图形乃至技术图纸在内的视觉信息的能力,Claude 3 展现了多模态处理的能力,这一能力已成为当前顶级 AI 模型的标配。

大多数顶尖的模型通常是基于英文语料库训练的,这自然导致它们在生成英语答案时表现出色,而在处理其他语言时则可能表现不佳。然而,Claude 3 在这方面取得了显著的突破,它在处理 西班牙语、日语和法语等非英语语言 的交流时,展现了卓越的能力和流畅的沟通技巧。

(PS:希望所有大模型对中文支持赶紧提高)

安全性和可靠性

自 Claude 模型发布时,其设计理念就高度注重“安全而负责任的 AI”原则。历代 Claude 模型在面对某些问题时,偶尔会表现出过度谨慎的态度,选择不作回应。

随着 Claude 3 的推出,这一模型在理解用户请求、辨别潜在风险问题方面取得了显著进步。它不仅能够更敏感地识别出可能带来风险的查询,还能更准确地分辨那些实际上是无害的请求。

在性能提升的同时,Claude 3 继续强调模型的安全性和可靠性,严格按照人工智能安全等级 2(ASL-2)的标准来开发和部署。

ASL-2

ASL- 2 代表的是 AI 系统面临中等级别的潜在风险,这要求开发者采取适当的安全措施以确保系统的安全运行。按照这一标准,虽然存在某些风险,但在大多数情况下,这些风险被视为可控,且不太可能对人类或环境造成严重威胁

面对大型语言模型普遍存在的所谓“幻觉”问题,即模型可能产生与事实不符的回答,Anthropic 公司已经认识到这一点,并为 Claude 3 设计了一系列旨在应对这些已知缺陷的复杂且基于事实的挑战。

与其前代 Claude 2.1 模型相较,Opus 版本在处理开放式问题的能力上实现了显著的飞跃,正确率实现了翻倍提升,同时在减少错误回答的生成上也取得了显著进展

GPT4 统治时代成为过去式,Claude3 登顶第一

Anthropic 公司采纳了与 Perplexity AI 相似的策略,不仅旨在生成更加可靠的答案,还计划在即将推出的 Claude 3 模型中加入引用功能。这将使模型能够引用参考资料中的具体句子来支持其答案的正确性,显著增强了答案的可验证性。

此外,借鉴了 Perplexity AI 答案引擎的思维,Anthropic 计划在 Claude 3 模型中新增一个重要功能——引用功能,允许模型直接引用参考材料中的文本来证实其答案的准确性,这一步骤对于提高模型输出的可信度和透明度至关重要。

NIAH 评估测试超过 99% 

NIAH,也就是我们俗称的大海捞针,测试的是模型从大量数据中准确检索信息的能力,为了增强这一测试的可信度,Anthropic 官方更是随机在多样化的众包文档集合中进行测试。

结果显示,超大杯 Claude 3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现,而且在某些情况下,它能识别出哪些作为“针”的句子是由人为刻意插入的,充分展现了其对信息环境的深刻理解

GPT4 统治时代成为过去式,Claude3 登顶第一

目前,Opus 和 Sonnet 已经正式开放,集成在 Anthropic 的 API 中,大家现在可以注册并开始使用这些模型,Haiku 模型也即将在不久后推出,到时也会第一时间和大家分享!

正文完
 

微信公众号

获取AI最新风向,关注“Kaiho小站”微信公众号

微信公众号:Kaiho小站
评论(没有评论)