共计 1941 个字符,预计需要花费 5 分钟才能阅读完成。
前言
昨天刚被爆出要提早两周发布「Strawberry」的 OpenAI,在北京时间凌晨 1 点,没有任何预兆地发布了新模型,简简单单,就叫「o1」(aka 草莓)、
「o1」模型可以实现复杂推理,尤其擅长做科学、编码、数学问题,OpenAI 再次证明在 LLM 领域自己依然是先驱者。
什么是「o1」
「o1」的核心特点是能够在给出回复前用更多时间 进行思考,这一机制是 LLM 对无限推理模型的迈进,旨在模仿人类去解决复杂问题的思考方式。
它允许 AI 在给出最终答案之前,进行长时间、多层次的推理,想的更久,得到的也越准确。
通过这种训练模式,AI 学会了「深思熟虑」,来提高对复杂任务的推理表现。「o1」不仅在大部分基准测试中胜过「GPT-4o」,在数学、物理、生物等类型的基准测试中,甚至直接超过了人类博士水平
逻辑推理上,「o1」选择用 AIME(美国数学邀请赛——一个仅次于奥林匹克数学竞赛的项目,该考试旨在挑战美国最聪明的高中数学学生)进行测试
在 2024 年 AIME 考试中,「GPT-4o」平均只解决了 12% (1.8/15) 的问题,而「o1」在每个问题单样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),二如果重新排列 1000 个样本,成绩甚至可以达到 93% (13.9/15)。
13.9 的成绩,相当于可以进入全国前 500 名学生之列,且高于美国数学奥林匹克运动会的临界
在编程能力方面,OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛,采用的评估与竞赛规则非常接近,可以提交 10 份代码验证。
根据测试结果来看,「o1」远超于「GPT-4o」的表现,「o1」得分 1807,排名 89 位,超过 93% 的人类选手,而「GPT-4o」仅得到 808 分
底层训练方式
「o1」是经过 强化学习 训练来执行复杂推理任务,在响应用户之前 产生一个很长的内部思维链,也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误
「o1」模型训练方法的核心原理是一项名为 「Self-Play」 的技术
简单来说就是让 AI 与自身的不同版本进行「对弈」或「互动」,这种方法最初在游戏 AI 领域取得成功,比如 AlphaGo 和 AlphaZero。
整个训练过程可以简单描述为:
- 模型会生成多个推理步骤或思考路径
- 这些路径被评估和比较,选出最优的结果
- 模型从这个过程中学习,改进自己的推理能力
因此,相比于传统生成式大模型一次性生成答案的「快思考」,「o1」虽然回复时间较长,却因为进行了多步骤、迭代式的推理过程,能显著提高了在数学和科学领域的推理能力。
因此,o1 的局限性也是较为明显的,响应慢,暂时没有网页浏览和文件处理等 GPT 4o 具备的功能(后续官方表明会添加)。
「o1」强大功能
OpenAI 为了展示「o1」可以做什么,连发了 16 条视频,具体视频链接放在下方
OpenAI 介绍视频:https://www.youtube.com/@OpenAI
在视频中可以看到「o1」在多领域内都有相当好的成绩,能编码、能推理、能理解语言
视频中更是让其编写电子游戏代码、、回答人工智能难题、解释复杂的量子物理概念、、解决高难度的逻辑谜题、分析遗传学问题、分析经济问题、修复错误句子等等
如何使用
除了预览版,「o1」还发布了一个更快、更便宜的「o1-mini」模型。
ChatGPT Plus 和 Team(个人付费版与团队版)用户可以手动选取使用「o1-preview」或「o1-mini」
目前,每位用户每周仅能给 o1-preview 发送 30 条消息,给 o1-mini 发送 50 条消息。
是的,使用次数很有限!不过 OpenAI 表示正在努力提升用户的可使用次数,并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。
从今天开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的「o1」模型。「o1-preview」的每周速率限制为 30 条消息,「o1-mini」的每周速率限制为 50 条。
符合 5 级 API 使用量(消费类 1000$ 以上且超过 1 个月的付费用户)的开发人员今天可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。
接下来,OpenAI 除了继续更新模型,推出正式版之外,o1 还将陆续添加浏览、文件和图像上传等功能。
以及,除了新的 OpenAI o1 系列之外,还计划继续开发和发布 GPT 系列中的模型。
个人开通 ChatGPT Plus 或者 Team 可以根据这个文档开通,流程一样的:国内升级 ChatGPT-4.0 超详细教程(2024 最新)
同时镜像已经同步更新「o1」模型,也可以使用镜像:便宜好用的 GPT4 方案,支持语音功能,不定期发放免费使用账号