OpenAI 新一代大模型「o1」，突破LLM推理极限

755次阅读

没有评论

共计 1941 个字符，预计需要花费 5 分钟才能阅读完成。

前言

昨天刚被爆出要提早两周发布「Strawberry」的 OpenAI，在北京时间凌晨 1 点，没有任何预兆地发布了新模型，简简单单，就叫「o1」（aka 草莓）、

「o1」模型可以实现复杂推理，尤其擅长做科学、编码、数学问题，OpenAI 再次证明在 LLM 领域自己依然是先驱者。

什么是「o1」

「o1」的核心特点是能够在给出回复前用更多时间 进行思考，这一机制是 LLM 对无限推理模型的迈进，旨在模仿人类去解决复杂问题的思考方式。

它允许 AI 在给出最终答案之前，进行长时间、多层次的推理，想的更久，得到的也越准确。

通过这种训练模式，AI 学会了「深思熟虑」，来提高对复杂任务的推理表现。「o1」不仅在大部分基准测试中胜过「GPT-4o」，在数学、物理、生物等类型的基准测试中，甚至直接超过了人类博士水平

逻辑推理上，「o1」选择用 AIME（美国数学邀请赛——一个仅次于奥林匹克数学竞赛的项目，该考试旨在挑战美国最聪明的高中数学学生）进行测试

在 2024 年 AIME 考试中，「GPT-4o」平均只解决了 12% (1.8/15) 的问题，而「o1」在每个问题单样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，二如果重新排列 1000 个样本，成绩甚至可以达到 93% (13.9/15)。

13.9 的成绩，相当于可以进入全国前 500 名学生之列，且高于美国数学奥林匹克运动会的临界

在编程能力方面，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，采用的评估与竞赛规则非常接近，可以提交 10 份代码验证。

根据测试结果来看，「o1」远超于「GPT-4o」的表现，「o1」得分 1807，排名 89 位，超过 93% 的人类选手，而「GPT-4o」仅得到 808 分

底层训练方式

「o1」是经过 强化学习 训练来执行复杂推理任务，在响应用户之前 产生一个很长的内部思维链，也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误

「o1」模型训练方法的核心原理是一项名为 「Self-Play」 的技术

简单来说就是让 AI 与自身的不同版本进行「对弈」或「互动」，这种方法最初在游戏 AI 领域取得成功，比如 AlphaGo 和 AlphaZero。

整个训练过程可以简单描述为：

模型会生成多个推理步骤或思考路径
这些路径被评估和比较，选出最优的结果
模型从这个过程中学习，改进自己的推理能力

因此，相比于传统生成式大模型一次性生成答案的「快思考」，「o1」虽然回复时间较长，却因为进行了多步骤、迭代式的推理过程，能显著提高了在数学和科学领域的推理能力。

因此，o1 的局限性也是较为明显的，响应慢，暂时没有网页浏览和文件处理等 GPT 4o 具备的功能（后续官方表明会添加）。

「o1」强大功能

OpenAI 为了展示「o1」可以做什么，连发了 16 条视频，具体视频链接放在下方

OpenAI 介绍视频：https://www.youtube.com/@OpenAI

在视频中可以看到「o1」在多领域内都有相当好的成绩，能编码、能推理、能理解语言

视频中更是让其编写电子游戏代码、、回答人工智能难题、解释复杂的量子物理概念、、解决高难度的逻辑谜题、分析遗传学问题、分析经济问题、修复错误句子等等

如何使用

除了预览版，「o1」还发布了一个更快、更便宜的「o1-mini」模型。

ChatGPT Plus 和 Team（个人付费版与团队版）用户可以手动选取使用「o1-preview」或「o1-mini」

目前，每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

是的，使用次数很有限！不过 OpenAI 表示正在努力提升用户的可使用次数，并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。

从今天开始，ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的「o1」模型。「o1-preview」的每周速率限制为 30 条消息，「o1-mini」的每周速率限制为 50 条。

符合 5 级 API 使用量（消费类 1000$ 以上且超过 1 个月的付费用户）的开发人员今天可以开始使用 API 中的两种模型进行原型设计，速率限制为 20 RPM。

接下来，OpenAI 除了继续更新模型，推出正式版之外，o1 还将陆续添加浏览、文件和图像上传等功能。

以及，除了新的 OpenAI o1 系列之外，还计划继续开发和发布 GPT 系列中的模型。

个人开通 ChatGPT Plus 或者 Team 可以根据这个文档开通，流程一样的：国内升级 ChatGPT-4.0 超详细教程（2024 最新）

同时镜像已经同步更新「o1」模型，也可以使用镜像：便宜好用的 GPT4 方案，支持语音功能，不定期发放免费使用账号

正文完

发表至：杂记

2024-09-13

Google 账号注册最新教程，附问题解决方案

Sora内测申请

GPT4 统治时代成为过去式，Claude3 登顶第一

为什么要用CHatGPT-4？GPT-4有什么过人之处

ChatGPT 对话记录自动备份超简单教程

OpenAI 新一代大模型「o1」，突破LLM推理极限

前言

什么是「o1」

底层训练方式

「o1」强大功能

如何使用

微信公众号

WildCard(野卡)失联，可替代的Chat GPT充值方案

WildCard(野卡)失联，可替代的Chat GPT充值方案