OpenAI 新一代大模型「o1」，突破LLM推理极限

共计 1941 个字符，预计需要花费 5 分钟才能阅读完成。

前言

昨天刚被爆出要提早两周发布「Strawberry」的 OpenAI，在北京时间凌晨 1 点，没有任何预兆地发布了新模型，简简单单，就叫「o1」（aka 草莓）、

「o1」模型可以实现复杂推理，尤其擅长做科学、编码、数学问题，OpenAI 再次证明在 LLM 领域自己依然是先驱者。

什么是「o1」

「o1」的核心特点是能够在给出回复前用更多时间 进行思考，这一机制是 LLM 对无限推理模型的迈进，旨在模仿人类去解决复杂问题的思考方式。

它允许 AI 在给出最终答案之前，进行长时间、多层次的推理，想的更久，得到的也越准确。

通过这种训练模式，AI 学会了「深思熟虑」，来提高对复杂任务的推理表现。「o1」不仅在大部分基准测试中胜过「GPT-4o」，在数学、物理、生物等类型的基准测试中，甚至直接超过了人类博士水平

逻辑推理上，「o1」选择用 AIME（美国数学邀请赛——一个仅次于奥林匹克数学竞赛的项目，该考试旨在挑战美国最聪明的高中数学学生）进行测试

在 2024 年 AIME 考试中，「GPT-4o」平均只解决了 12% (1.8/15) 的问题，而「o1」在每个问题单样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，二如果重新排列 1000 个样本，成绩甚至可以达到 93% (13.9/15)。

13.9 的成绩，相当于可以进入全国前 500 名学生之列，且高于美国数学奥林匹克运动会的临界

在编程能力方面，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，采用的评估与竞赛规则非常接近，可以提交 10 份代码验证。

根据测试结果来看，「o1」远超于「GPT-4o」的表现，「o1」得分 1807，排名 89 位，超过 93% 的人类选手，而「GPT-4o」仅得到 808 分

底层训练方式

「o1」是经过 强化学习 训练来执行复杂推理任务，在响应用户之前 产生一个很长的内部思维链，也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误

「o1」模型训练方法的核心原理是一项名为 「Self-Play」 的技术

简单来说就是让 AI 与自身的不同版本进行「对弈」或「互动」，这种方法最初在游戏 AI 领域取得成功，比如 AlphaGo 和 AlphaZero。

整个训练过程可以简单描述为：

模型会生成多个推理步骤或思考路径
这些路径被评估和比较，选出最优的结果
模型从这个过程中学习，改进自己的推理能力

因此，相比于传统生成式大模型一次性生成答案的「快思考」，「o1」虽然回复时间较长，却因为进行了多步骤、迭代式的推理过程，能显著提高了在数学和科学领域的推理能力。

因此，o1 的局限性也是较为明显的，响应慢，暂时没有网页浏览和文件处理等 GPT 4o 具备的功能（后续官方表明会添加）。

「o1」强大功能

OpenAI 为了展示「o1」可以做什么，连发了 16 条视频，具体视频链接放在下方

OpenAI 介绍视频：https://www.youtube.com/@OpenAI

在视频中可以看到「o1」在多领域内都有相当好的成绩，能编码、能推理、能理解语言

视频中更是让其编写电子游戏代码、、回答人工智能难题、解释复杂的量子物理概念、、解决高难度的逻辑谜题、分析遗传学问题、分析经济问题、修复错误句子等等

如何使用

除了预览版，「o1」还发布了一个更快、更便宜的「o1-mini」模型。

ChatGPT Plus 和 Team（个人付费版与团队版）用户可以手动选取使用「o1-preview」或「o1-mini」

目前，每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

是的，使用次数很有限！不过 OpenAI 表示正在努力提升用户的可使用次数，并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。

从今天开始，ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的「o1」模型。「o1-preview」的每周速率限制为 30 条消息，「o1-mini」的每周速率限制为 50 条。

符合 5 级 API 使用量（消费类 1000$ 以上且超过 1 个月的付费用户）的开发人员今天可以开始使用 API 中的两种模型进行原型设计，速率限制为 20 RPM。

接下来，OpenAI 除了继续更新模型，推出正式版之外，o1 还将陆续添加浏览、文件和图像上传等功能。

以及，除了新的 OpenAI o1 系列之外，还计划继续开发和发布 GPT 系列中的模型。

个人开通 ChatGPT Plus 或者 Team 可以根据这个文档开通，流程一样的：国内升级 ChatGPT-4.0 超详细教程（2024 最新）

同时镜像已经同步更新「o1」模型，也可以使用镜像：便宜好用的 GPT4 方案，支持语音功能，不定期发放免费使用账号

jiliko Really enjoying this article! It's cool seeing platforms like jiliko step up security & responsible gaming – KYC is a must these days. Makes the whole experience more trustworthy, right? 👍

jiliko Smart bankroll management is key, regardless of the platform. Seeing sites like jiliko game emphasize security & responsible gaming is a good sign – KYC is a must for withdrawals, naturally. Play smart, folks!

jiliko Roulette’s seemingly random nature hides fascinating probability! Seeing platforms like jiliko link offer diverse games really highlights how accessible casino entertainment has become – and the need for responsible gaming practices, of course! It’s interesting to see how KYC procedures are now standard.

pilipinay Interesting points about bankroll management! Seeing platforms like pilipinay login prioritize responsible gaming & local payment options (like GCash) is a smart move for the PH market. Good for player protection too!

pilipinay That's a solid take on the evolving sports betting landscape! Seeing platforms like pilipinay vip prioritize PAGCOR compliance & local payment options (GCash, PayMaya) is huge for Filipino players. Responsible gaming is key too!

pilipinay Blackjack strategy is fascinating – mastering it takes time, but the rewards are worth it! Seeing platforms like pilipinay casino prioritize responsible gaming & local payment options (like GCash!) builds trust – crucial for any new player. Definitely a step in the right direction!