共计 1675 个字符,预计需要花费 5 分钟才能阅读完成。
前言
12 天连更第一天,OpenAI 先炸了一波。
和之前网友预测的差不多,满血版 o1 终于正式上线了,除此之外,还带来了地表最强「o1 Pro Mode」!
这次,Sam Altman 本人正式出镜,和研究科学家 Hyung Won Chung、Max,以及思维链提出者 Jason Wei 一起,在短短 15 分钟内迅速完成发布。
完整版 o1 是一个更快、更强大的推理模型,更擅长编码、数学和写作。
而 Pro 版更是强到令人发指,AI 助力各大学科寻求重大突破已然可期。
如今镜像站和 API 站点都已支持满血版 o1 与 Pro 版本,尽情体验!!!(如有需要代充可以联系站长)
镜像站购买链接:https://fk.yfk66.cn//links/DC344F54
API 站点:https://ai.kaiho.cc/models
提示:Plus 版本基本够用,体验 Pro 版可以借助镜像站和 API 站点,有确切需求自己购买更合适!!!
o1 模型
o1 可以上传图片,根据图片进行推理,给出更详细、更有用的回复,仅仅提供一张图片,模型就生成了安装手册
在多项基准测试中,完整版 o1 性能直接暴涨,在数学、代码、博士级别科学问题中,均拿下最优的成绩。
相较于 o1-preview,o1 数学性能提升了近 30%,代码能力提升了 27%。更值得一提的是,o1 在 GPQA Diamond 基准测试中,表现完全超越了人类专家。
o1 的独特之处在于,它是第一个在回应前会先思考的模型。这也让它比其他模型提供更好、更详细、更准确的响应。而在 o1 Pro 模式中,用户可以要求模型使用更多的计算资源,来解决一些最困难的问题。这对于已经在数学、编程和写作任务上将模型推向能力极限的用户,会感到不可思议。
满血版 o1 的平均响应速度比 o1-preview 快了 60%,且满血版 o1 在推理时 犯重大错误的频率 比 o1-preview 少了 34%。满血 o1 的另一大亮点就是支持 多模态输入 ,具备 视觉推理能力,团队也进行了现场展示。
只见他们拿出了一张画着数据中心草图的 A4 纸,拍照上传后,原始提示词翻译后如下:
这是一个简化的数据中心空间示意图。对于任何细节假设,请提供相应的理由。如果受到了规范辐射的影响,你的任务是估算这个包含 GPU 的数据中心的辐射损失面积。在此过程中,还需要回答以下问题:
1)你如何处理太阳和宇宙辐射?
2)热力学第一定律如何应用到这个问题中?
这边团队成员们还在闲聊,10 秒过后,模型就直接开始输出。
注意,这里团队还特意给 o1 模型挖了个坑——故意省略了其中一个参数,以此来测试模型面对模糊问题的处理能力。在团队看来,模型能够意识到这是一个重要但被忽略的参数,也是推理能力的体现。
并且 o1 最终给出的答案,经过了拥有热力学博士学位的研究者的认证。
从这个演示可以看出,o1 在做出一致且合理假设上表现非常优秀,已经具备了相当高的智能水平。
并且这次 o1 满血版不搞灰度了,发布仅 4 个小时后,已推送给所有(付费)用户!
ChatGPT Pro
这次推出的 Pro 模式,每月 200 美元的定价也着实让人望而却步。在犹豫的同时,已经有许多好心人帮大家提前测试了一下。
如果让它完成一个数独,思考时间长达 5 分 30 秒。在思考过程中依然会犯错,但这次区别在于它有自我纠正的能力,直到得出正确答案为止。
更有人上来就是一个“cure cancer(请治愈癌症)”。最终也是给出了答案告知没有治疗所有类型癌症的单一方法,并给出更多建议
再来看看这个脑筋急转弯:举出一种娱乐形式的具体实例,其缩写也可以代表访问某个国家的团体的名字,而该国家的未来领导人与意大利人结婚。出题者称 4o、o1-mini、Claude 3.5 Sonnet 做三次错三次,而 o1 则是做三次对三次!
Sam Altman 强调的是:Pro 模式的优势在于它可以更加努力地去思考最困难的问题。并且说明:绝大多数人用免费版或 20 美元版就足够了,200 美元版只适合很小一部分人,他们想要大量使用,且愿意为解决真正困难的问题付更多钱。
这次的 12 天发布会,就如同圣诞前的礼物,期待 OpenAI 后续的发布