我们正在推出 OpenAI o1,这是一种新的大型语言模型,经过强化学习训练可以执行复杂的推理。o1 在回答之前会思考——它可以在回应用户之前产生一个长长的内部思路链。
OpenAI o1 在编程竞赛题目(Codeforces)中排名第 89 个百分位,在美国数学奥林匹克预选赛(AIME)中跻身全美前 500 名学生,并在物理、生物和化学问题的基准测试(GPQA)中超越了博士级别的准确率。虽然我们仍在进行工作,以使这个新模型像现有模型一样易于使用,但我们已发布了该模型的早期版本——OpenAI o1-preview,供 ChatGPT 和受信任的 API 用户(将在新窗口中打开)立即使用。
我们的大规模强化学习算法通过其链式推理,在高度数据高效的训练过程中教会模型如何进行有效思考。我们发现,随着更多的强化学习(训练时的计算)和更多的思考时间(测试时的计算),o1 的性能持续提升。这种方法的扩展限制与 LLM 预训练有很大不同,我们仍在继续研究这些限制。
评估
为了突出与 GPT-4o 在推理能力上的改进,我们在一系列人类考试和机器学习基准上测试了我们的模型。我们展示了 o1 在绝大多数依赖推理的任务上显著优于 GPT-4o。除非另有说明,我们在最大化测试时间计算设置下对 o1 进行了评估。
o1 在具有挑战性的推理基准上大幅超越了 GPT-4o。实心条代表 pass@1 准确率,阴影区域表示多数投票(共识)使用 64 个样本的表现。
o1 在广泛的基准测试中优于 GPT-4o,包括 54/57 MMLU 子类。这里展示了七个用于说明。在许多重推理的基准测试中,o1 的表现可与人类专家相媲美。最近的前沿模型在 MATH 和 GSM8K 上表现非常这使得这些基准不再能够有效区分模型。我们在 AIME 考试上评估了数学表现,这是专为挑战美国最聪明的高中生设计的考试。在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12%(1.8/15)的题目。而 o1 在每题一个样本的情况下平均解决了 74%(11.1/15),使用 64 个样本的共识达到 83%(12.5/15),使用 1000 个样本并通过学习的评分函数重新排名时达到 93%(13.9/15)。得分为 13.9 使其跻身全美前 500 名,并超过了美国数学奥林匹克的分数线。
我们还在 GPQA diamond 上评估了 o1,这是一个测试化学、物理和生物学领域专业知识的高难度智力基准。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答 GPQA-diamond 的问题。我们发现 o1 超越了这些人类专家的表现,成为第一个在该基准上做到这一点的模型。这些结果并不意味着 o1 在所有方面都比博士更有能力——只是表明该模型在解决一些博士应能解决的问题上表现得更加娴熟。在其他多个机器学习基准测试中,o1 也超越了现有的最先进技术。当启用视觉感知能力时,o1 在 MMMU 上得分为 78.2%,成为第一个可以与人类专家竞争的模型。它还在 54/57 MMLU 子类上优于 GPT-4o。
链式推理
类似于人类在回答困难问题之前可能需要长时间思考,o1 在尝试解决问题时会使用链式推理。通过强化学习,o1 学会优化其推理链并改进使用的策略。它学会识别并纠正错误,学会将复杂的步骤分解为简单的步骤,并学会在当前方法不起作用时尝试另一种方法。这个过程显著提高了模型的推理能力。为说明这一进步,我们展示了 o1-preview 在几个难题上的推理链。
编程
我们训练了一个模型,它在 2024 年国际信息学奥林匹克(IOI)中得到了 213 分,并在 49% 的人类选手中排名,通过从 o1 初始化并进一步训练编程技能来改进该模型。该模型在与人类选手相同的条件下参加了 2024 年 IOI。它有 10 小时时间来解决 6 个复杂的算法问题,并允许每个问题提交 50 次。
对于每个问题,我们的系统抽取了多个候选提交,并根据测试时间的选择策略提交了其中 50 个。提交是基于 IOI 公开测试用例、模型生成的测试用例以及学习的评分函数的表现进行选择的。如果我们改为随机提交,平均得分只有 156 分,这表明在竞赛限制下这种策略价值近 60 分。
在放宽提交限制的情况下,我们发现模型的表现显著提高。当每个问题允许提交 10,000 次时,即使没有任何测试时间选择策略,模型的得分也达到了 362.14——超过了金牌的门槛。
我们模拟了由 Codeforces 主办的编程竞赛,以展示该模型的编程技能。我们的评估严格遵循竞赛规则,并允许 10 次提交。GPT-4o 获得了 808 的 Elo 评分,处于人类竞争者的第 11 个百分位。而该模型远远超过了 GPT-4o 和 o1——它获得了 1807 的 Elo 评分,表现超过了 93% 的竞争者。
通过进一步的编程竞赛微调,o1 在 2024 年国际信息学奥林匹克中在竞赛规则下排名 49 个百分位。
人类偏好评估
除了考试和学术基准测试外,我们还评估了人类对 o1-preview 与 GPT-4o 在各个领域的开放性难题上的偏好。在该评估中,人类训练师看到经过匿名处理的 o1-preview 和 GPT-4o 对同一提示的响应,并投票选择他们更喜欢的响应。在推理密集型类别中,如数据分析、编码和数学,o1-preview 被大多数人类评估者偏好。在一些自然语言任务中,o1-preview 并不被偏这表明它并不适合所有的应用场景。
在能够从更好的推理中受益的领域,人们更喜欢 o1-preview。
安全性
链式推理为模型对齐和安全性提供了新的机会。我们发现,将模型行为的政策整合到推理模型的链式推理中,是有效地教授人类价值观和原则的方式。通过在上下文中教授模型我们的安全规则和如何推理这些规则,我们发现推理能力直接有助于模型的稳健性:o1-preview 在关键越狱评估和我们最难的内部安全评估中表现显著改善。我们相信,使用链式推理可以为安全性和对齐带来重要进展,因为(1)它使我们能够以清晰的方式观察模型的思考过程,并且(2)模型对安全规则的推理在分布外情景中更加稳健。
为了测试这些改进,我们在部署前进行了安全测试和红队攻击测试,并依据我们的准备框架(将在新窗口中打开)进行了测试。我们发现链式推理在所有评估中都带来了能力上的提升。特别值得注意的是,我们观察到了一些有趣的奖励欺骗现象。详细的评估结果可以在附带的系统卡中找到。
隐藏的推理链
我们认为,隐藏的推理链为监控模型提供了独特的机会。假设它是可信的且可读的,隐藏的推理链使我们能够读取模型的思维,并理解它的思维过程。例如,未来我们可能希望监控推理链,以察觉其是否存在操纵用户的迹象。要实现这一目标,模型必须有自由表达其未经修改的想法,因此我们不能在推理链上训练任何政策合规性或用户偏好。我们也不希望让未对齐的推理链直接向用户显示。
因此,经过权衡用户体验、竞争优势和推理链监控选项后,我们决定不向用户展示原始推理链。我们承认这个决定有其缺点。我们努力通过教导模型在答案中重现推理链中的有用想法来部分弥补这一点。对于 o1 模型系列,我们展示了模型生成的推理链摘要。
结论
o1 在 AI 推理能力上显著提升了当前技术水平。随着我们的不断迭代,我们计划发布改进版本的模型。我们预计这些新的推理能力将提高我们将模型与人类价值观和原则对齐的能力。我们相信,o1 及其继任者将为 AI 在科学、编程、数学及相关