OpenAI发布了o1-mini模型,这是一款成本高效的推理模型,o1-mini 在 STEM 领域,尤其是数学和编程方面表现出色——在评估基准如 AIME 和 Codeforces 上,其表现几乎与 OpenAI o1 相当。我们预计 o1-mini 将成为需要推理能力但不依赖广泛世界知识的应用程序的快速、经济选择。
今天,我们向第 5 级 API 用户(将在新窗口中打开)推出了 o1-mini,成本比 OpenAI o1-preview 低 80%。ChatGPT Plus、团队、企业和教育用户可以将 o1-mini 作为 o1-preview 的替代品,享受更高的速率限制和更低的延迟(请参阅模型速度)。
针对 STEM 推理的优化
像 o1 这样的大型语言模型经过海量文本数据的预训练。虽然这些高容量模型具备广泛的世界知识,但对于实际应用而言,它们可能成本高昂且速度较慢。相比之下,o1-mini 是在预训练过程中专门为 STEM 推理优化的小型模型。在经过与 o1 相同的高算力强化学习(RL)训练后,o1-mini 在许多有用的推理任务上实现了可比的表现,同时大大提高了成本效率。
在需要智能和推理能力的基准测试中,o1-mini 表现优异,能够与 o1-preview 和 o1 媲美。在需要非 STEM 事实性知识的任务上,o1-mini 表现稍差(请参阅局限性)。
- 数学:在高中 AIME 数学竞赛中,o1-mini(70.0%)与 o1(74.4%)的表现接近,但成本更低,且优于 o1-preview(44.6%)。o1-mini 的得分(大约 11/15 题)让它位列美国大约前 500 名高中生。
- 编程:在 Codeforces 编程竞赛网站上,o1-mini 达到了 1650 Elo 分数,接近 o1(1673),并且高于 o1-preview(1258)。该 Elo 分数使模型处于 Codeforces 平台上约 86% 的程序员之上。o1-mini 在 HumanEval 编程基准测试和高中级别的网络安全 Capture The Flag 挑战赛(CTF)中也表现出色。
- STEM:在一些需要推理的学术基准测试中,如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o。由于缺乏广泛的世界知识,o1-mini 在 MMLU 任务上的表现不如 GPT-4o,并且在 GPQA 任务上落后于 o1-preview。
- 人类偏好评估:我们邀请了人工评估者使用与 o1-preview 对比 GPT-4o 相同的方法,比较了 o1-mini 和 GPT-4o 在各个领域的开放性挑战问题上的表现。与 o1-preview 类似,o1-mini 在推理密集的领域被偏但在语言集中型领域中不如 GPT-4o 受欢迎。
模型速度
以一个词汇推理问题为例,我们比较了 GPT-4o、o1-mini 和 o1-preview 的响应。虽然 GPT-4o 未能正确回答,但 o1-mini 和 o1-preview 都得出了正确答案,且 o1-mini 的速度是 GPT-4o 的 3 到 5 倍。
安全性
o1-mini 使用与 o1-preview 相同的对齐和安全技术进行训练。与 GPT-4o 相比,该模型在内部版本的 StrongREJECT 数据集上的越狱鲁棒性高出 59%。在部署之前,我们使用与 o1-preview 相同的准备方法、外部安全测试和安全评估,仔细评估了 o1-mini 的安全风险。我们将发布这些评估的详细结果,并附有系统卡片。
公制 | GPT-4o | o1-mini |
---|---|---|
% 有害提示下的安全完成拒绝率(标准) | 0.99 | 0.99 |
% 有害提示的安全完成率(挑战:越狱和极端情况) | 0.714 | 0.932 |
% 良性边缘情况的遵守情况(不过分拒绝) | 0.91 | 0.923 |
Goodness@0.1 StrongREJECT 越狱评估 ( Souly 等人 2024) | 0.22 | 0.83 |
人工越狱评估 | 0.77 | 0.95 |
局限性与未来展望
由于专注于 STEM 推理能力,o1-mini 在日期、传记和琐事等非 STEM 主题上的事实性知识与小型 LLM(如 GPT-4o mini)相当。我们将在未来版本中改进这些局限性,并尝试扩展模型到 STEM 以外的其他领域和专长。
上文来自openai官网直译。