OpenAI发布o1-mini：专注STEM推理的高效模型

OpenAI发布了o1-mini模型，这是一款成本高效的推理模型，o1-mini 在 STEM 领域，尤其是数学和编程方面表现出色——在评估基准如 AIME 和 Codeforces 上，其表现几乎与 OpenAI o1 相当。我们预计 o1-mini 将成为需要推理能力但不依赖广泛世界知识的应用程序的快速、经济选择。

今天，我们向第 5 级 API 用户（将在新窗口中打开）推出了 o1-mini，成本比 OpenAI o1-preview 低 80%。ChatGPT Plus、团队、企业和教育用户可以将 o1-mini 作为 o1-preview 的替代品，享受更高的速率限制和更低的延迟（请参阅模型速度）。

数学性能与推理成本

针对 STEM 推理的优化

像 o1 这样的大型语言模型经过海量文本数据的预训练。虽然这些高容量模型具备广泛的世界知识，但对于实际应用而言，它们可能成本高昂且速度较慢。相比之下，o1-mini 是在预训练过程中专门为 STEM 推理优化的小型模型。在经过与 o1 相同的高算力强化学习（RL）训练后，o1-mini 在许多有用的推理任务上实现了可比的表现，同时大大提高了成本效率。

在需要智能和推理能力的基准测试中，o1-mini 表现优异，能够与 o1-preview 和 o1 媲美。在需要非 STEM 事实性知识的任务上，o1-mini 表现稍差（请参阅局限性）。

数学：在高中 AIME 数学竞赛中，o1-mini（70.0%）与 o1（74.4%）的表现接近，但成本更低，且优于 o1-preview（44.6%）。o1-mini 的得分（大约 11/15 题）让它位列美国大约前 500 名高中生。
编程：在 Codeforces 编程竞赛网站上，o1-mini 达到了 1650 Elo 分数，接近 o1（1673），并且高于 o1-preview（1258）。该 Elo 分数使模型处于 Codeforces 平台上约 86% 的程序员之上。o1-mini 在 HumanEval 编程基准测试和高中级别的网络安全 Capture The Flag 挑战赛（CTF）中也表现出色。
编码能力
人力评估
网络安全 CTF
STEM：在一些需要推理的学术基准测试中，如 GPQA（科学）和 MATH-500，o1-mini 的表现优于 GPT-4o。由于缺乏广泛的世界知识，o1-mini 在 MMLU 任务上的表现不如 GPT-4o，并且在 GPQA 任务上落后于 o1-preview。
莫尔登大学
GPQA
MATH-500
人类偏好评估：我们邀请了人工评估者使用与 o1-preview 对比 GPT-4o 相同的方法，比较了 o1-mini 和 GPT-4o 在各个领域的开放性挑战问题上的表现。与 o1-preview 类似，o1-mini 在推理密集的领域被偏但在语言集中型领域中不如 GPT-4o 受欢迎。
人类偏好评估 vs chatgpt-4o-latest

模型速度

以一个词汇推理问题为例，我们比较了 GPT-4o、o1-mini 和 o1-preview 的响应。虽然 GPT-4o 未能正确回答，但 o1-mini 和 o1-preview 都得出了正确答案，且 o1-mini 的速度是 GPT-4o 的 3 到 5 倍。

GPT-4o、o1-mini 和 o1-preview

安全性

o1-mini 使用与 o1-preview 相同的对齐和安全技术进行训练。与 GPT-4o 相比，该模型在内部版本的 StrongREJECT 数据集上的越狱鲁棒性高出 59%。在部署之前，我们使用与 o1-preview 相同的准备方法、外部安全测试和安全评估，仔细评估了 o1-mini 的安全风险。我们将发布这些评估的详细结果，并附有系统卡片。

公制	GPT-4o	o1-mini
% 有害提示下的安全完成拒绝率（标准）	0.99	0.99
% 有害提示的安全完成率（挑战：越狱和极端情况）	0.714	0.932
% 良性边缘情况的遵守情况（不过分拒绝）	0.91	0.923
Goodness@0.1 StrongREJECT 越狱评估 ( Souly 等人 2024（在新窗口中打开））	0.22	0.83
人工越狱评估	0.77	0.95

局限性与未来展望

由于专注于 STEM 推理能力，o1-mini 在日期、传记和琐事等非 STEM 主题上的事实性知识与小型 LLM（如 GPT-4o mini）相当。我们将在未来版本中改进这些局限性，并尝试扩展模型到 STEM 以外的其他领域和专长。

上文来自openai官网直译。

# 科技 # chatgpt # o1-mini # o1-preview # openai # Openai-o1 # 人工智能

文章版权归作者所有，未经允许请勿转载。

OpenAI发布o1-mini：专注STEM推理的高效模型

针对 STEM 推理的优化

模型速度

安全性

局限性与未来展望

分享一个可以在国内使用Openai-o1 系列模型的平台

OpenAI o1模型发布：突破性AI推理能力，利用法学硕士 (LLM) 学习推理

相关文章