OpenAI悄然发布了它的额最新模型Openai-o1,包含o1-preview和o1-mini,简直像是给AI圈扔了一颗深水炸弹,让大家对AI的期待值瞬间飙升,而且,性能上听说相当能打。
可以说这个模型让大家期待已久,虽然说并不是期待中的GPT 5模型,但其能力也是让人跃跃欲试。
相比于之前的模型,这些新模型在响应前会花费更多时间思考,在科学、编码、数学等领域都有出色表现,据官方介绍,其推理性能远超 GPT-4o,在多项基准测试中都能超越人类专家的水平。
目前国内可以用GPT-模型的Chatgpt平台并不多,因为openai对此模型做出了限制。
这里推荐一个可以使用GPT-o1模型的平台:支持GPT-3.5、GPT-4.0、GPT-4o、claude-3-opus、sonnet、haiku系列模型、以及最新的GPT-o1-preview和o1-mini(官方介绍中此为OpenAI o1 系列不属于GPT系列中的模型):
Openai-o1使用地址:https://gpt.fxwc.net
刚对接目前这还没有对这两个模型的性能做出测试,如有需要,可以自行测试。
GPT-O1模型官方介绍地址:https://openai.com/index/introducing-openai-o1-preview/
现在每周发送消息次数限制为o1-preview 30条消息和o1-mini 50条消息,这极低的并发相当的苛刻,感觉像是赶鸭子上架的产品,这也是很多人没办法使用GPT-o1系列模型的原因,现在每周发送消息次数限制为o1-preview 30条消息和o1-mini 50条消息,这极低的并发相当的苛刻,感觉像是赶鸭子上架的产品,这也是很多人没办法使用GPT-o1系列模型的原因。
另外一个原因是这个系列的模型很多参数和GPT系列不同,不支持支持stream和max_tokens,所以很多网页版Chatgpt还需要调试,不够根据官方介绍,相信很快就会提模型的限制。
OpenAI发布的这个主要产品代号为Strawberry的生成式AI模型,更准确地说,o1实际上是一系列模型,ChatGPT和OpenAI的API中将提供两个模型:o1-preview和o1-mini,后者是一个更小、更高效的模型,旨在生成代码。
o1聊天机器人体验目前相当简陋,与o1的前身GPT-4o不同,o1尚无法浏览网页或分析文件,该模型确实具有图像分析功能,但这些功能已被禁用,等待进一步测试。
而且在费用方面,o1模型很贵,非常昂贵,在API中,o1-preview每100万个输入令牌收费15美元,每100万个输出令牌收费60美元。与GPT-4o相比,输入成本是其3倍,输出成本是其4倍。(令牌是原始数据位;100万个令牌相当于大约75万个单词。)
OpenAI介绍中说,O1与其他生成式AI模型相比,有一个关键区别,那就是它能够在回答问题之前进行深度思考。
当O1有更多时间进行思考时,它可以更全面地推理任务,提前规划并执行一系列复杂的操作,从而得出答案。
这种能力使O1非常适合需要整合多个子任务的任务,比如检测律师收件箱中的特权邮件,或是头脑风暴制定产品营销策略。
OpenAI采用了一种全新的优化算法和训练数据集,其中包含专门为推理任务设计的推理数据和科学文献,思考的时间越长,模型表现得越好。
另外还接受了强化学习训练,这让系统学会了在通过私人推理链作出反应之前思考,O1在答对时会得到奖励,答错时则会受到惩罚。
所以它在处理更复杂,多方面的分析时表现会非常在一个国际数学奥林匹克(IMO)资格考试中的正确率达到了83%,而GPT-4o仅为13%,虽然谷歌DeepMind的AI在正式IMO竞赛中赢得了银牌,这让O1的成绩显得稍逊一筹,但在编程挑战赛Codeforces中,O1的表现则相当亮眼,达到了第89百分位,超过了DeepMind的旗舰系统AlphaCode。
O1在数据分析、科学和编码问题上表现更为出色,GitHub用其AI编码助手GitHub Copilot对O1进行了测试,结果显示该模型在优化算法和应用代码方面表现优异,至少根据OpenAI的基准测试,O1在多语言处理能力上也比GPT-4o有所提升,尤其在阿拉伯语和韩语等语言方面表现尤为突出。
不过现在O1也并不完美,第一,O1的响应速度可能比其他模型慢,具体取决于查询的复杂性,有时需要10秒以上才能回答某些问题。
由于生成式AI模型的不可预测性,O1也可能会有其他缺陷和局限性,O1有时会在简单的井字游戏中出错,OpenAI在一篇技术论文中提到,一些测试人员的反馈显示,O1比GPT-4o更容易产生幻觉(即自信地编造信息),而且当模型没有正确答案时,往往很少承认自己不知道。
© 版权声明
文章版权归作者所有,未经允许请勿转载。