12月20日起CHATGPT允许安全研究人员可以注册访问o3 和 o3-mini的预览

chatGPT网址2024-12-23954

欢迎访问chatgpt中文教程网，学习chatgpt相关知识，以下是正文内容：

美国当地时间12月，在为期12个工作日的线上新品发布活动最后一日，OpenAI宣布了“压轴大作”：o1的下一代模型o3，而且一开始就要推出两个版本，一个正式的o3，还有一个相对较小的精简版o3-mini。

之所以直接发布o3没有o2，是因为与英国电信服务提供商O2可能存在版权或商标冲突，所以直接跳过了。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

o3模型在复杂任务处理上表现更为出色，尤其是在编程和数学计算方面，显示出显著的性能提升。

Open AI o3简介

OpenAI o3是OpenAI推出的全新升级的前沿AI模型，旨在解决一系列复杂任务中的推理和智能问题，它还有一个轻量级版本o3 mini.

性能表现

- 编程能力：在软件风格基准测试sweetbenchverified中，o3准确率高达71.7%，远超o1模型20%以上。在codeforces竞赛编码网站上，o3取得了约2727的elo分数，甚至超越了openai首席科学家的得分.

- 数学能力：在AIME 2024数学竞赛中，o3准确率达到96.7%，相比o1模型的83.3%有显著提升。在被视为当前最具挑战性的数学基准测试epicai'sfrontiermath中，o3在激进测试时间设置下，准确率超过25%，而此前行业内所有产品的准确率均低于2%.

- 科学问题处理能力：在衡量博士水平科学问题的gpqdiamond基准测试中，o3的准确率为87.7%，比o1模型高出约10%，接近专家博士的水平.

- 通用智能水平：在arcagi基准测试中，o3在低计算要求下，得分75.7%，在高计算要求下，得分更是高达87.5%，超越了人类85%的表现水平，成为迈向通用人工智能的重要里程碑.

特点与优势

- 强大的推理能力：能够以更逐步、更逻辑的方式提供响应，解决一些需要大量推理的复杂任务，如从有限示例中学习新技能等，这是传统模型难以做到的.

- 模型架构与技术创新：从o1到o3的迭代，展示了OpenAI在模型架构、训练方法和优化技术等方面的持续创新，为行业发展提供了宝贵经验.

应用场景

- 教育领域：作为学生的智能学习伙伴，帮助解答数学、科学等学科的难题，提供详细解题步骤和解释；还可协助教师生成教学材料、提供个性化教学建议.

- 科研领域：科研人员可利用o3对海量实验数据进行深入分析和挖掘，加速科研进程，还能提出新假设并初步验证，为科研创新提供思路和方向.

- 创意产业：为作家、编剧、艺术家等创意工作者激发创意灵感，生成故事梗概、角色设定、情节发展等创意元素，还可在设计领域生成初步设计方案和多种设计思路.

- 医疗健康领域：分析患者症状、病史、检查报告等信息，为医生提供诊断建议和参考，提高诊断准确性；结合可穿戴设备和健康监测数据，预测疾病风险，提供个性化健康管理建议。

Open AI o3 Vs o1

今年9月，OpenAI发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理在测试化学、物理和生物学专业知识的基准GPQA-diamond上得到了充分体现。据OpenAI评估，o1在该测试中全面超过了人类博士专家，准确率达到78.3%，而人类专家的得分为69.7%。

经过2024年AIME数学竞赛的题目测试，o3的准确度得分为96.7、即准确率96.7%，大幅度超过了o1预览版的56.7和o1的83.3%，仅错了一道题，相当于一名顶级数学家的水平。从竞赛数学的角度看，o3的准确率比o1正式版高15%，比o1预览版高近71%。

以人类博士专家的测试考验，在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o3的准确度得分为87.7，即准确率87.7%，o1和o1 preview分别得分78.0和78.3。o3的准确率比o1高将近13%，比o1预览版高12%。

OpenAI周五还展示了，o3的推理能力已经更加接近实现AGI。

以100%为最高分的ARC-AGI评估结果显示，o1的得分在25%到32%，而o3的最低成绩为75.7%，最高成绩为87.5%。从这个结果看，o3的最佳成绩超过了标志着达到人类水平的门槛85%。

OpenAI要放弃GPT，全力投入o系列了吗？

从今天的压轴发布来看，OpenAI正在经历一次重大的战略转向。

在近期的NeurIPS 2024大会上， OpenAI曾经的联合创始人Ilya Sutskever以《预训练时代终结》为题发表了演讲。Ilya预测，未来的AI系统将更加“agentic”。不仅仅是完成任务，更能通过推理能力像人类一样逐步解决问题。这种新范式可能是突破当前技术瓶颈的关键，也会带来更高的不确定性。

OpenAI从传统GPT大语言模型转向“o”系列推理模型，或许正是意识到仅依赖预训练的GPT模型已难以满足未来AI发展的需求。希望通过整合推理能力，为实现更高水平的智能寻找突破口。

除了OpenAI，类似的趋势也体现在竞争对手Google的布局中。其刚发布的Gemini 2.0 Flash Thinking被视为AI推理模型的开端，未来可能与主要语言模型深度整合。

各家技术公司的举措都表明，推理能力正成为行业发展的新焦点，而如何将其与通用大语言模型有机结合，可能是下一阶段AI竞争的核心方向。