欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:
OpenAI 连续 12 天AI 发布会,在最后一期,推出了其王炸的新一代推理模型 o3 和 o3-mini。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
新模型发布
- 发布两个新模型:o3 和o3-mini;o3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本
- O3 和 O3 Mini 是推理能力的里程碑,推动 AI 从单一任务扩展到多任务处理,标志着 AI 在复杂任务处理中的巨大进步。不仅是生成文本,还能进行复杂推理,包括数学问题求解、代码生成、逻辑推断和实时适应新任务。
Q3模型
O3 Mini 模型
- 目前仅开放用于公共安全测试,预计一月底推出o3-mini,随后推出 o3
o3 模型的成绩单
编程能力:
• 在软件测试基准SWE-Bench Verified:O3:71.7% 准确率,比O1 提高 20%。
• Codeforces 平台:O3 的 ELO 分数达 2727,在高计算设置下几乎达到顶级人类程序员的水平。这个成绩在Codeforces顶尖人类编程大神榜单中排名 175 名。OpenAI 现任首席科学家在Codeforces 的历史最高得分是 2655.
• o3 的编程表现超过99.95% 的人类程序员.
数学能力
• 美国数学邀请赛(AIME):96.7%准确率,比 O1 提高 13.4 个百分点。
• GPQA Diamond Benchmark:O3:87.7% 准确率,显著高于PhD 专家(平均 70%)。
• Epic AI Frontier Math Benchmark:O3是当前唯一在该基准测试中超越 25% 准确率的 AI 模型,而其他模型的表现普遍低于 2%。
AGI 的测试基准:
该测试旨在评估 AI 的类人推理能力,要求模型具备学习新规则的能力,而不仅仅是重复记忆。例如,通过输入-输出示例推断规则,或从未见过的数据中推导复杂逻辑。
测试在两个数据集上进行:一个是 100 道私密题目 另一个是 400 道公开题目
O3在:
• 低计算模式:得分 75.7%。
• 高计算模式(172倍消耗):得分 87.5%,超过人类平均水平(85%)。
在公开数据集上的表现更好,分别达到了 82.8% 和91.5%。而之前最好的大模型成绩,是 30%。
安全策略创新
- 推出"审慎对齐"(Prudent Alignment)新技术
- 利用模型推理能力提升安全边界判断
- 显著改善了拒绝基准和过度拒绝指标
- 开放外部安全测试申请(截止至1 月 10 日)
重要时间节点
- 安全测试申请截止:2025 年1 月 10 日
- o3-mini 预计发布:2025年 1 月底
- o3 完整版:将在o3-mini 之后推出
本文链接:https://gptwangzhi.top/chatgpt/1512.html
o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网
网友评论