应对谷歌挑战 OpenAI从GPT-5.1紧急升级至5.2 5.2多专业任务超人类专家

2025年12月12日 20:38

OpenAI一月内连续升级GPT-5至5.2，主因应对谷歌11月双子座3的竞争压力，CEO奥尔特曼启动“红色警报”加速迭代（8月GPT-5、11月GPT-5.1、12月GPT-5.2）。GPT-5.2在多专业任务超人类专家：编码（Thinking版SWE-bench Verified 80%、SWE-Bench Pro 55.6%），专业知识工作（GDPval测试44职业70.9%达/超专家，速度11倍、成本1%），数学推理（FrontierMath解40.3%问题），视觉模型（错误率降半），长文本（25.6万token近100%准），科研（GPQA Diamond Pro版93.2%）。

Q:OpenAI为何在一个月内连续升级GPT-5到GPT-5.2？

A:核心驱动是应对生成式AI领域激烈竞争。直接触发因素为谷歌11月发布表现突出的双子座3模型，OpenAI CEO萨姆·奥尔特曼为此启动“红色警报”，加速升级节奏。具体迭代路径显示竞争压力：8月推出GPT-5，11月即发布GPT-5.1，12月11日再更新至GPT-5.2，形成一月内连续升级态势。业界分析认为，此举凸显AI行业头部玩家对技术领先权的争夺。OpenAI明确表示，升级旨在保持模型先进性，应对对手挑战。

Q:GPT-5.2在哪些具体专业任务中达到了超越人类专家的表现？

A:GPT-5.2是OpenAI迄今最先进模型，首个性能达/超人类专家水平的版本，在专业任务中多领域突破：

-编码：GPT-5.2 Thinking在SWE-bench Verified（真实世界软件工程任务）达80%（新高）、SWE-Bench Pro 55.6%，被OpenAI称为“智能体编码最强”，Windsurf等初创公司验证其“最先进智能体编码性能”。

-专业知识工作：GDPval测试44个职业知识任务，70.9%表现达/超专家水平，速度是专家11倍，成本不足1%。

-数学推理：FrontierMath测试解决40.3%问题（新纪录），研究副总Adain Clark称其进步助力金融建模等任务。

-视觉模型：图表推理、软件界面理解错误率降约一半，OpenAI称“世界最好视觉模型”。

-长文本处理：MRCRv2测试25.6万token近100%准确率，适配深度文档分析。

-科学研究：GPQA Diamond测试Pro版93.2%、Thinking版92.4%，FrontierMath Thinking版40.3%，被定义为“世界最好科学家助手模型”。此外，其在电子表格、演示文稿、图像感知、长上下文理解等任务均优于前代，旨在“创造更多经济价值”。

责编胡玲

每经头条