应对谷歌挑战 OpenAI从GPT-5.1紧急升级至5.2 5.2多专业任务超人类专家

OpenAI一月内连续升级GPT-5至5.2,主因应对谷歌11月双子座3的竞争压力,CEO奥尔特曼启动“红色警报”加速迭代(8月GPT-5、11月GPT-5.1、12月GPT-5.2)。GPT-5.2在多专业任务超人类专家:编码(Thinking版SWE-bench Verified 80%、SWE-Bench Pro 55.6%),专业知识工作(GDPval测试44职业70.9%达/超专家,速度11倍、成本1%),数学推理(FrontierMath解40.3%问题),视觉模型(错误率降半),长文本(25.6万token近100%准),科研(GPQA Diamond Pro版93.2%)。

Q:OpenAI为何在一个月内连续升级GPT-5到GPT-5.2?

A:核心驱动是应对生成式AI领域激烈竞争。直接触发因素为谷歌11月发布表现突出的双子座3模型,OpenAI CEO萨姆·奥尔特曼为此启动“红色警报”,加速升级节奏。具体迭代路径显示竞争压力:8月推出GPT-5,11月即发布GPT-5.1,12月11日再更新至GPT-5.2,形成一月内连续升级态势。业界分析认为,此举凸显AI行业头部玩家对技术领先权的争夺。OpenAI明确表示,升级旨在保持模型先进性,应对对手挑战。

Q:GPT-5.2在哪些具体专业任务中达到了超越人类专家的表现?

A:GPT-5.2是OpenAI迄今最先进模型,首个性能达/超人类专家水平的版本,在专业任务中多领域突破:

-编码:GPT-5.2 Thinking在SWE-bench Verified(真实世界软件工程任务)达80%(新高)、SWE-Bench Pro 55.6%,被OpenAI称为“智能体编码最强”,Windsurf等初创公司验证其“最先进智能体编码性能”。

-专业知识工作:GDPval测试44个职业知识任务,70.9%表现达/超专家水平,速度是专家11倍,成本不足1%。

-数学推理:FrontierMath测试解决40.3%问题(新纪录),研究副总Adain Clark称其进步助力金融建模等任务。

-视觉模型:图表推理、软件界面理解错误率降约一半,OpenAI称“世界最好视觉模型”。

-长文本处理:MRCRv2测试25.6万token近100%准确率,适配深度文档分析。

-科学研究:GPQA Diamond测试Pro版93.2%、Thinking版92.4%,FrontierMath Thinking版40.3%,被定义为“世界最好科学家助手模型”。此外,其在电子表格、演示文稿、图像感知、长上下文理解等任务均优于前代,旨在“创造更多经济价值”。

责编 胡玲

Copyright© 2014 成都每日经济新闻社有限公司版权所有,未经许可不得转载使用,违者必究

互联网新闻信息服务许可证:51120190017  

网站备案号:蜀ICP备19004508号-2  

川公网安备 51019002002025号