GPT-5.2 在竞赛数学中达到 100% 准确率,在实际编程任务中达到 80%,并首次在专业知识工作中击败人类专家。

OpenAI 发布 GPT-5.2:首个超越行业专业人士的 AI

OpenAI 刚刚发布了 GPT-5.2,其基准测试结果令人震惊。这不仅仅是又一次渐进式更新。这是有史以来第一次,一个 AI 模型在实际知识工作中持续击败人类行业专业人士。

基准测试数据不言自明

看看 ARC-AGI-2 的飞跃。从 17.6% 到 52.9%。这是真正抽象推理能力在一代之间实现的 3 倍提升。

在 GDPval 这个衡量 44 个职业实际专业任务的基准测试中,GPT-5.2 Thinking 在 70.9% 的情况下击败或持平顶级行业专业人士。我们说的是制作演示文稿、构建电子表格、撰写报告,这些人们拿六位数薪水做的工作。

一位评审输出结果的评委表示,这些成果「看起来像是由一家拥有员工的专业公司完成的」。这不是打字错误。AI 的输出被误认为是整个团队的工作成果。

而且关键是:GPT-5.2 产出这些结果的速度是专家的 11 倍,成本不到专家的 1%。

GPT-5.2 Thinking 在 AIME 2025 上获得 100% 的成绩,这是一项让大多数人类都感到困难的著名数学竞赛。不是 99%。不是 98%。满分。

在 FrontierMath 上,这个测试连博士数学家都感到吃力的专家级数学,它达到了 40.3%,高于 GPT-5.1 的 31%。

在 SWE-Bench Verified 上 80% 的得分意味着 GPT-5.2 可以可靠地调试生产代码、实现功能,并在最少人工干预的情况下重构大型代码库。SWE-Bench Pro 测试四种编程语言的实际软件工程能力,而不仅仅是 Python。

来自 Windsurf、JetBrains 和 Warp 的早期测试者称其为「自 GPT-5 以来 GPT 模型在智能编程方面的最大飞跃」。

这一点对于专业使用 AI 的任何人都很重要。与 GPT-5.1 相比,GPT-5.2 Thinking 产生错误响应的情况减少了 30%。对于研究、分析和决策制定来说,这是可靠性的巨大提升。

GPT-5.2 是第一个在长达 256k tokens 的长上下文任务中实现接近 100% 准确率的模型。这意味着你可以向它输入整个代码库、合同、研究论文或记录,它实际上能在所有内容中保持连贯性。

以前的模型会在中途失去重点。GPT-5.2 不会。

图表推理和软件界面理解的错误率大约减半。该模型现在可以准确解读仪表板、技术图表和屏幕截图,使其在视觉分析任务中真正有用。

如果你已经订阅了 ChatGPT Plus 或 Pro,GPT-5.2 正在推出。API 定价为每百万输入 tokens 1.75 美元,每百万输出 tokens 14 美元,缓存输入可享受 90% 折扣。

普通 ChatGPT Enterprise 用户已经报告每天节省 40-60 分钟。重度用户声称每周节省超过 10 小时。有了 GPT-5.2,这些数字只会继续上升。

GPT-5.2 不仅仅是更好。它正在跨越我们认为还需要数年才能达到的门槛。数学竞赛满分。在专业人士自己的工作中击败他们。接近完美的长上下文理解。

我们正在实时见证 AI 辅助与 AI 能力之间的差距正在缩小。