Copyright 2014-2025 观经济 版权所有 京ICP备20151973号-1
编程大考,全球顶尖LLM夺金,真无敌了?最难编码基准SWE-Bench Pro出世,汇集了平均超100行代码的难题。没想到,最能打的LLM纷纷溃败,GPT-5仅拿下23.3%高分。
继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。
ICPC,被公认为全球最具挑战的大学生编程竞赛之一。
OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?

最新一项基准测试,直接打脸了全世界的顶尖模型。

它就是SWE-Bench Pro,专为评估AI编程智能体而生的新一代基准测试,直面真实企业级工程任务。
相较于前代SWE-Bench,Pro版本升级带来了三大突破:
-
任务难度全面提升
-
抗数据污染能力更强
-
无限逼近真实代码库

这一版,堪称编码中的「最后人类考试」。在实际测试(公开集)中,顶尖模型几乎溃败。
GPT-5虽拿下了第一,但成绩仅有23.3%,Claude Opus 4.1以22.7%得分位居第二。
其他模型更是没有一个能打的,得分全部低于15%。

这意味着,在更贴近真实世界的编程任务中,LLM的长程编码能力仍是短板。
最新21页技术论文,详细公开了SWE-Bench Pro设计细节。
