登录

首页 > 今日新闻 > GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

发布时间：2025-09-23 09:39:21

编程大考，全球顶尖LLM夺金，真无敌了？最难编码基准SWE-Bench Pro出世，汇集了平均超100行代码的难题。没想到，最能打的LLM纷纷溃败，GPT-5仅拿下23.3%高分。

继IMO 2025登顶后，谷歌、OpenAI的模型，再一次拿下了ICPC金牌。

ICPC，被公认为全球最具挑战的大学生编程竞赛之一。

OpenAI和谷歌不仅解决了全部12题，还在人类选手中位列第一，难道AI编程真能所向披靡了吗？

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

最新一项基准测试，直接打脸了全世界的顶尖模型。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

它就是SWE-Bench Pro，专为评估AI编程智能体而生的新一代基准测试，直面真实企业级工程任务。

相较于前代SWE-Bench，Pro版本升级带来了三大突破：

任务难度全面提升
抗数据污染能力更强
无限逼近真实代码库

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

这一版，堪称编码中的「最后人类考试」。在实际测试（公开集）中，顶尖模型几乎溃败。

GPT-5虽拿下了第一，但成绩仅有23.3%，Claude Opus 4.1以22.7%得分位居第二。

其他模型更是没有一个能打的，得分全部低于15%。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

这意味着，在更贴近真实世界的编程任务中，LLM的长程编码能力仍是短板。

最新21页技术论文，详细公开了SWE-Bench Pro设计细节。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“观经济用户上传并发布"，本平台仅提供信息存储服务。

下一篇:重磅！英伟达1000亿美元投资OpenAI，奥特曼爆买500万块GPU

上一篇:阿里速卖通转移战略重心，要和亚马逊在全球抢夺头部品牌

今日新闻更多>>

黑客挖出苹果隐藏硬件！你的MacBook里有加速计/陀螺仪刚刚，宇树发布马年首个重磅机器人新品，小身板扛起200斤大汉这个春节，AI 不聊天了，开始替我买单刚刚，Seedream 5.0上线！字节又一新模型他在戈壁滩上，为全球算力退烧马斯克“点火”，重估中国光伏？｜行业风向标 2026，巨头大战AI教育穹彻智能完成A轮数亿元融资

房产家居更多>>

敦泰电子：引领车用显示触控技术发展，助力智能座舱时代当汽车“卷”向天空：小鹏汇天、峰飞、广汽等携eVTOL首次亮相上海车展 | 车展新势力国补倒计时！轩逸家族年末大促，幸福座驾触手可及！家用MPV选TA，长超5.2m，油耗5.27L，纯电能跑200km，比传祺M8省解放/陕汽/徐工斩千辆大单东风/宇通订单火爆重卡市场12月谁称霸宇通/中车斩千辆大单海格/金龙频现超百辆订单客车市场12月爆了？新能源车分体式大灯设计，投射出了行业变革的阴影车企“冲量战”打响，车是现在买还是等年后？

汽车频道更多>>

年检又有“新规定”？交警：6到15年内的车主注意，车友们知道吗 smart易寒：三个核心关键词既是品牌基石又启示未来走向 2025年春运拉开大幕高德地图同步启动“温暖回家路”春运出行服务以变革应对变革！2025年的吉利将变成什么样？捷豹XEL官降至18.98万，和前驱奥迪A4L相比值得选吗？魏牌全新蓝山荣获“五星＋” 坐实智能驾驶学霸无“名”亦出挑，坦克400 Hi4-T以“战损”之躯成功穿越道顿公路高锐和袁小华掌舵的广汽本田，是怎么变得越来越“不值钱”的

读书乐趣更多>>

国内车企开始不宣传智能驾驶：比谁的车更安全银河星耀8加推基础驾驶辅助版型预售价13.38万元起！ 12月MPV销量排行榜！五菱征程跃升第一，别克GL8位居第七福田汽车：瞅准新能源“大蛋糕”，能否独占鳌头？文能胜出武亦不输奥迪A7L力压宝马5系有法宝 70 万用户成为 “忠实粉丝团”，传祺的魅力远超想象 10.99万就能买新能源中型SUV？两种动力，奇瑞全新SUV将上市新势力1月第2周销量榜：小鹏理想争第一，蔚来意外跌出前十

电子产品更多>>

9月开启旗舰大战！高通骁龙8 Elite 2/联发科天玑9500提前发：硬刚苹果尊界S800内饰官图，完全就是超豪华的“老钱风” 新能源真的省钱吗？听我一句劝，1年开不到10000km，燃油车更划算上海车展观察：智驾进入“冷静期”，安全重回第一性零跑用盈利换信任，“小理想”的春天来了唐L尺寸空间够大有高阶智驾动力与无人机平台增添用车乐趣续航达成率超95%，埃安RT让你没有续航焦虑，出行又有面儿 3000万辆！中国首个！上汽通用五菱迎来新里程碑

财经播报更多>>

不学抖音学INS，OpenAI想站着把钱挣了华为WATCH 5评测：首款鸿蒙AI+麒麟+5G智能手表 2025必入之选自动落锁这么好的功能，却让部分车主头疼不已，买车时要注意福特够“野”！新F-150猛禽、烈马复古特别版首秀销量增长被指含水分，长安福特前景真有那么不堪？ 2024以高增长收官，2025喜迎开门红，一汽奔腾“火力全开”！从内卷中抽离，2024捷豹路虎用实力证明“精神链接”更可贵岚图李博晓：首发LFC新技术，做最适合东北用的电动车！

Copyright 2014-2025 观经济版权所有京ICP备20151973号-1