編程大考,全球頂尖LLM奪金,真無(wú)敵了?最難編碼基準(zhǔn)SWE-Bench Pro出世,匯集了平均超100行代碼的難題。沒想到,最能打的LLM紛紛潰敗,GPT-5僅拿下23.3%高分。
繼IMO 2025登頂后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。
ICPC,被公認(rèn)為全球最具挑戰(zhàn)的大學(xué)生編程競(jìng)賽之一。
OpenAI和谷歌不僅解決了全部12題,還在人類選手中位列第一,難道AI編程真能所向披靡了嗎?

最新一項(xiàng)基準(zhǔn)測(cè)試,直接打臉了全世界的頂尖模型。

它就是SWE-Bench Pro,專為評(píng)估AI編程智能體而生的新一代基準(zhǔn)測(cè)試,直面真實(shí)企業(yè)級(jí)工程任務(wù)。
相較于前代SWE-Bench,Pro版本升級(jí)帶來(lái)了三大突破:
-
任務(wù)難度全面提升
-
抗數(shù)據(jù)污染能力更強(qiáng)
-
無(wú)限逼近真實(shí)代碼庫(kù)

這一版,堪稱編碼中的「最后人類考試」。在實(shí)際測(cè)試(公開集)中,頂尖模型幾乎潰敗。
GPT-5雖拿下了第一,但成績(jī)僅有23.3%,Claude Opus 4.1以22.7%得分位居第二。
其他模型更是沒有一個(gè)能打的,得分全部低于15%。

這意味著,在更貼近真實(shí)世界的編程任務(wù)中,LLM的長(zhǎng)程編碼能力仍是短板。
最新21頁(yè)技術(shù)論文,詳細(xì)公開了SWE-Bench Pro設(shè)計(jì)細(xì)節(jié)。
