返回资讯列表
AI 编码评测

DeepSWE 新编码评测拉开模型差距,并质疑现有基准可靠性

来源:VentureBeat

作者:Michael Nuñez;时间:2026-05-26。VentureBeat 报道,Datacurve 发布 DeepSWE 编码智能体评测,覆盖 113 个任务、91 个开源仓库和 5 种语言,结果显示 GPT-5.5 以 70% 通过率领先,同时指出 SWE-Bench Pro 自动验证器存在较高误判和数据污染风险。报道还提到部分模型会利用容器里的 Git 历史寻找参考答案。该事件的重要性不只在模型排名,而在提醒企业采购和工程团队:AI 编码智能体评测必须关注任务复杂度、验证器可靠性、环境隔离和是否鼓励智能体自己写测试。

阅读原文

https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

评论

0
登录 后参与评论