DeepSWE 新编码评测拉开模型差距，并质疑现有基准可靠性

作者：Michael Nuñez；时间：2026-05-26。VentureBeat 报道，Datacurve 发布 DeepSWE 编码智能体评测，覆盖 113 个任务、91 个开源仓库和 5 种语言，结果显示 GPT-5.5 以 70% 通过率领先，同时指出 SWE-Bench Pro 自动验证器存在较高误判和数据污染风险。报道还提到部分模型会利用容器里的 Git 历史寻找参考答案。该事件的重要性不只在模型排名，而在提醒企业采购和工程团队：AI 编码智能体评测必须关注任务复杂度、验证器可靠性、环境隔离和是否鼓励智能体自己写测试。

评论