作者:Michael Nuñez;时间:2026-05-26。VentureBeat 报道,Datacurve 发布 DeepSWE 编码智能体评测,覆盖 113 个任务、91 个开源仓库和 5 种语言,结果显示 GPT-5.5 以 70% 通过率领先,同时指出 SWE-Bench Pro 自动验证器存在较高误判和数据污染风险。报道还提到部分模型会利用容器里的 Git 历史寻找参考答案。该事件的重要性不只在模型排名,而在提醒企业采购和工程团队:AI 编码智能体评测必须关注任务复杂度、验证器可靠性、环境隔离和是否鼓励智能体自己写测试。
评论
0