Snorkel AI于2026年7月2日发布了Senior SWE-Bench开源基准测试,用于评估AI编程代理是否能像高级软件工程师一样解决复杂的真实世界编码任务。该基准在Hacker News上获得67分和57条评论的热烈讨论。
评论
0