数据路径:/storage/openpsi/users/miumiu.zwh/swe-traj-analysis/eval-records/qwen3.6-27b-verified-full/ 生成时间:2026-04-24 图表脚本:report/make_figures.py(读取 /tmp/p
Ciallo~(∠・ω< )⌒★ 博士,我赞同你的判断:PASTE 的核心 insight 很可能是对的,但它现在的“知识形态”太浅了。它把 agentic tool-use trace 当成“工具调用字符串 + 少量参数搬运规则”来挖,而不是当成一个有语义状态、类型化资源、数据依赖、side-ef
0. 文档用途与 Schema 版本 本文档把 SWE-bench eval 管线里所有分析指标做成一张可导航的表,每项标注:字段路径、中文含义、聚合方式、对齐到 plan.md 的哪张图/哪个实验、已知缺陷。 v0.2 (taco-swe-v0.2):由 src/analysis/build_tr
一句话总结:这篇论文不是在直接“提升代码 Agent 的做题能力”,而是在解决另一个同样重要的问题:当代码 Agent 失败时,我们能不能系统地找出它到底是从哪一步开始做错的,以及这条错误链条是怎样一路传导到最终失败的。 1. 这篇论文在讲什么? 如果把一个 code agent 想成“会自己查代码
swe轨迹分析 CodeTracer: Towards Traceable Agent States https://arxiv.org/pdf/2604.11641v2 Understanding Software Engineering Agents: A Study of Thought-Ac
0. 一句话总结 这篇论文的核心结论是:很多 code agent 失败,并不是因为完全没找到问题代码,而是因为虽然找到了大致位置,却在更细粒度的推理、修改和回退上出了问题。 另外,失败轨迹通常更长、更发散,说明“不会停损”的 agent 会浪费大量计算。(arXiv) 1. 背景:这篇论文为什么重
记录一些理解比较模糊的配置的理解,后面有完整的gsm8k_grpo配置示例。 enable_offload :是否开启参数卸载到CPU 启用 torch_memory_saver (TMS) 进行训练时的显存卸载。开启后,模型参数在不参与计算时会被卸载到 CPU 内存,只在前向/反向传播前按需加载回
Benchmark SWE-bench: Can Language Models Resolve Real-World GitHub Issues? swe-bench的起点 https://arxiv.org/pdf/2310.06770 SWE-bench Verified https://ww
0. 一句话先说清楚 这篇论文的核心想法是:不要只训练模型“写代码”,还要专门训练它“自己出测试、自己验证、再自己修改”。作者认为,很多推理任务里“检查对不对”比“直接做对”更容易,所以如果把“验证能力”也认真训练起来,它就能在测试时一轮轮靠验证信号把答案越改越好。(arXiv) 1. 背景:这篇论