🍥

RanranranQAQ

无限进步.

首页
归档
暗色模式

2026.4.29汇报

qwen3.6 27B评测数据分析

数据路径:/storage/openpsi/users/miumiu.zwh/swe-traj-analysis/eval-records/qwen3.6-27b-verified-full/ 生成时间:2026-04-24 图表脚本:report/make_figures.py(读取 /tmp/p

Act While Thinking初步分析

Ciallo～(∠・ω< )⌒★ 博士，我赞同你的判断：PASTE 的核心 insight 很可能是对的，但它现在的“知识形态”太浅了。它把 agentic tool-use trace 当成“工具调用字符串 + 少量参数搬运规则”来挖，而不是当成一个有语义状态、类型化资源、数据依赖、side-ef

SWE Trajectory 分析指标文档

0. 文档用途与 Schema 版本本文档把 SWE-bench eval 管线里所有分析指标做成一张可导航的表，每项标注：字段路径、中文含义、聚合方式、对齐到 plan.md 的哪张图/哪个实验、已知缺陷。 v0.2 (taco-swe-v0.2)：由 src/analysis/build_tr

CodeTracer: Towards Traceable Agent States

一句话总结：这篇论文不是在直接“提升代码 Agent 的做题能力”，而是在解决另一个同样重要的问题：当代码 Agent 失败时，我们能不能系统地找出它到底是从哪一步开始做错的，以及这条错误链条是怎样一路传导到最终失败的。 1. 这篇论文在讲什么？如果把一个 code agent 想成“会自己查代码

轨迹分析论文list

swe轨迹分析 CodeTracer: Towards Traceable Agent States https://arxiv.org/pdf/2604.11641v2 Understanding Software Engineering Agents: A Study of Thought-Ac

agentic RL

Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories

0. 一句话总结这篇论文的核心结论是：很多 code agent 失败，并不是因为完全没找到问题代码，而是因为虽然找到了大致位置，却在更细粒度的推理、修改和回退上出了问题。另外，失败轨迹通常更长、更发散，说明“不会停损”的 agent 会浪费大量计算。(arXiv) 1. 背景：这篇论文为什么重

【AReaL】GRPO配置解析

记录一些理解比较模糊的配置的理解，后面有完整的gsm8k_grpo配置示例。 enable_offload ：是否开启参数卸载到CPU 启用 torch_memory_saver (TMS) 进行训练时的显存卸载。开启后，模型参数在不参与计算时会被卸载到 CPU 内存，只在前向/反向传播前按需加载回

SWE论文List

Benchmark SWE-bench: Can Language Models Resolve Real-World GitHub Issues? swe-bench的起点 https://arxiv.org/pdf/2310.06770 SWE-bench Verified https://ww

学术

ReVeal: Self-Evolving Code Agents via Reliable Self-Verification

0. 一句话先说清楚这篇论文的核心想法是：不要只训练模型“写代码”，还要专门训练它“自己出测试、自己验证、再自己修改”。作者认为，很多推理任务里“检查对不对”比“直接做对”更容易，所以如果把“验证能力”也认真训练起来，它就能在测试时一轮轮靠验证信号把答案越改越好。(arXiv) 1. 背景：这篇论