1. DDP 是什么 DDP,全称 DistributedDataParallel。 一句话理解: 多进程 + 多卡训练。每个进程负责一张 GPU,各自算自己的数据,反向传播时同步梯度。 2. DDP 和 DP 的区别 DP(DataParallel) 单进程控制多张卡 主卡压力大 通常更慢,现在不
一、DP 是什么 PyTorch 中的 DP,指的是 nn.DataParallel。它是一种最基础的数据并行方式,核心思想很简单: 把同一个模型复制到多张 GPU 上 把一个 batch 的输入数据沿着 batch 维切成几份 每张 GPU 用自己的模型副本处理自己那一份数据 最后把输出收集起来,
0. 一句话总结 这篇论文想解决一个很实际的问题:让 LLM Agent 在超长、多步任务里,知道“到底是哪几步真正有用”。作者提出了 HCAPO,让模型在任务结束后“事后复盘”,把最终结果倒推回中间动作,给关键动作更高 credit,给噪声动作更低 credit,从而比只看整条轨迹成败的做法更有效
1. 论文一句话总结 这篇论文想回答一个很直接的问题: 现在的代码智能体(coding agents)到底是怎么失败的? 作者没有先去改模型训练,而是先观察这些智能体在做真实软件修复任务时的行为轨迹(trajectory),总结出三类高频失败模式;然后设计了一个叫 Shepherd 的“裁判”,在测
论文pdf:https://arxiv.org/html/2603.29957v2 1. 这篇论文在讲什么? 一句话版: 这篇论文想解决一个很直观的问题:很多“会思考”的代码大模型,都是先想一大段,再开始写代码;但真实写代码时,难点往往会在写到一半才冒出来。于是作者提出:让模型可以在代码生成过程中的
buildroot下修复bluez依赖 参考https://github.com/LuckfoxTECH/luckfox-pico/issues/327 替换文件后重新编译,在buildroot目录下运行: make bluez5_utils-dirclean
make bluez5_utils
m
多轮长轨交互任务的agentic RL训练框架(3) RAGEN:Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning(preprint 查不到发哪了) https://github.com/
本章主要学习有关cuda中Block与Thread的关系,Thread间如何通信,以及Thread的同步问题。初步认识cuda如何解决大规模并行问题 CUDA执行层次结构:Grid、Block和Thread 下图表示了Grid,Block,Thread三种结构的递进关系,能俯瞰它们是如何协作处理任务
插值(Interpolation)与重心坐标(Barycentric Coordinates) 在图形渲染管线中,我们通常只知道三角形三个顶点的属性(如坐标、颜色、法线、纹理坐标等)。 但是,光栅化后的三角形内部包含成千上万个像素。为了算出三角形内部任意一点的属性,我们需要一种平滑过渡的方法 。 答