🍥

RanranranQAQ

无限进步.

首页
归档
暗色模式

Pytorch Distributed

【Pytorch Distributed】DDP初步

1. DDP 是什么 DDP，全称 DistributedDataParallel。一句话理解：多进程 + 多卡训练。每个进程负责一张 GPU，各自算自己的数据，反向传播时同步梯度。 2. DDP 和 DP 的区别 DP（DataParallel）单进程控制多张卡主卡压力大通常更慢，现在不

Pytorch Distributed

【Pytorch Distributed】DP初步

一、DP 是什么 PyTorch 中的 DP，指的是 nn.DataParallel。它是一种最基础的数据并行方式，核心思想很简单：把同一个模型复制到多张 GPU 上把一个 batch 的输入数据沿着 batch 维切成几份每张 GPU 用自己的模型副本处理自己那一份数据最后把输出收集起来，

学术

Hindsight Credit Assignment for Long-Horizon LLM Agents

0. 一句话总结这篇论文想解决一个很实际的问题：让 LLM Agent 在超长、多步任务里，知道“到底是哪几步真正有用”。作者提出了 HCAPO，让模型在任务结束后“事后复盘”，把最终结果倒推回中间动作，给关键动作更高 credit，给噪声动作更低 credit，从而比只看整条轨迹成败的做法更有效

SHEPHERD

1. 论文一句话总结这篇论文想回答一个很直接的问题：现在的代码智能体（coding agents）到底是怎么失败的？作者没有先去改模型训练，而是先观察这些智能体在做真实软件修复任务时的行为轨迹（trajectory），总结出三类高频失败模式；然后设计了一个叫 Shepherd 的“裁判”，在测

学术

Revisiting Chain of Thought in Code Generation

学术

Think Anywhere in Code Generation

论文pdf：https://arxiv.org/html/2603.29957v2 1. 这篇论文在讲什么？一句话版：这篇论文想解决一个很直观的问题：很多“会思考”的代码大模型，都是先想一大段，再开始写代码；但真实写代码时，难点往往会在写到一半才冒出来。于是作者提出：让模型可以在代码生成过程中的

RV1106蓝牙连接

buildroot下修复bluez依赖参考https://github.com/LuckfoxTECH/luckfox-pico/issues/327 替换文件后重新编译，在buildroot目录下运行： make bluez5_utils-dirclean make bluez5_utils m

Agentic RL

多轮长轨交互任务的agentic RL训练框架（3） RAGEN:Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning（preprint 查不到发哪了） https://github.com/

cuda

CUDA学习笔记：Block与 Thread协作

本章主要学习有关cuda中Block与Thread的关系，Thread间如何通信，以及Thread的同步问题。初步认识cuda如何解决大规模并行问题 CUDA执行层次结构：Grid、Block和Thread 下图表示了Grid,Block,Thread三种结构的递进关系，能俯瞰它们是如何协作处理任务

图形学

【GAMES101】lecture9 笔记：插值与texture mapping

插值(Interpolation)与重心坐标(Barycentric Coordinates) 在图形渲染管线中，我们通常只知道三角形三个顶点的属性（如坐标、颜色、法线、纹理坐标等）。但是，光栅化后的三角形内部包含成千上万个像素。为了算出三角形内部任意一点的属性，我们需要一种平滑过渡的方法。答