dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models | Signal Canvas

dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models | Signal Canvas | ScienceToStartup