Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning | ScienceToStartup | ScienceToStartup