Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization | Signal Canvas

Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization | Signal Canvas | ScienceToStartup