ARXIV:2605.12652 · LLM DISTILLATION · SUBMITTED 14 MAY · 20:10 UTC · FRESHNESS FRESH

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Weichen Yu · Xiaomin Li · Yizhou Zhao · Xiaoze Liu · Ruowang Zhang · Haixin Wang · +5 at arXiv

MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.

Ship in 2-4 weeks›Score7.0Evidence unverified

Opportunity summary

Pain MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.

Evidence 0 refs | 0 sources | 0% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals. On-policy distillation (OPD) offers denser token-level supervision by training on student-generated trajectories, yet existing…

METHOD

Full abstract

Large language models are often post-trained with sparse verifier rewards, which indicate whether a sampled trajectory succeeds but provide limited guidance about where reasoning succeeds or fails. On-policy distillation (OPD) offers denser token-level supervision by training on student-generated trajectories, yet existing methods typically distill each rollout independently and ignore the other attempts sampled for the same prompt. We introduce Multi-Rollout On-Policy Distillation (MOPD), a peer-conditioned distillation framework that uses the student's local rollout group to construct more informative teacher signals. MOPD conditions the teacher on both successful and failed peer rollouts: successes provide positive evidence for valid reasoning patterns, while failures provide structured negative evidence about plausible mistakes to avoid. We study two peer-context constructions: positive peer imitation and contrastive success-failure conditioning. Experiments on competitive programming, mathematical reasoning, scientific question answering, and tool-use benchmarks show that MOPD consistently improves over standard on-policy baselines. Further teacher-signal analysis shows that mixed success-failure contexts better align teacher scores with verifier rewards, indicating that the gains arise from more faithful, instance-adaptive supervision. These results indicate that effective on-policy distillation should exploit the student's multi-rollout trial-and-error behavior rather than treating rollouts as isolated samples.

RESULT

ScienceToStartup currently rates this 7.0/10 on the public viability pass. Experiments on competitive programming, mathematical reasoning, scientific question answering, and tool-use benchmarks show that MOPD consistently improves over standard on-policy baselines. A public repository…

WHY NOW

LLM Distillation moved forward this cycle; last verified May 2026. Public score 7.0/10. Implementation evidence is present through a linked repository.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score7.0

PainMOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.

Evidence0 refs | 0 sources | 0% coverage

Blockerno shell-level blocker reported

Analysis summary

MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.

Segment

LLM Distillation

Adoption evidence

Public code linked for build inspection

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "d0383cc1-4144-4cb9-b626-6e99969114b2", "arxiv_id": "2605.12652", "canonical_route": "/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "multi-rollout-on-policy-distillation-via-peer-successes-and-failures", "endpoints": { "paper_pack": "/api/v1/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures/paper-pack", "build_passport": "/api/v1/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Multi-Rollout On-Policy Distillation via Peer Successes and Failures", "normalized_query": "2605.12652", "route": "/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures", "paper_ref": "multi-rollout-on-policy-distillation-via-peer-successes-and-failures", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures#webpage", "url": "https://sciencetostartup.com/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures", "name": "Multi-Rollout On-Policy Distillation via Peer Successes and Failures", "description": "MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures#scholarlyArticle", "headline": "Multi-Rollout On-Policy Distillation via Peer Successes and Failures", "description": "MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.", "url": "https://sciencetostartup.com/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures", "sameAs": "https://arxiv.org/abs/2605.12652", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2605.12652" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-05-12T18:57:44.000Z", "author": [ { "@type": "Person", "name": "Weichen Yu" }, { "@type": "Person", "name": "Xiaomin Li" }, { "@type": "Person", "name": "Yizhou Zhao" }, { "@type": "Person", "name": "Xiaoze Liu" }, { "@type": "Person", "name": "Ruowang Zhang" }, { "@type": "Person", "name": "Haixin Wang" }, { "@type": "Person", "name": "Yinyi Luo" }, { "@type": "Person", "name": "Chen Henry Wu" }, { "@type": "Person", "name": "Gaurav Mittal" }, { "@type": "Person", "name": "Matt Fredrikson" }, { "@type": "Person", "name": "Yu Hu" } ], "codeRepository": "https://github.com/viviable/mopd_code", "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 7 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "LLM Distillation" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code, repo url" } ] }, { "@type": "SoftwareSourceCode", "@id": "https://sciencetostartup.com/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures#software", "name": "Multi-Rollout On-Policy Distillation via Peer Successes and Failures - Source Code", "description": "MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.", "codeRepository": "https://github.com/viviable/mopd_code", "url": "https://github.com/viviable/mopd_code" }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "LLM Distillation", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Multi-Rollout On-Policy Distillation via Peer Successes and ", "item": "https://sciencetostartup.com/paper/multi-rollout-on-policy-distillation-via-peer-successes-and-failures" } ] } ] }

Competitive landscape

MOPD is a peer-conditioned distillation framework for LLMs that leverages successful and failed rollouts to create more informative teacher signals.

Segment

LLM Distillation

Adoption evidence

Public code linked for build inspection

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline