ARXIV:2604.11734 · AUTONOMOUS DRIVING · SUBMITTED 14 APR · 16:48 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving

Haojie Bai · Aimin Li · Ruoyu Yao · Xiongwei Zhao · Tingting Zhang · Xing Zhang · +2 at arXiv

A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.

Ship in 2-4 weeks›Score7.0Evidence unverified

Opportunity summary

Pain A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners. Existing diffusion planners can model multimodal behaviors from demonstrations, but they often…

METHOD

Full abstract

Closed-loop cooperative driving requires planners that generate realistic multimodal multi-agent trajectories while improving safety and traffic efficiency. Existing diffusion planners can model multimodal behaviors from demonstrations, but they often exhibit weak scene consistency and remain poorly aligned with closed-loop objectives; meanwhile, stable online post-training in reactive multi-agent environments remains difficult. We present Multi-ORFT, which couples scene-conditioned diffusion pre-training with stable online reinforcement post-training. In pre-training, the planner uses inter-agent self-attention, cross-attention, and AdaLN-Zero-based scene conditioning to improve scene consistency and road adherence of joint trajectories. In post-training, we formulate a two-level MDP that exposes step-wise reverse-kernel likelihoods for online optimization, and combine dense trajectory-level rewards with variance-gated group-relative policy optimization (VG-GRPO) to stabilize training. On the WOMD closed-loop benchmark, Multi-ORFT reduces collision rate from 2.04% to 1.89% and off-road rate from 1.68% to 1.36%, while increasing average speed from 8.36 to 8.61 m/s relative to the pre-trained planner, and it outperforms strong open-source baselines including SMART-large, SMART-tiny-CLSFT, and VBD on the primary safety and efficiency metrics. These results show that coupling scene-consistent denoising with stable online diffusion-policy optimization improves the reliability of closed-loop cooperative driving.

RESULT

ScienceToStartup currently rates this 7.0/10 on the public viability pass. In pre-training, the planner uses inter-agent self-attention, cross-attention, and AdaLN-Zero-based scene conditioning to improve scene consistency and road adherence of joint trajectories. Code availability…

WHY NOW

Autonomous Driving moved forward this cycle; last verified April 2026. Public score 7.0/10. Production flags indicate code availability.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score7.0

PainA novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.

Segment

Autonomous Driving

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "df4a7c97-4018-44b2-a664-9fa3335d33b2", "arxiv_id": "2604.11734", "canonical_route": "/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving", "endpoints": { "paper_pack": "/api/v1/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving/paper-pack", "build_passport": "/api/v1/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving", "normalized_query": "2604.11734", "route": "/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving", "paper_ref": "multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving#webpage", "url": "https://sciencetostartup.com/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving", "name": "Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving", "description": "A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving#scholarlyArticle", "headline": "Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving", "description": "A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.", "url": "https://sciencetostartup.com/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving", "sameAs": "https://arxiv.org/abs/2604.11734", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2604.11734" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-04-13T17:13:46.000Z", "author": [ { "@type": "Person", "name": "Haojie Bai" }, { "@type": "Person", "name": "Aimin Li" }, { "@type": "Person", "name": "Ruoyu Yao" }, { "@type": "Person", "name": "Xiongwei Zhao" }, { "@type": "Person", "name": "Tingting Zhang" }, { "@type": "Person", "name": "Xing Zhang" }, { "@type": "Person", "name": "Lin Gao" }, { "@type": "Person", "name": "and Jun Ma" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 7 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Autonomous Driving" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Autonomous Driving", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Mult", "item": "https://sciencetostartup.com/paper/multi-orft-stable-online-reinforcement-fine-tuning-for-multi-agent-diffusion-planning-in-cooperative-driving" } ] } ] }

Competitive landscape

A novel multi-agent reinforcement learning framework for cooperative driving that significantly improves safety and efficiency by stabilizing online fine-tuning of diffusion planners.

Segment

Autonomous Driving

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving

Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline