ARXIV:2603.26322 · ROBOTICS MOTION PLANNING · SUBMITTED 30 MAR · 21:57 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

Iana Zhura · Yara Mahmoud · Jeffrin Sam · Hung Khang Nguyen · Didar Seyidov · Miguel Altamirano Cabrera · +1 at arXiv

A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.

Blocked on Code›Score5.0Evidence unverified

Opportunity summary

Pain A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.

Evidence 24 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data. Recent vision-language-action (VLA) models infer actions directly from visual input but demand massive computational resources, extensive training…

METHOD

Full abstract

Efficiently predicting motion plans directly from vision remains a fundamental challenge in robotics, where planning typically requires explicit goal specification and task-specific design. Recent vision-language-action (VLA) models infer actions directly from visual input but demand massive computational resources, extensive training data, and fail zero-shot in novel scenes. We present a unified image-space diffusion policy handling both meter-scale navigation and centimeter-scale manipulation via multi-scale feature modulation, with only 5 minutes of self-supervised data per task. Three key innovations drive the framework: (1) Multi-scale FiLM conditioning on task mode, depth scale, and spatial attention enables task-appropriate behavior in a single model; (2) trajectory-aligned depth prediction focuses metric 3D reasoning along generated waypoints; (3) self-supervised attention from AnyTraverse enables goal-directed inference without vision-language models and depth sensors. Operating purely from RGB input (2.0 GB memory, 10 Hz), the model achieves robust zero-shot generalization to novel scenes while remaining suitable for onboard deployment.

RESULT

ScienceToStartup currently rates this 5.0/10 on the public viability pass. Three key innovations drive the framework: (1) Multi-scale FiLM conditioning on task mode, depth scale, and spatial attention enables task-appropriate behavior in a single…

WHY NOW

Robotics Motion Planning moved forward this cycle; last verified April 2026. Public score 5.0/10.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score5.0

PainA unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.

Evidence24 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.

Segment

Robotics Motion Planning

Adoption evidence

No public code link in the paper record yet

Commercial read

5.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "25014058-616f-4372-9772-e8c0d30bab88", "arxiv_id": "2603.26322", "canonical_route": "/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion", "endpoints": { "paper_pack": "/api/v1/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion/paper-pack", "build_passport": "/api/v1/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion", "normalized_query": "2603.26322", "route": "/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion", "paper_ref": "diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion#webpage", "url": "https://sciencetostartup.com/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion", "name": "DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion", "description": "A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion#scholarlyArticle", "headline": "DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion", "description": "A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.", "url": "https://sciencetostartup.com/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion", "sameAs": "https://arxiv.org/abs/2603.26322", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2603.26322" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-03-27T11:40:13.000Z", "author": [ { "@type": "Person", "name": "Iana Zhura" }, { "@type": "Person", "name": "Yara Mahmoud" }, { "@type": "Person", "name": "Jeffrin Sam" }, { "@type": "Person", "name": "Hung Khang Nguyen" }, { "@type": "Person", "name": "Didar Seyidov" }, { "@type": "Person", "name": "Miguel Altamirano Cabrera" }, { "@type": "Person", "name": "Dzmitry Tsetserukou" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 5 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Robotics Motion Planning" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Robotics Motion Planning", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "DiffusionAnything: End-to-End In-context Diffusion Learning ", "item": "https://sciencetostartup.com/paper/diffusionanything-end-to-end-in-context-diffusion-learning-for-unified-navigation-and-pre-grasp-motion" } ] } ] }

Competitive landscape

A unified diffusion policy for end-to-end robot navigation and manipulation from RGB input, requiring minimal self-supervised data.

Segment

Robotics Motion Planning

Adoption evidence

No public code link in the paper record yet

Commercial read

5.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline