ARXIV:2605.14297 · REINFORCEMENT LEARNING · SUBMITTED 15 MAY · 20:12 UTC · FRESHNESS FRESH

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients

Matias Alvo · Daniel Russo · Yash Kanoria · arXiv

A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.

Ship in 2-4 weeks›Score6.0Evidence unverified

Opportunity summary

Pain A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.

Evidence 0 refs | 0 sources | 0% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces. Standard model-free policy gradient methods rely on score-function (SF) estimators and suffer from severe credit-assignment issues…

METHOD

Full abstract

We study reinforcement learning in hybrid discrete-continuous action spaces, such as settings where the discrete component selects a regime (or index) and the continuous component optimizes within it -- a structure common in robotics, control, and operations problems. Standard model-free policy gradient methods rely on score-function (SF) estimators and suffer from severe credit-assignment issues in high-dimensional settings, leading to poor gradient quality. On the other hand, differentiable simulation largely sidesteps these issues by backpropagating through a simulator, but the presence of discrete actions or non-smooth dynamics yields biased or uninformative gradients. To address this, we propose Hybrid Policy Optimization (HPO), which backpropagates through the simulator wherever smoothness permits, using a mixed gradient estimator that combines pathwise and SF gradients while maintaining unbiasedness. We also show how problems with action discontinuities can be reformulated in hybrid form, further broadening its applicability. Empirically, HPO substantially outperforms PPO on inventory control and switched linear-quadratic regulator problems, with performance gaps increasing as the continuous action dimension grows. Finally, we characterize the structure of the mixed gradient, showing that its cross term -- which captures how continuous actions influence future discrete decisions -- becomes negligible near a discrete best response, thereby enabling approximate decentralized updates of the continuous and discrete components and reducing variance near optimality. All resources are available at github.com/MatiasAlvo/hybrid-rl.

RESULT

ScienceToStartup currently rates this 6.0/10 on the public viability pass. We also show how problems with action discontinuities can be reformulated in hybrid form, further broadening its applicability. Code availability is flagged in the…

WHY NOW

Reinforcement Learning moved forward this cycle; last verified May 2026. Public score 6.0/10. Production flags indicate code availability.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score6.0

PainA reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.

Evidence0 refs | 0 sources | 0% coverage

Blockerno shell-level blocker reported

Analysis summary

A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.

Segment

Reinforcement Learning

Adoption evidence

No public code link in the paper record yet

Commercial read

6.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "260964cc-c6c6-46b4-bb4e-e40c71dfddcc", "arxiv_id": "2605.14297", "canonical_route": "/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients", "endpoints": { "paper_pack": "/api/v1/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients/paper-pack", "build_passport": "/api/v1/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients", "normalized_query": "2605.14297", "route": "/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients", "paper_ref": "policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients#webpage", "url": "https://sciencetostartup.com/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients", "name": "Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients", "description": "A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients#scholarlyArticle", "headline": "Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients", "description": "A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.", "url": "https://sciencetostartup.com/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients", "sameAs": "https://arxiv.org/abs/2605.14297", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2605.14297" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-05-14T02:59:45.000Z", "author": [ { "@type": "Person", "name": "Matias Alvo" }, { "@type": "Person", "name": "Daniel Russo" }, { "@type": "Person", "name": "Yash Kanoria" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 6 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Reinforcement Learning" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Reinforcement Learning", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Policy Optimization in Hybrid Discrete-Continuous Action Spa", "item": "https://sciencetostartup.com/paper/policy-optimization-in-hybrid-discrete-continuous-action-spaces-via-mixed-gradients" } ] } ] }

Competitive landscape

A reinforcement learning method that combines pathwise and score-function gradients to optimize policies in hybrid discrete-continuous action spaces.

Segment

Reinforcement Learning

Adoption evidence

No public code link in the paper record yet

Commercial read

6.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline