ARXIV:2604.24549 · MULTI-AGENT REINFORCEMENT LEARNING · SUBMITTED 28 APR · 15:17 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility

Yihong Zhou · Hongtai Zeng · Thomas Morstyn · arXiv

Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.

Ship in 2-4 weeks›Score7.0Evidence unverified

Opportunity summary

Pain Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization. This paper proposes gradient-based multi-agent proximal learning (GradMAP) to address this challenge.

METHOD

Full abstract

Coordinating large populations of grid-edge devices requires learning methods that remain fully decentralised in deployment while still respecting three-phase AC distribution-network physics. This paper proposes gradient-based multi-agent proximal learning (GradMAP) to address this challenge. GradMAP trains independent neural-network policies for each agent without any parameter sharing, and each agent uses only its own local observation for online decision-making without communication. During offline training, GradMAP embeds a differentiable three-phase AC power-flow model in a primal-dual learning loop and uses implicit differentiation to propagate exact network-constraint violations to update the policy parameters. To speed up training, GradMAP reuses expensive environment gradients through a proximal surrogate within a trust region defined in the more direct policy-output (action) space, instead of the probability distribution space used in other works, such as PPO. In case studies with 1,000 agents managing batteries, heat pumps, and controllable generators on the IEEE 123-bus feeder, GradMAP learns decentralised policies that minimise three-phase AC load-flow constraint violations within 15 minutes of training on a single workstation-class NVIDIA RTX PRO 5000 Blackwell 48GB GPU. This is a 3--5x training speed-up over gradient-based self-supervised learning benchmarks and substantially better training efficiency than multi-agent reinforcement-learning benchmarks. In out-of-sample tests, GradMAP also delivers among the lowest operating cost and constraint violations.

RESULT

ScienceToStartup currently rates this 7.0/10 on the public viability pass. In out-of-sample tests, GradMAP also delivers among the lowest operating cost and constraint violations. Code availability is flagged in the production record; the public…

WHY NOW

Multi-Agent Reinforcement Learning moved forward this cycle; last verified April 2026. Public score 7.0/10. Production flags indicate code availability.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score7.0

PainDecentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.

Segment

Multi-Agent Reinforcement Learning

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "f93cc358-a78f-4c31-be3e-bd10c348434b", "arxiv_id": "2604.24549", "canonical_route": "/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility", "endpoints": { "paper_pack": "/api/v1/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility/paper-pack", "build_passport": "/api/v1/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility", "normalized_query": "2604.24549", "route": "/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility", "paper_ref": "gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility#webpage", "url": "https://sciencetostartup.com/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility", "name": "GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility", "description": "Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility#scholarlyArticle", "headline": "GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility", "description": "Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.", "url": "https://sciencetostartup.com/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility", "sameAs": "https://arxiv.org/abs/2604.24549", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2604.24549" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-04-27T14:43:02.000Z", "author": [ { "@type": "Person", "name": "Yihong Zhou" }, { "@type": "Person", "name": "Hongtai Zeng" }, { "@type": "Person", "name": "Thomas Morstyn" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 7 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Multi-Agent Reinforcement Learning" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Multi-Agent Reinforcement Learning", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "GradMAP: Gradient-Based Multi-Agent Proximal Learning for Gr", "item": "https://sciencetostartup.com/paper/gradmap-gradient-based-multi-agent-proximal-learning-for-grid-edge-flexibility" } ] } ] }

Competitive landscape

Decentralized multi-agent learning for grid-edge devices that respects network physics and achieves rapid training for constraint violation minimization.

Segment

Multi-Agent Reinforcement Learning

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility

GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline