ARXIV:2605.02141 · REINFORCEMENT LEARNING THEORY · SUBMITTED 05 MAY · 20:33 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization

Kaixuan Ji · Qiwei Di · Heyang Zhao · Qingyue Zhao · Quanquan Gu · arXiv

This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.

Blocked on Code›Score0.0Evidence unverified

Opportunity summary

Pain This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization. Nevertheless, the exact sample complexity of KL-regularized offline learning remains largely from fully characterized.

METHOD

Full abstract

Kullback-Leibler (KL) regularization is widely used in offline decision-making and offers several benefits, motivating recent work on the sample complexity of offline learning with respect to KL-regularized performance metrics. Nevertheless, the exact sample complexity of KL-regularized offline learning remains largely from fully characterized. In this paper, we study this question in the setting of multi-armed bandits (MABs). We provide a sharp analysis of KL-PCB (Zhao et al., 2026), showing that it achieves a sample complexity of $\tilde{O}(ηSAC^{π^*}/ε)$ under large regularization $η= \tilde{O}(ε^{-1})$, and a sample complexity of $\tildeΩ(SAC^{π^*}/ε^2)$ under small regularization $η= \tildeΩ(ε^{-1})$, where $η$ is the regularization parameter, $S$ is the number of contexts, $A$ is the number of arms, $C^{π^*}$ policy coverage coefficient at the optimal policy $π^*$, $ε$ is the desired sub-optimality, and $\tilde{O}$ and $\tildeΩ$ hide all poly-logarithmic factors. We further provide a pair of sharper sample complexity lower bounds, which matches the upper bounds over the entire range of regularization strengths. Overall, our results provide a nearly complete characterization of offline multi-armed bandits with KL regularization.

RESULT

ScienceToStartup currently rates this 0.0/10 on the public viability pass. We provide a sharp analysis of KL-PCB (Zhao et al., 2026), showing that it achieves a sample complexity of $\tilde{O}(ηSAC^{π^*}/ε)$ under large regularization $η=…

WHY NOW

Reinforcement Learning Theory moved forward this cycle; last verified May 2026. Public score 0.0/10.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score0.0

PainThis paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.

Segment

Reinforcement Learning Theory

Adoption evidence

No public code link in the paper record yet

Commercial read

0.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "bc149990-94ae-4805-9782-50626e592a9b", "arxiv_id": "2605.02141", "canonical_route": "/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization", "endpoints": { "paper_pack": "/api/v1/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization/paper-pack", "build_passport": "/api/v1/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization", "normalized_query": "2605.02141", "route": "/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization", "paper_ref": "on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization#webpage", "url": "https://sciencetostartup.com/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization", "name": "On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization", "description": "This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization#scholarlyArticle", "headline": "On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization", "description": "This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.", "url": "https://sciencetostartup.com/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization", "sameAs": "https://arxiv.org/abs/2605.02141", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2605.02141" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-05-04T01:46:35.000Z", "author": [ { "@type": "Person", "name": "Kaixuan Ji" }, { "@type": "Person", "name": "Qiwei Di" }, { "@type": "Person", "name": "Heyang Zhao" }, { "@type": "Person", "name": "Qingyue Zhao" }, { "@type": "Person", "name": "Quanquan Gu" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Reinforcement Learning Theory" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Reinforcement Learning Theory", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "On the Optimal Sample Complexity of Offline Multi-Armed Band", "item": "https://sciencetostartup.com/paper/on-the-optimal-sample-complexity-of-offline-multi-armed-bandits-with-kl-regularization" } ] } ] }

Competitive landscape

This paper provides a theoretical characterization of sample complexity for offline multi-armed bandits with KL regularization.

Segment

Reinforcement Learning Theory

Adoption evidence

No public code link in the paper record yet

Commercial read

0.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization

On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline