ARXIV:2606.03968 · RL WITH RUBRICS · SUBMITTED 03 JUN · 20:41 UTC · FRESHNESS FRESH

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

Rongzhi Zhang · Rui Feng · Zhihan Zhang · Jingfeng Yang · Qingyu Yin · Xin Liu · +5 at arXiv

QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.

Ship in 2-4 weeks›Score7.0Evidence unverified

Opportunity summary

Pain QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks. We identify a structural bottleneck: rubric quality is constrained by query structure.

METHOD

Full abstract

Rubric-based RL is a promising route for extending reinforcement learning beyond verifiable rewards, yet existing methods optimize rubrics while treating the query distribution as fixed. We identify a structural bottleneck: rubric quality is constrained by query structure. Open-ended queries yield vague rubrics; naively narrowing them introduces fabricated references that no model can verify, so all responses fail and training receives no reward signal. We present QUBRIC, a framework that co-designs queries and rubrics. Teacher-derived key points ground the rewriting of open-ended queries into scenario-based, evaluable questions. Contrastive rubric generation then turns teacher-policy gaps into query-level criteria, and learnability filtering retains only informative query-rubric pairs for GRPO training. QUBRIC achieves a +5.5 point gain on ArenaHard over the SFT baseline. Trained only on instruction-following data, it further transfers to three held-out benchmarks spanning legal, moral, and narrative reasoning (+6.3 points on average), with improvements concentrated in reasoning-related dimensions. These results provide evidence that co-designing queries and rubrics can make rubric-based RL a practical complement to RLVR beyond strictly verifiable tasks.

RESULT

ScienceToStartup currently rates this 7.0/10 on the public viability pass. QUBRIC achieves a +5.5 point gain on ArenaHard over the SFT baseline. Code availability is flagged in the production record; the public repository link…

WHY NOW

RL with Rubrics moved forward this cycle; last verified June 2026. Public score 7.0/10. Production flags indicate code availability.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score7.0

PainQUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.

Segment

RL with Rubrics

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "7f965546-e3b2-40bc-b327-425b394e9f68", "arxiv_id": "2606.03968", "canonical_route": "/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards", "endpoints": { "paper_pack": "/api/v1/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards/paper-pack", "build_passport": "/api/v1/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards", "normalized_query": "2606.03968", "route": "/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards", "paper_ref": "qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards#webpage", "url": "https://sciencetostartup.com/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards", "name": "QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards", "description": "QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards#scholarlyArticle", "headline": "QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards", "description": "QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.", "url": "https://sciencetostartup.com/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards", "sameAs": "https://arxiv.org/abs/2606.03968", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2606.03968" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-06-02T17:53:04.000Z", "author": [ { "@type": "Person", "name": "Rongzhi Zhang" }, { "@type": "Person", "name": "Rui Feng" }, { "@type": "Person", "name": "Zhihan Zhang" }, { "@type": "Person", "name": "Jingfeng Yang" }, { "@type": "Person", "name": "Qingyu Yin" }, { "@type": "Person", "name": "Xin Liu" }, { "@type": "Person", "name": "Zixuan Zhang" }, { "@type": "Person", "name": "Priyanka Nigam" }, { "@type": "Person", "name": "Bing Yin" }, { "@type": "Person", "name": "Tuo Zhao" }, { "@type": "Person", "name": "Chao Zhang" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 7 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "RL with Rubrics" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "RL with Rubrics", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verif", "item": "https://sciencetostartup.com/paper/qubric-co-designing-queries-and-rubrics-for-rl-beyond-verifiable-rewards" } ] } ] }

Competitive landscape

QUBRIC co-designs queries and rubrics for reinforcement learning beyond verifiable rewards, achieving significant gains on reasoning tasks.

Segment

RL with Rubrics

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline