ARXIV:2605.02038 · LLM EVALUATION · SUBMITTED 05 MAY · 20:29 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models

Ranit Karmakar · Jayita Chatterjee · arXiv

A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.

Ship in 2-4 weeks›Score6.0Evidence unverified

Opportunity summary

Pain A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions. We evaluate a 15-model open-weight corpus, with the main reliability analyses focused on 10 instruct models…

METHOD

Full abstract

Single-prompt accuracy is the dominant way to benchmark language models, but it can miss reliability failures that matter. We evaluate a 15-model open-weight corpus, with the main reliability analyses focused on 10 instruct models across five classification and reasoning benchmarks under five prompt variants each, measuring accuracy, token-probability calibration, verbal-confidence calibration, verbal parse rate, and prompt-perturbation spread for every (model x dataset x variant) cell. We find three broad results. First, evaluation design can materially change the conclusion. Switching Expected Calibration Error (ECE) token from a raw to a label-set-normalised definition changes per-cell calibration by a mean absolute 0.149. More strikingly, pairing a chain-of-thought prompt with a first-character evaluator on ARC-Challenge reduces apparent accuracy by 72-88% across all five primary models; two independent repair procedures recover 93.8% and 102.7% of the lost performance, indicating an evaluator-side rather than model-side failure. Second, confidence signals are fragile. On MMLU-Pro, every primary model verbally reports confidence substantially above both its accuracy and its token-probability confidence on the same rows, and verbal parse rate can collapse for a single model on a single prompt variant. Third, prompt robustness does not track parameter count reliably. Across 10 instruct models, the correlation between model size and prompt-perturbation spread ranges from -0.244 to 0.474 across benchmarks. Taken together, these results show that reliability conclusions for small language models depend not only on the model being evaluated, but also on the evaluation pipeline used to measure it. We argue that calibration definitions, evaluator logic, verbal parseability, and prompt robustness should be reported explicitly when making reliability claims.

RESULT

ScienceToStartup currently rates this 6.0/10 on the public viability pass. We find three broad results. Code availability is flagged in the production record; the public repository link still needs proof alignment.

WHY NOW

LLM Evaluation moved forward this cycle; last verified May 2026. Public score 6.0/10. Production flags indicate code availability.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score6.0

PainA new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.

Segment

LLM Evaluation

Adoption evidence

No public code link in the paper record yet

Commercial read

6.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "070c7396-8222-4f6d-bac5-fcbd3e23996b", "arxiv_id": "2605.02038", "canonical_route": "/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models", "endpoints": { "paper_pack": "/api/v1/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models/paper-pack", "build_passport": "/api/v1/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models", "normalized_query": "2605.02038", "route": "/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models", "paper_ref": "what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models#webpage", "url": "https://sciencetostartup.com/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models", "name": "What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models", "description": "A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models#scholarlyArticle", "headline": "What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models", "description": "A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.", "url": "https://sciencetostartup.com/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models", "sameAs": "https://arxiv.org/abs/2605.02038", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2605.02038" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-05-03T20:05:08.000Z", "author": [ { "@type": "Person", "name": "Ranit Karmakar" }, { "@type": "Person", "name": "Jayita Chatterjee" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 6 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "LLM Evaluation" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "LLM Evaluation", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "What Single-Prompt Accuracy Misses: A Multi-Variant Reliabil", "item": "https://sciencetostartup.com/paper/what-single-prompt-accuracy-misses-a-multi-variant-reliability-audit-of-language-models" } ] } ] }

Competitive landscape

A new evaluation framework for language models that goes beyond single-prompt accuracy to assess reliability across multiple dimensions.

Segment

LLM Evaluation

Adoption evidence

No public code link in the paper record yet

Commercial read

6.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models

What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline