ARXIV:2604.12191 · LLM EVALUATION · SUBMITTED 15 APR · 17:00 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities

Xu Zhang · Xudong Gong · Jiacheng Qin · Qiang Wang · JiaQi Liao · Zhe Wang · +2 at arXiv

A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.

Ship in 2-4 weeks›Score7.0Evidence unverified

Opportunity summary

Pain A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection. This obscures fine-grained ability variation, limiting targeted model improvement…

METHOD

Full abstract

Current evaluations of large language models aggregate performance across diverse tasks into single scores. This obscures fine-grained ability variation, limiting targeted model improvement and ability-guided selection for specific tasks. Motivated by this gap, we propose a cognitive diagnostic framework that estimates model abilities across multiple fine-grained dimensions. For mathematics, we construct a 35-dimensional ability taxonomy grounded in cognitive theory and domain knowledge. The framework employs multidimensional Item Response Theory with an item-ability association matrix to estimate fine-grained ability levels, which in turn enable prediction of performance on unseen items (questions of benchmark). Evaluated on 41 models, our approach demonstrates strong criterion validity, consistent ability estimates across benchmarks, and accurate prediction of unseen items with AUC ranging from 0.80 to 0.89 within benchmarks and from 0.77 to 0.86 across benchmarks, substantially exceeding trivial baselines. The framework generalizes across scientific domains, producing consistent diagnostic performance in physics (27 dimensions), chemistry (58 dimensions), and computer science (12 dimensions). This work establishes a principled framework for fine-grained assessment of abilities, with potential applications in targeted training, ability-guided model selection, and ability-aware benchmark design.

RESULT

ScienceToStartup currently rates this 7.0/10 on the public viability pass. The framework employs multidimensional Item Response Theory with an item-ability association matrix to estimate fine-grained ability levels, which in turn enable prediction of performance…

WHY NOW

LLM Evaluation moved forward this cycle; last verified April 2026. Public score 7.0/10. Production flags indicate code availability.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score7.0

PainA cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.

Segment

LLM Evaluation

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "52dae3a0-bd73-44d1-817e-cf21ad9ca763", "arxiv_id": "2604.12191", "canonical_route": "/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities", "endpoints": { "paper_pack": "/api/v1/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities/paper-pack", "build_passport": "/api/v1/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities", "normalized_query": "2604.12191", "route": "/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities", "paper_ref": "beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities#webpage", "url": "https://sciencetostartup.com/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities", "name": "Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities", "description": "A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities#scholarlyArticle", "headline": "Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities", "description": "A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.", "url": "https://sciencetostartup.com/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities", "sameAs": "https://arxiv.org/abs/2604.12191", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2604.12191" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-04-14T01:48:22.000Z", "author": [ { "@type": "Person", "name": "Xu Zhang" }, { "@type": "Person", "name": "Xudong Gong" }, { "@type": "Person", "name": "Jiacheng Qin" }, { "@type": "Person", "name": "Qiang Wang" }, { "@type": "Person", "name": "JiaQi Liao" }, { "@type": "Person", "name": "Zhe Wang" }, { "@type": "Person", "name": "Dawei Feng" }, { "@type": "Person", "name": "Bo Ding" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 7 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "LLM Evaluation" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "LLM Evaluation", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Ab", "item": "https://sciencetostartup.com/paper/beyond-scores-diagnostic-llm-evaluation-via-fine-grained-abilities" } ] } ] }

Competitive landscape

A cognitive diagnostic framework for LLMs that moves beyond single scores to provide fine-grained ability assessments across multiple scientific domains, enabling targeted improvement and selection.

Segment

LLM Evaluation

Adoption evidence

No public code link in the paper record yet

Commercial read

7.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities

Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline