ARXIV:2603.03203 · LANGUAGE MODEL RELIABILITY · SUBMITTED 02 APR · 02:30 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedPartialPaperPack: 3 of 4 citation fields filledMissingMissing fields: authorsPartialProof: unverified proof status

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

arXiv

Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.

Blocked on Code›Score5.0Evidence unverified

Opportunity summary

Pain Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.

Evidence 0 refs | 0 sources | 17% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks. We study the conditions under which this approach succeeds and fails on small language models ranging from 70M…

METHOD

Full abstract

CDD, or Contamination Detection via output Distribution, identifies data contamination by measuring the peakedness of a model's sampled outputs. We study the conditions under which this approach succeeds and fails on small language models ranging from 70M to 410M parameters. Using controlled contamination experiments on GSM8K, HumanEval, and MATH, we find that CDD's effectiveness depends critically on whether fine-tuning produces verbatim memorization. With low-rank adaptation, models can learn from contaminated data without memorizing it, and CDD performs at chance level even when the data is verifiably contaminated. Only when fine-tuning capacity is sufficient to induce memorization does CDD recover strong detection accuracy. Our results characterize a memorization threshold that governs detectability and highlight a practical consideration: parameter-efficient fine-tuning can produce contamination that output-distribution methods do not detect. Our code is available at https://github.com/Sela-Omer/Contamination-Detection-Small-LM

RESULT

ScienceToStartup currently rates this 5.0/10 on the public viability pass. Our results characterize a memorization threshold that governs detectability and highlight a practical consideration: parameter-efficient fine-tuning can produce contamination that output-distribution methods do not…

WHY NOW

Language Model Reliability moved forward this cycle; last verified April 2026. Public score 5.0/10.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score5.0

PainDetect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.

Evidence0 refs | 0 sources | 17% coverage

Blockermissing authors

Analysis summary

Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.

VerifiedSource: PDF linkedPartialPaperPack: 3 of 4 citation fields filledMissingMissing fields: authorsPartialProof: unverified proof status

Competitive landscape

Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.

Segment

Language Model Reliability

Adoption evidence

No public code link in the paper record yet

Commercial read

5.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

References(13)

NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark

2023Oscar Sainz, Jon Ander Campos et al.

Proving Test Set Contamination in Black Box Language Models

2023Yonatan Oren, Nicole Meister et al.

Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation

2023Yucheng Li

Time Travel in LLMs: Tracing Data Contamination in Large Language Models

2023Shahriar Golchin, M. Surdeanu

Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks

2023Alon Jacovi, Avi Caciularu et al.

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

2023Stella Biderman, Hailey Schoelkopf et al.

Data Contamination: From Memorization to Exploitation

2022Inbal Magar, Roy Schwartz

An Empirical Analysis of Memorization in Fine-tuned Autoregressive Language Models

2022Fatemehsadat Mireshghallah, Archit Uniyal et al.

Training Verifiers to Solve Math Word Problems

2021K. Cobbe, Vineet Kosaraju et al.

Measuring Mathematical Problem Solving With the MATH Dataset

2021Dan Hendrycks, Collin Burns et al.

Language Models are Few-Shot Learners

2020Tom B. Brown, Benjamin Mann et al.

Binary codes capable of correcting deletions, insertions, and reversals

1965V. Levenshtein

Index for rating diagnostic tests

1950PH.D. W. J. YOUDEN

{ "contract_version": "paper-r2", "paper_id": "67ae2234-c9da-41b3-b155-1ca39458b732", "arxiv_id": "2603.03203", "canonical_route": "/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models", "endpoints": { "paper_pack": "/api/v1/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models/paper-pack", "build_passport": "/api/v1/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models", "normalized_query": "2603.03203", "route": "/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models", "paper_ref": "no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models#webpage", "url": "https://sciencetostartup.com/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models", "name": "No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models", "description": "Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models#scholarlyArticle", "headline": "No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models", "description": "Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.", "url": "https://sciencetostartup.com/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models", "sameAs": "https://arxiv.org/abs/2603.03203", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2603.03203" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-03-03T17:55:24.000Z", "citation": [ { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "cd2f4aaf98bb1e020cff310000c8049d3460c54e" }, "url": "https://www.semanticscholar.org/paper/cd2f4aaf98bb1e020cff310000c8049d3460c54e" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "c871377b208814713c18e25633866323a2982136" }, "url": "https://www.semanticscholar.org/paper/c871377b208814713c18e25633866323a2982136" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "e800ff2229ef60b74663d8fe4e330243729b046c" }, "url": "https://www.semanticscholar.org/paper/e800ff2229ef60b74663d8fe4e330243729b046c" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "d6d0fd994f37b630f35945736b5e1bb198148404" }, "url": "https://www.semanticscholar.org/paper/d6d0fd994f37b630f35945736b5e1bb198148404" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "fc30093e9f55ae1c0a1d2c4c4e5341998adede66" }, "url": "https://www.semanticscholar.org/paper/fc30093e9f55ae1c0a1d2c4c4e5341998adede66" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "be55e8ec4213868db08f2c3168ae666001bea4b8" }, "url": "https://www.semanticscholar.org/paper/be55e8ec4213868db08f2c3168ae666001bea4b8" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "fd6ade42ad3e0b9ffe418a37c4cb4b16346d90b7" }, "url": "https://www.semanticscholar.org/paper/fd6ade42ad3e0b9ffe418a37c4cb4b16346d90b7" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "d6045d2ccc9c09ca1671348de86d07da6bc28eea" }, "url": "https://www.semanticscholar.org/paper/d6045d2ccc9c09ca1671348de86d07da6bc28eea" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "57d1e7ac339e783898f2c3b1af55737cbeee9fc5" }, "url": "https://www.semanticscholar.org/paper/57d1e7ac339e783898f2c3b1af55737cbeee9fc5" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "90abbc2cf38462b954ae1b772fac9532e2ccd8b0" }, "url": "https://www.semanticscholar.org/paper/90abbc2cf38462b954ae1b772fac9532e2ccd8b0" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "51256ee5425d5c425b84e7fac011775d8eff0d1c" }, "url": "https://www.semanticscholar.org/paper/51256ee5425d5c425b84e7fac011775d8eff0d1c" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "b2f8876482c97e804bb50a5e2433881ae31d0cdd" }, "url": "https://www.semanticscholar.org/paper/b2f8876482c97e804bb50a5e2433881ae31d0cdd" }, { "@type": "ScholarlyArticle", "identifier": { "@type": "PropertyValue", "propertyID": "SemanticScholar", "value": "cd69b4cb74582a5a20963c7790fcd98a735528df" }, "url": "https://www.semanticscholar.org/paper/cd69b4cb74582a5a20963c7790fcd98a735528df" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 5 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Language Model Reliability" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Language Model Reliability", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "No Memorization, No Detection: Output Distribution-Based Con", "item": "https://sciencetostartup.com/paper/no-memorization-no-detection-output-distribution-based-contamination-detection-in-small-language-models" } ] } ] }

Competitive landscape

Detect data contamination in small language models by analyzing output distribution shape to mitigate memorization risks.

Segment

Language Model Reliability

Adoption evidence

No public code link in the paper record yet

Commercial read

5.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

References(13)

NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark

2023Oscar Sainz, Jon Ander Campos et al.

Proving Test Set Contamination in Black Box Language Models

2023Yonatan Oren, Nicole Meister et al.

Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation

2023Yucheng Li

Time Travel in LLMs: Tracing Data Contamination in Large Language Models

2023Shahriar Golchin, M. Surdeanu

Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks

2023Alon Jacovi, Avi Caciularu et al.

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

2023Stella Biderman, Hailey Schoelkopf et al.

Data Contamination: From Memorization to Exploitation

2022Inbal Magar, Roy Schwartz

An Empirical Analysis of Memorization in Fine-tuned Autoregressive Language Models

2022Fatemehsadat Mireshghallah, Archit Uniyal et al.

Training Verifiers to Solve Math Word Problems

2021K. Cobbe, Vineet Kosaraju et al.

Measuring Mathematical Problem Solving With the MATH Dataset

2021Dan Hendrycks, Collin Burns et al.

Language Models are Few-Shot Learners

2020Tom B. Brown, Benjamin Mann et al.

Binary codes capable of correcting deletions, insertions, and reversals

1965V. Levenshtein

Index for rating diagnostic tests

1950PH.D. W. J. YOUDEN

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Claim map

Constellation map

Competitive landscape

Buzz

PDF

References(13)

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

References(13)

Related Papers

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline