ARXIV:2604.11501 · LLM INFERENCE OPTIMIZATION · SUBMITTED 14 APR · 16:51 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Quantization Dominates Rank Reduction for KV-Cache Compression

Samuel Salfati · arXiv

Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.

Blocked on Code›Score3.0Evidence unverified

Opportunity summary

Pain Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.

Evidence 0 refs | 3 sources | 50% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains. At matched storage budgets across five models (124M-14B, MHA and GQA), we find that…

METHOD

Full abstract

We compare two strategies for compressing the KV cache in transformer inference: rank reduction (discard dimensions) and quantization (keep all dimensions, reduce precision). At matched storage budgets across five models (124M-14B, MHA and GQA), we find that quantization consistently outperforms rank reduction by 4-364 PPL depending on model and compression level. The gap persists even when rank reduction is combined with quantization in hybrid baselines, and it grows with GQA aggressiveness. On LAMBADA, INT4 matches FP16 accuracy (+0.23 PPL on Mistral 7B, +0.58 on GPT-2) while rank-32 at identical storage collapses to 0.4%. We trace this gap to a structural asymmetry: under softmax attention routing, removing a dimension can flip which token is attended (a discrete failure), while quantization noise is bounded and typically preserves score ordering. We formalize this via a perturbation result showing projection damage exceeds quantization damage by 3 x 2^(2b) per direction under the softmax Fisher metric. A basis ablation confirms the finding is basis-independent (spread <0.4 PPL), establishing that the advantage comes from preserving dimensions, not from a better coordinate system. Joint K+V INT4 quantization achieves 75% total KV reduction at only +0.18 PPL on Mistral 7B.

RESULT

ScienceToStartup currently rates this 3.0/10 on the public viability pass. We formalize this via a perturbation result showing projection damage exceeds quantization damage by 3 x 2^(2b) per direction under the softmax Fisher metric.

WHY NOW

LLM Inference Optimization moved forward this cycle; last verified April 2026. Public score 3.0/10.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score3.0

PainQuantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.

Evidence0 refs | 3 sources | 50% coverage

Blockerno shell-level blocker reported

Analysis summary

Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.

Segment

LLM Inference Optimization

Adoption evidence

No public code link in the paper record yet

Commercial read

3.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "d3baef5b-d1ab-4594-80dd-f99266d76441", "arxiv_id": "2604.11501", "canonical_route": "/paper/quantization-dominates-rank-reduction-for-kv-cache-compression", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "quantization-dominates-rank-reduction-for-kv-cache-compression", "endpoints": { "paper_pack": "/api/v1/paper/quantization-dominates-rank-reduction-for-kv-cache-compression/paper-pack", "build_passport": "/api/v1/paper/quantization-dominates-rank-reduction-for-kv-cache-compression/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Quantization Dominates Rank Reduction for KV-Cache Compression", "normalized_query": "2604.11501", "route": "/paper/quantization-dominates-rank-reduction-for-kv-cache-compression", "paper_ref": "quantization-dominates-rank-reduction-for-kv-cache-compression", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/quantization-dominates-rank-reduction-for-kv-cache-compression#webpage", "url": "https://sciencetostartup.com/paper/quantization-dominates-rank-reduction-for-kv-cache-compression", "name": "Quantization Dominates Rank Reduction for KV-Cache Compression", "description": "Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/quantization-dominates-rank-reduction-for-kv-cache-compression#scholarlyArticle", "headline": "Quantization Dominates Rank Reduction for KV-Cache Compression", "description": "Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.", "url": "https://sciencetostartup.com/paper/quantization-dominates-rank-reduction-for-kv-cache-compression", "sameAs": "https://arxiv.org/abs/2604.11501", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2604.11501" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-04-13T14:06:18.000Z", "author": [ { "@type": "Person", "name": "Samuel Salfati" } ], "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 3 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "LLM Inference Optimization" } ] }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "LLM Inference Optimization", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Quantization Dominates Rank Reduction for KV-Cache Compressi", "item": "https://sciencetostartup.com/paper/quantization-dominates-rank-reduction-for-kv-cache-compression" } ] } ] }

Competitive landscape

Quantization is a more effective method than rank reduction for compressing KV caches in transformer inference, showing significant performance gains.

Segment

LLM Inference Optimization

Adoption evidence

No public code link in the paper record yet

Commercial read

3.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Quantization Dominates Rank Reduction for KV-Cache Compression

Quantization Dominates Rank Reduction for KV-Cache Compression

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline