ARXIV:2604.09532 · ROBUST VISION-LANGUAGE MODELS · SUBMITTED 13 APR · 20:33 UTC · FRESHNESS STALE

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Zibin Geng · Xuefeng Jiang · Jia Li · Zheng Li · Tian Wen · Lvhua Wu · +3 at arXiv

VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.

Ship in 2-4 weeks›Score6.0Evidence unverified

Opportunity summary

Pain VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.

Evidence 0 refs | 4 sources | 83% coverage

Blocker Evidence unverified

Open Build Read PDF Signal Canvas Track

PROBLEM

VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets. Visual content contains richer and more reliable semantic information, which remains more robust under…

METHOD

Full abstract

Prompt learning is a parameter-efficient approach for vision-language models, yet its robustness under label noise is less investigated. Visual content contains richer and more reliable semantic information, which remains more robust under label noise. However, the prompt itself is highly susceptible to label noise. Motivated by this intuition, we propose VisPrompt, a lightweight and robust vision-guided prompt learning framework for noisy-label settings. Specifically, we exploit a cross-modal attention mechanism to reversely inject visual semantics into prompt representations. This enables the prompt tokens to selectively aggregate visual information relevant to the current sample, thereby improving robustness by anchoring prompt learning to stable instance-level visual evidence and reducing the influence of noisy supervision. To address the instability caused by using the same way of injecting visual information for all samples, despite differences in the quality of their visual cues, we further introduce a lightweight conditional modulation mechanism to adaptively control the strength of visual information injection, which strikes a more robust balance between text-side semantic priors and image-side instance evidence. The proposed framework effectively suppresses the noise-induced disturbances, reduce instability in prompt updates, and alleviate memorization of mislabeled samples. VisPrompt significantly improves robustness while keeping the pretrained VLM backbone frozen and introducing only a small amount of additional trainable parameters. Extensive experiments under synthetic and real-world label noise demonstrate that VisPrompt generally outperforms existing baselines on seven benchmark datasets and achieves stronger robustness. Our code is publicly available at https://github.com/gezbww/Vis_Prompt.

RESULT

ScienceToStartup currently rates this 6.0/10 on the public viability pass. This enables the prompt tokens to selectively aggregate visual information relevant to the current sample, thereby improving robustness by anchoring prompt learning to stable…

WHY NOW

Robust Vision-Language Models moved forward this cycle; last verified April 2026. Public score 6.0/10. Implementation evidence is present through a linked repository.

Continue into Read for claims, analysis, references, and neighboring papers.

Opportunity summary

Score6.0

PainVisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.

Evidence0 refs | 4 sources | 83% coverage

Blockerno shell-level blocker reported

Analysis summary

VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.

VerifiedSource: PDF linkedVerifiedPaperPack: citation fields availablePartialProof: unverified proof status

Competitive landscape

VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.

Segment

Robust Vision-Language Models

Adoption evidence

Public code linked for build inspection

Commercial read

6.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

{ "contract_version": "paper-r2", "paper_id": "ff916faf-9042-4ad6-8276-df84e3fdcaf9", "arxiv_id": "2604.09532", "canonical_route": "/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise", "active_tab": "synced from current hash by the drawer client", "selected_artifact": "seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise", "endpoints": { "paper_pack": "/api/v1/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise/paper-pack", "build_passport": "/api/v1/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise/build-passport", "mcp_resource": "sciencetostartup://surfaces/paper-workspace" } }

{ "surface": "paper", "mode": "paper", "query": "Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise", "normalized_query": "2604.09532", "route": "/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise", "paper_ref": "seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise", "topic_slug": null, "benchmark_ref": null, "dataset_ref": null }

{ "@context": "https://schema.org", "@graph": [ { "@type": "WebPage", "@id": "https://sciencetostartup.com/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise#webpage", "url": "https://sciencetostartup.com/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise", "name": "Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise", "description": "VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.", "isPartOf": { "@id": "https://sciencetostartup.com/#website" } }, { "@type": "ScholarlyArticle", "@id": "https://sciencetostartup.com/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise#scholarlyArticle", "headline": "Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise", "description": "VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.", "url": "https://sciencetostartup.com/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise", "sameAs": "https://arxiv.org/abs/2604.09532", "identifier": { "@type": "PropertyValue", "propertyID": "arXiv", "value": "2604.09532" }, "isAccessibleForFree": true, "isPartOf": { "@id": "https://sciencetostartup.com/#website" }, "datePublished": "2026-04-10T17:48:56.000Z", "author": [ { "@type": "Person", "name": "Zibin Geng" }, { "@type": "Person", "name": "Xuefeng Jiang" }, { "@type": "Person", "name": "Jia Li" }, { "@type": "Person", "name": "Zheng Li" }, { "@type": "Person", "name": "Tian Wen" }, { "@type": "Person", "name": "Lvhua Wu" }, { "@type": "Person", "name": "Sheng Sun" }, { "@type": "Person", "name": "Yuwei Wang" }, { "@type": "Person", "name": "Min Liu" } ], "codeRepository": "https://github.com/gezbww/Vis_Prompt", "additionalProperty": [ { "@type": "PropertyValue", "propertyID": "viabilityScore", "value": 6 }, { "@type": "PropertyValue", "propertyID": "researchDomain", "value": "Robust Vision-Language Models" }, { "@type": "PropertyValue", "propertyID": "commercialReadiness", "value": "code, repo url" } ] }, { "@type": "SoftwareSourceCode", "@id": "https://sciencetostartup.com/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise#software", "name": "Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise - Source Code", "description": "VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.", "codeRepository": "https://github.com/gezbww/Vis_Prompt", "url": "https://github.com/gezbww/Vis_Prompt" }, { "@type": "BreadcrumbList", "itemListElement": [ { "@type": "ListItem", "position": 1, "name": "Home", "item": "https://sciencetostartup.com" }, { "@type": "ListItem", "position": 2, "name": "Robust Vision-Language Models", "item": "https://sciencetostartup.com/topics" }, { "@type": "ListItem", "position": 3, "name": "Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt", "item": "https://sciencetostartup.com/paper/seeing-is-believing-robust-vision-guided-cross-modal-prompt-learning-under-label-noise" } ] } ] }

Competitive landscape

VisPrompt enhances vision-language models' robustness to label noise by injecting visual semantics into prompt learning, improving performance on noisy datasets.

Segment

Robust Vision-Language Models

Adoption evidence

Public code linked for build inspection

Commercial read

6.0/10 public viability

Direct

not classified

Adjacent

not classified

Substitute

not classified

Unknown

not classified

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline

Claim map

Constellation map

Competitive landscape

Buzz

PDF

REFERENCES

Related Papers

Related Resources

Subscribe to the weekly brief

Build artifacts

Brief

Experiment plan

Validation checklist

Scientific founder

Translational engineer

Domain operator

GTM lead

Regulatory/clinical advisor

Timeline