Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection | Signal Canvas | ScienceToStartup

Page Freshness

Signal Canvas proof surface

Canonical route: /signal-canvas/mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection

stale

Proof freshness: stale
Proof status: unverified
Display score: 7/10
Last proof check: 2026-04-03
Score updated: 2026-04-03
Score fresh until: 2026-05-03
References: 0
Source count: 0
Coverage: 67%

This page is showing the last landed evidence receipt and score bundle because the latest proof data is outside the freshness window.

Agent Handoff

Canonical ID mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection | Route /signal-canvas/mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection

REST example

curl https://sciencetostartup.com/api/v1/agent-handoff/signal-canvas/mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection

MCP example

{
  "tool": "search_signal_canvas",
  "arguments": {
    "mode": "paper",
    "paper_ref": "mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection",
    "query_text": "Summarize Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection"
  }
}

source_context

{
  "surface": "signal_canvas",
  "mode": "paper",
  "query": "Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection",
  "normalized_query": "2604.02071",
  "route": "/signal-canvas/mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection",
  "paper_ref": "mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection",
  "topic_slug": null,
  "benchmark_ref": null,
  "dataset_ref": null
}

Evidence Receipt

Route status: building

Claims: 7

References: Pending verification

Proof: Verification pending

Freshness state: computing

Source paper: Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

PDF: https://arxiv.org/pdf/2604.02071v1

Repository: https://github.com/nowuss/InCoM-Net

Source count: Pending verification

Coverage: 67%

Last proof check: 2026-04-03T20:30:27.992Z

Signal Canvas receipt window

Ready for execution: Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

/buildability/mining-instance-centric-vision-language-contexts-for-human-object-interaction-detection

Build Nowready

Subject: Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

Verdict

Preparing verified analysis

GitHub Code Pulse

Cached

Stars

Health

Last commit

4/3/2026

Forks

Open repository

Claim map

Strong 7Mixed 0Weak 0

Evidencepartial
Extensive experiments on the HICO-DET and V-COCO benchmarks show that InCoM-Net achieves state-of-the-art performance, surpassing previous HOI detection methods.
Implicationpartial
Explicitly stated in abstract with benchmark results mentioned
Verificationpartial
partial
Evidencepartial
However, existing methods often fail to fully capitalize on the diverse contextual cues distributed across the entire scene.
Implicationpartial
Directly stated as limitation of previous approaches in abstract
Verificationpartial
partial
Evidencepartial
we propose the Instance-centric Context Mining Network (InCoM-Net)-a novel framework that effectively integrates rich semantic knowledge extracted from VLMs with instance-specific features produced by an object detector.
Implicationpartial
Core method claim explicitly described in abstract
Verificationpartial
partial
Evidencepartial
Instance-centric Context Refinement (ICR), which separately extracts intra-instance, inter-instance, and global contextual cues from VLM-derived features
Implicationpartial
Specific technical component clearly described in abstract
Verificationpartial
partial
Evidencepartial
Progressive Context Aggregation (ProCA), which iteratively fuses these multicontext features with instance-level detector features to support high-level HOI reasoning.
Implicationpartial
Specific technical component clearly described in abstract
Verificationpartial
partial
Evidencepartial
Recent approaches have leveraged Vision-Language Models (VLMs) to introduce semantic priors, significantly improving HOI detection performance.
Implicationpartial
Background claim directly stated in abstract with supporting context
Verificationpartial
partial
Evidencepartial
This design enables deeper interaction reasoning by modeling relationships not only within each detected instance but also across instances and their surrounding scene context.
Implicationpartial
Method capability claim directly stated but requires some inference about 'deeper' aspect
Verificationpartial
partial

Author intelligence and commercialization panels stay hidden until the proof receipt is verified, cites at least 3 references, includes at least 2 sources, and clears 50% coverage. The paper narrative and citation surfaces remain public while verification is pending.

Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

Use Signal Canvas as the narrative proof surface

Use this Signal Canvas via API or MCP

Signal Canvas proof surface