REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models | Signal Canvas | ScienceToStartup

← Back to Paper

REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models

Stale81d agoVerification pending / evidence receipt incomplete

Clone Repo Export Brief Open in Build Loop Connect with Author

Use This Via API or MCP

Use this Signal Canvas via API or MCP

Route this paper proof surface into REST, MCP, or developer workflows while preserving the same evidence receipt and related-resource context.

Signal Canvas guide REST guide MCP guide

Page Freshness

Signal Canvas proof surface

Canonical route: /signal-canvas/reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models

stale

Proof freshness: stale
Proof status: partial
Display score: 8/10
Last proof check: 2026-03-19
Score updated: 2026-04-02
Score fresh until: 2026-05-02
References: 0
Source count: 0
Coverage: 50%

This page is showing the last landed evidence receipt and score bundle because the latest proof data is outside the freshness window.

Agent Handoff

REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models

Canonical ID reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models | Route /signal-canvas/reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models

REST example

curl https://sciencetostartup.com/api/v1/agent-handoff/signal-canvas/reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models

MCP example

{
  "tool": "search_signal_canvas",
  "arguments": {
    "mode": "paper",
    "paper_ref": "reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models",
    "query_text": "Summarize REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models"
  }
}

source_context

{
  "surface": "signal_canvas",
  "mode": "paper",
  "query": "REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models",
  "normalized_query": "2603.16576",
  "route": "/signal-canvas/reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models",
  "paper_ref": "reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models",
  "topic_slug": null,
  "benchmark_ref": null,
  "dataset_ref": null
}

Paper mode· single-doc scopescope: reforge-multi-modal-attacks-reveal-vulnerable-concept-unlearning-in-image-generation-models

Preparing verified analysis

GitHub Code Pulse

Cached

Stars

1

Health

D

Last commit

12/30/2025

Forks

0

Open repository

Claim map

Strong 8Mixed 0Weak 0

Evidencepartial
REFORGE significantly improves attack success rate while achieving stronger semantic alignment and higher efficiency than involved baselines.
Implicationpartial
Directly stated in abstract with strong experimental support implied
Verificationpartial
partial
Evidencepartial
REFORGE optimizes perturbations with a cross-attention-guided masking strategy that allocates noise to concept-relevant regions.
Implicationpartial
Explicitly described in abstract as core methodology
Verificationpartial
partial
Evidencepartial
These results expose persistent vulnerabilities in current IGMU methods and highlight the need for robustness-aware unlearning against multi-modal adversarial attacks.
Implicationpartial
Direct conclusion stated in abstract with experimental evidence implied
Verificationpartial
partial
Evidencepartial
REFORGE significantly improves attack success rate while achieving stronger semantic alignment and higher efficiency than involved baselines.
Implicationpartial
Directly stated in abstract with experimental comparison implied
Verificationpartial
partial
Evidencepartial
Despite growing attention, the robustness under adversarial inputs, particularly image-side threats in black-box settings, remains underexplored.
Implicationpartial
Explicitly stated as research gap in abstract
Verificationpartial
partial
Evidencepartial
We present REFORGE, a black-box red-teaming framework that evaluates IGMU robustness via adversarial image prompts.
Implicationpartial
Explicit definition of the framework in abstract
Verificationpartial
partial
Evidencepartial
Image Generation Model Unlearning (IGMU) mitigates these risks by removing harmful concepts without full retraining.
Implicationpartial
Direct statement of purpose in abstract
Verificationpartial
partial
Evidencepartial
REFORGE initializes stroke-based images and optimizes perturbations with a cross-attention-guided masking strategy.
Implicationpartial
Explicitly described as part of the method in abstract
Verificationpartial
partial

Startup potential card

Startup potential card preview

Share on X LinkedIn