Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models | Signal Canvas | ScienceToStartup

Page Freshness

Signal Canvas proof surface

Canonical route: /signal-canvas/jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models

stale

Proof freshness: stale
Proof status: unverified
Display score: 7/10
Last proof check: 2026-04-03
Score updated: 2026-04-03
Score fresh until: 2026-05-03
References: 0
Source count: 0
Coverage: 33%

This page is showing the last landed evidence receipt and score bundle because the latest proof data is outside the freshness window.

Agent Handoff

Canonical ID jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models | Route /signal-canvas/jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models

REST example

curl https://sciencetostartup.com/api/v1/agent-handoff/signal-canvas/jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models

MCP example

{
  "tool": "search_signal_canvas",
  "arguments": {
    "mode": "paper",
    "paper_ref": "jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models",
    "query_text": "Summarize Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models"
  }
}

source_context

{
  "surface": "signal_canvas",
  "mode": "paper",
  "query": "Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models",
  "normalized_query": "2604.02048",
  "route": "/signal-canvas/jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models",
  "paper_ref": "jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models",
  "topic_slug": null,
  "benchmark_ref": null,
  "dataset_ref": null
}

Evidence Receipt

Route status: building

Claims: 8

References: Pending verification

Proof: Verification pending

Freshness state: computing

Source paper: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

PDF: https://arxiv.org/pdf/2604.02048v1

Source count: Pending verification

Coverage: 33%

Last proof check: 2026-04-03T20:50:40.241Z

Signal Canvas receipt window

Watch and verify: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

/buildability/jagle-building-a-large-scale-japanese-multimodal-post-training-dataset-for-vision-language-models

Watchwatch

Subject: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

Verdict

Watch

Verdict is Watch because viability or proof quality is intermediate and should be re-evaluated before execution.

Preparing verified analysis

GitHub Code Pulse

No public code linked for this paper yet.

Claim map

Strong 8Mixed 0Weak 0

Evidencepartial
we introduce Jagle, the largest Japanese multimodal post-training dataset to date, comprising approximately 9.2 million instances across diverse tasks
Implicationpartial
Explicitly stated in the abstract with specific numeric evidence
Verificationpartial
partial
Evidencepartial
Rather than relying on existing VQA datasets, we collect heterogeneous source data, including images, image-text pairs, and PDF documents
Implicationpartial
Directly stated in the abstract with clear methodological description
Verificationpartial
partial
Evidencepartial
generate VQA pairs through multiple strategies such as VLM-based QA generation, translation, and text rendering
Implicationpartial
Directly stated in the abstract with specific methodological details
Verificationpartial
partial
Evidencepartial
a 2.2B model trained with Jagle achieves strong performance on Japanese tasks, surpassing InternVL3.5-2B in average score across ten Japanese evaluation tasks
Implicationpartial
Explicitly stated in the abstract with clear comparative results
Verificationpartial
partial
Evidencepartial
approaching within five points of Qwen3-VL-2B-Instruct
Implicationpartial
Explicitly stated in the abstract with specific performance comparison
Verificationpartial
partial
Evidencepartial
combining Jagle with FineVision does not degrade English performance; instead, it improves English performance compared to training with FineVision alone
Implicationpartial
Directly stated in the abstract with clear performance claim
Verificationpartial
partial
Evidencepartial
this strategy does not readily extend to other languages, where VQA datasets remain limited in both scale and domain coverage, posing a major obstacle to building high-quality multilingual and non-English VLMs
Implicationpartial
Directly stated in the abstract as motivation for the work
Verificationpartial
partial
Evidencepartial
To facilitate reproducibility and future research, we release the dataset, trained models, and code
Implicationpartial
Explicitly stated in the abstract with clear release information
Verificationpartial
partial

Author intelligence and commercialization panels stay hidden until the proof receipt is verified, cites at least 3 references, includes at least 2 sources, and clears 50% coverage. The paper narrative and citation surfaces remain public while verification is pending.

Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

Use Signal Canvas as the narrative proof surface

Use this Signal Canvas via API or MCP

Signal Canvas proof surface