GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models | ScienceToStartup | ScienceToStartup