Asking the Missing Piece: Context-Driven Clarification for Ambiguous VQA

Dec 1, 2025·

Zhen Cao

Bingbing Wen

Lucy Lu Wang

· 1 min read

Abstract

We study context-driven clarification strategies for ambiguous visual question answering, enabling models to ask targeted follow-up queries when the available context is insufficient to answer reliably.

Type

Publication

NeurIPS 2025 Workshop on Foundations of Reasoning in Language Models

We explore how VQA systems can ask targeted clarification questions when initial context is ambiguous, improving reliability and interpretability in multimodal reasoning.

Last updated on Dec 1, 2025

Visual Question Answering Clarification Reasoning

Authors

Bingbing Wen

PhD Student

← SusBench: An Online Benchmark for Evaluating Dark Pattern Susceptibility of Computer-Use Agents Jan 1, 2026

Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations? Sep 1, 2025 →