Publications

Bingbing Wen, Sirajul Salekin, Feiyang Kang, Bill Howe, Lucy Lu Wang, Javier Movellan, Manjot Bilkhu (2026). MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining. ICLR 2026 DATA-FM.

Zhen Cao, Bingbing Wen, Lucy Lu Wang (2026). Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification. arXiv.

Lin Guo, Chenhao Yuan, Meng Zhong, Robert Wolfe, Rui Zhong, Yuxuan Xu, Bingbing Wen, Hao Shen, Others (2026). SusBench: An Online Benchmark for Evaluating Dark Pattern Susceptibility of Computer-Use Agents. IUI 2026.

Zhen Cao, Bingbing Wen, Lucy Lu Wang (2025). Asking the Missing Piece: Context-Driven Clarification for Ambiguous VQA. NeurIPS 2025 FoRLM.

Yifei Yang, Changping Lee, Sheng Shen Feng, Dongxu Zhao, Bingbing Wen, Andrew Z. Liu, Yulia Tsvetkov, Bill Howe (2025). Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations?. NeurIPS 2025 D&B.

Ziyu Su, Fan Mo, Guancheng Liang, Jing Zhang, Bingbing Wen, Pratiksha Tiwari, Jian-Yun Nie (2025). Tensorized Clustered LoRA Merging for Multi-Task Interference. arXiv.

Bingbing Wen, Faeze Brahman, Zhan Su, Shangbin Feng, Yulia Tsvetkov, Lucy Lu Wang, Bill Howe (2025). MARVEL: Modular Abstention for Reliable and Versatile Expert LLMs. ICML 2025.

Jihan Yao, Yuxuan Hu, Yichen Yi, Bin Han, Sheng Shen Feng, Guande Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Others (2025). MMMG: A Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation. arXiv.

Chenjun Xu*, Bingbing Wen*, Bin Han, Robert Wolfe, Lucy Lu Wang, Bill Howe (2025). Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs. ACL 2025.

Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia (2025). AutoScale-Automatic Prediction of Compute-optimal Data Composition for Training LLMs. COLM 2025.