How Much Vision Does Multimodal Reasoning Need? Vision-Stripping for Multimodal Benchmarks

Published in Under review, 2026

This work studies how much visual information multimodal reasoning needs through vision-stripping for multimodal benchmarks.

Recommended citation: Weijia Zhang, Zijia Liu, Tianyi Zhang, Ruiqi Chen, Lian Zhang, Haoru Li, Haoqi Chen, and Jiaxuan You. (2026). "How Much Vision Does Multimodal Reasoning Need? Vision-Stripping for Multimodal Benchmarks." Under review at NeurIPS 2026.
Download Paper

Share on

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

Weijia (Charlie) Zhang

Share on