publications

My publications in reversed chronological order.

2026

CVPR 2026

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, and Limin Wang

CVPR, 2026

arXiv Code Website

2025

ICCV 2025

p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

ICCV, 2025

arXiv Code
arXiv 2025

VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

arXiv preprint, 2025

arXiv