Announcement_5 | Jun Zhang

Check our new paper TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs. We expose critical quality issues in existing VTG benchmarks and propose quality-assured datasets for both training and evaluation. Building upon reliable data, we explore algorithmic designs and release state-of-the-art open-source grounding models. [Website]