Yuhang Zang

Hi, I am Yuhang Zang (臧宇航), a young researcher at Shanghai AI Laboratory. I obtained my PhD at the Nanyang Technological University in 2023, supervised by Prof. Chen Change Loy. I obtained my Bachelor's degree at UESTC in 2019.

I regularly serve as an Area Chair for NeurIPS, ICLR, CVPR, AAAI, and COLM. I also serve as the Action Editor for Transactions on Machine Learning Research (TMLR).

Research Focus: My current research focuses on 1) post-training for multimodal LLMs (reinforcement fine-tuning, reward models), and 2) vision-language pre-training.

News

[05/2026] Selected as CVPR 2026 Outstanding Area Chair.
New!
[02/2026] ARM-Thinker, ARC-VL, G2RPO, Spatial-SSRL, and TRivia were accepted by CVPR 2026.
New!
[01/2026] Daedal, DiCache, SeC, SIM-CoT, ScaleCap, STAR-Bench, VSA, and CapRL were accepted by ICLR 2026.
New!
[09/2025] UnifiedReward-Think and Hi-Flow were accepted by NeurIPS 2025.
[06/2025] Visual-RFT, MM-IFEngine, X-Prompt, Bootstrap3D, Grounded CoT Highlight, Light-A-Video, MIR, SAM2Long were accepted by ICCV 2025.
[05/2025] IXC-2.5-Reward and Light-ColPali were accepted by Findings of ACL 2025.
[05/2025] VideoRoPE Oral and SongGen were accepted by ICML 2025.
[02/2025] ByTheWay, OVO-Bench, Dispider, PyramidDrop and WildAvatar were accepted by CVPR 2025.
[01/2025] MIA-DPO and MotionClone were accepted by ICLR 2025.
[09/2024] MMLongbench-Doc Spotlight, ShareGPT4Video and MMDU were accepted by NeurIPS 2024 DB Track.
[09/2024] InternLM-XC2-4khd, VideoStreaming and MMStar were accepted by NeurIPS 2024.
[08/2024] VLMEvalKit was accepted by ACM MM 2024 Open Source Software Competition.
[07/2024] Long-CLIP and MVSGaussian were accepted by ECCV 2024.
[02/2024] Alpha-CLIP was accepted by CVPR 2024.
[01/2024] My Apple internship project, O-GEN, was accepted by ICLR 2024.
[06/2023] I joined Apple (AI/ML) as a research intern.
[12/2022] CascadeMatch was accepted by IJCV.
[07/2022] OV-DETR was accepted by ECCV 2022 Oral.

Selected Papers Full List Scholar

New!

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Neural Information Processing Systems (NeurIPS), 2025

arXiv:2505.03318 0 0 🤗Models

New!

Visual-RFT: Visual Reinforcement Fine-Tuning

Ziyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang

IEEE International Conference on Computer Vision (ICCV), 2025

arXiv:2503.01785 0 0 🤗Dataset

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Ziyu Liu, Shengyuan Ding, Shenxi Wu, Yubo Ma, Haodong Duan, Wenwei Zhang, Kai Chen, Dahua Lin, Jiaqi Wang

Findings of the Association for Computational Linguistics (Findings of ACL), 2025

arXiv:2501.12368 0 0 🤗IXC 2.5 Reward 🤗IXC 2.5 Chat

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin

International Conference on Machine Learning (ICML), 2025 Oral

arXiv:2502.05173 0 0

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

Neural Information Processing Systems (NeurIPS), 2024

arXiv:2404.06512 0 0

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao, Xinze Li, Xinyuan Lu, Ziyu Liu, Yan Ma, Xiaoyi Dong, Pan Zhang, Liangming Pan, Yu-Gang Jiang, Jiaqi Wang, Yixin Cao, Aixin Sun

Neural Information Processing Systems (NeurIPS), 2024 (Datasets and Benchmarks Track) Spotlight

arXiv:2407.01523 0 0 Home 🤗Dataset

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang

International Conference on Learning Representations (ICLR), 2024

arXiv:2401.15914 0

Contextual Object Detection with Multimodal Large Language Models

Yuhang Zang, Wei Li, Jun Han, Kaiyang Zhou, Chen Change Loy

International Journal of Computer Vision (IJCV), 2024

arXiv:2305.18279 0 0 Home 🤗Space

Unified Vision and Language Prompt Learning

Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy

arXiv 2022

arXiv:2210.07225 0 0

Semi-Supervised and Long-Tailed Object Detection with CascadeMatch

Yuhang Zang, Kaiyang Zhou, Chen Huang, Chen Change Loy

International Journal of Computer Vision (IJCV), 2023

arXiv:2305.14813 0

Open-Vocabulary DETR with Conditional Matching

Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy

European Conference on Computer Vision (ECCV), 2022 Oral

arXiv:2203.11876 0 0 Home

FASA: Feature Augmentation and Sampling Adaptation for Long-Tailed Instance Segmentation

Yuhang Zang, Chen Huang, Chen Change Loy

IEEE International Conference on Computer Vision (ICCV), 2021

arXiv:2102.12867 0 0 Home

Services

Area Chair / Senior Program Committee:

CVPR 2026 ICLR 2026 COLM 2026 AAAI 2026 AIA NeurIPS 2025 COLM 2025

Action Editor:

TMLR

Conference Reviewer:

ACL ARR ICML AISTATS ICCV ECCV ACM MM

Journal Reviewer:

IEEE TPAMI IJCV IEEE TCSVT IEEE TMM PR

Workshop Organizer:

VPLOW@CVPR2024

Awards

Recognition

CVPR 2026 Outstanding Area Chair

CVPR 2026

2026

Influential Paper (Paperdigest)

Visual-RFT: Visual Reinforcement Fine-Tuning, Most Influential ICCV Papers: #2 in 2026-03 Version

2026

Influential Paper (Paperdigest)

Visual-RFT: Most Influential ArXiv CV 2025: #5 in 2025-09 Version

2025

Influential Paper (Paperdigest)

MMStar: Most Influential NeurIPS 2024: #9 in 2025-03 Version, #9 in 2025-09 Version

2024

Influential Paper (Paperdigest)

InternLM-XComposer2: Most Influential ArXiv CV 2024: #10 in 2024-10 Version

2024

2nd Place

LSVOS Challenge - Complex Video Object Segmentation Track

ICCV 2025 Workshop

2025

3rd Place

LVIS Challenge 2020 - Instance Segmentation

ECCV 2020 Workshop

2020

1st Place

Google Open Images 2019 - Object Detection Challenge

ICCV 2019 Workshop

2019