关于我
我是南京大学计算机科学与技术系媒体计算组的博士生,师从王利民教授。在此之前,我在吉林大学计算机科学与技术学院完成了本科学习,并于 2023 年 6 月获得学士学位。
我的主要研究方向是计算机视觉与深度学习,近期主要集中在多模态大语言模型(MLLM)和视频检索领域。本科期间,我的研究主要集中在多模态图像引导下的深度图像超分辨率。
同时,我还是一位比较热爱 HomeLab 的发烧友,在家中搭建了一个小型机柜,包含有两台 1U 与 2U 的服务器。并且对 Linux、网络与路由比较感兴趣。如果你有兴趣看看,欢迎移步至我的博客(施工中)。
🔥 最新动态
- 2025.06.02: 我们发布了 VideoCap-R1, 采用强化学习 GRPO 算法后训练来增强 MLLM 的视频动作描述能力。这是视频描述领域的第一个针对强化学习的系统性研究。
- 2025.03.20: 我开源了学术主页模板 Zero Academic Page 。欢迎大家使用,喜欢的花顺便给我颗小星星吧 🌟! 这一主页的设计思路来源于我的学长高若朋 的个人主页。
- 2025.03.17: 我发布了 CaReBench,一个包含 1000 个高质量视频的细粒度基准数据集,并且带有详细的、层次化的人工标注。此外还包含有一个很奇妙的模型 CaRe,统一了细粒度视频检索和描述任务。
📝 论文
VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking
Desen Meng, Rui Huang, Zhilin Dai, Xinhao Li, Yifan Xu, Jun Zhang, Zhenpeng Huang, Meng Zhang, Lingshu Zhang, Yi Liu, Limin Wang. in arXiv, 2025.CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval
Yifan Xu, Xinhao Li, Yichun Yang, Desen Meng, Rui Huang, Limin Wang. in arXiv, 2025.
💁♂️ 学术服务
- 审稿人,Pattern Recognition (PR),2025
- 审稿人,International Journal of Computer Vision (IJCV),2025
🛠️ 项目
Zero Academic Page (HTML, Hugo) | 作者
Zero Academic Homepage 是一个简洁、现代且响应式的学术个人主页模板,基于 Hugo 构建。Beszel (Go) | S.M.A.R.T. 子系统贡献者
Beszel 是一个轻量级的服务器监控平台,包含 Docker 统计、历史数据和警报功能。它具有用户友好的 Web 界面,配置简单,开箱即用。支持自动备份、多用户、OAuth 认证和 API 访问。
👨🎓 教育背景
- 2023.6 - 至今 | 博士,南京大学计算机科学与技术系
- 2019.9 - 2023.6 | 本科,吉林大学计算机科学与技术学院
- 2016.9 - 2019.6 | 高中,就读于苏州实验中学
💻 实习经历
- 2024.12 - 2025.6 | 华为 2012 实验室,南京
- 2025.6 - 至今 | 腾讯混元,北京
📪 联系方式
- 主要邮箱: i@yi.fan
- 次要邮箱: yifanxu@smail.nju.edu.cn