北大王选所彭宇新团队在细粒度多模态大模型上取得系列进展
发布时间:2026-01-16
发布时间:2026-01-16
多模态大模型在通用任务上表现出色,但缺乏细粒度感知能力,如何做到又广(开域泛化能力)又深(细粒度感知能力),是推动大模型从聊天助手到自动驾驶、具身智能、医疗影像、工业制造等实际应用中急需解决的关键问题。针对上述问题,北京大学王选计算机研究所彭宇新教授团队近期取得了一系列重要进展,包括研发并开源了首个细粒度多模态大模型Finedefics、发表首篇细粒度多模态大模型综述论文等。

相关成果发表于IEEE TPAMI、CVPR、ICLR等人工智能领域国际顶级期刊和会议,包括CVPR的口头报告论文(接收率3.3%)和亮点论文(接收率13.5%)。
针对现有大模型无法准确区分细粒度类别的问题,团队研发并开源了首个细粒度多模态大模型Finedefics,首先构建细粒度子类别的属性知识,然后通过判别-生成统一的指令微调将属性知识分别与细粒度子类别的图像与文本对齐,实现数据-知识协同训练,提高了多模态大模型的细粒度图像分类能力,准确率达到76.84%,相比阿里的通义千问大模型(QwenVL-Chat)提高了9.43%,相比HuggingFace的Idefics2大模型提高了10.89%。本工作发表于人工智能领域国际顶级会议ICLR 2025。

图1 细粒度多模态大模型Finedefics
针对现有大模型无法准确识别图像中微小目标的问题,团队提出了细粒度视觉推理算法DyFo,通过视觉专家模型与多模态大模型的协同,在无需额外训练的前提下,模拟人类视觉搜索行为逐步聚焦图像关键区域,提高了多模态大模型的细粒度视觉识别能力,准确率达到81.15%,相比阿里的通义千问大模型(Qwen2-VL)提高了8.90%。本工作发表于计算机视觉领域国际顶级会议CVPR 2025,入选大会亮点论文(接收率13.5%)。

图2 细粒度视觉推理算法DyFo
针对运动视频中人体动作难以分析的问题,团队提出了以人为中心的细粒度人体动作质量评估方法Uni-FineParser,通过聚焦前景目标动作区域,提取以人为中心的动作表征,然后通过细粒度对比回归将动作过程分解为连续的动作步骤,量化每个动作步骤的质量,综合各步骤质量差异预测最终动作质量得分,动作得分的斯皮尔曼相关系数达到95.01%。本工作发表于人工智能领域国际顶级期刊IEEE TPAMI 2025(影响因子18.6)。

图3 以人为中心的细粒度人体动作质量评估方法Uni-FineParser
根据团队在细粒度分析和多模态大模型领域的前沿探索与技术积累,发表了首篇细粒度多模态大模型综述论文,剖析了当前多模态大模型的三大挑战:(1)模型架构在细粒度特征建模上的不足,(2)高质量细粒度标注数据稀缺,(3)细粒度感知与计算效率之间的矛盾。论文从类别、空间、时间三个维度定义了细粒度感知,系统阐述了细粒度多模态大模型的最新研究进展,并深入探讨了精度-泛化-效率权衡、知识增强策略、理解与生成统一、大规模评测基准、细粒度多模态推理等未来发展方向。本工作发表于CJE 2026。

图4 细粒度感知定义
除上述代表论文外,彭宇新教授团队近期取得了如下主要研究成果:
(1)学术影响力:团队近期的4篇论文发表于人工智能领域国际顶级期刊IEEE TPAMI,1篇论文入选CVPR大会口头报告(接收率3.3%),3篇论文入选CVPR大会亮点论文(接收率13.5%),2篇论文入选2025年ESI高被引论文。
(2)开源生态构建:构建并开源了2个细粒度人体运动分析数据集和评测基准FineDiving-HM和FineSports,已被斯坦福大学、英伟达等60多个研究机构使用。团队研发了首个在国产华为昇腾处理器上完成训练的生物领域细粒度多模态大模型,并发布到开源社区。
(3)成果应用:团队研发了端侧大模型轻量化、美学理解、大模型强化学习加速、电商广告海报生成、电商短视频生成、自动驾驶障碍物感知等系统,应用于华为、快手、阿里、腾讯、美团、蔚来、中国电信、中国铁塔、中国航天科工三院等12家头部企业。
(4)国际权威评测:参加CVPR 2025第一视角视频检测竞赛、CVPR 2025多模态视觉问答竞赛、ACM MM 2025视频生成竞赛,均获第一名。
(5)科研项目与荣誉:彭宇新教授获2025年青年科学基金项目A类(原国家杰青)延续资助(当年资助期满的杰青项目中不超过20%获延续资助),入选2026年度IEEE Fellow、2025年度CCF会士,当选中国图象图形学学会第九届理事会副理事长,连续5年入选爱思唯尔“中国高被引学者”,主持2025年国家自然科学基金重点项目等。
彭宇新简介
彭宇新,北京大学二级教授、博雅特聘教授,IEEE/CCF/CAAI/CIE/CSIG Fellow,2019年国家杰出青年科学基金获得者(2025年获延续资助),2019年国家万人计划科技创新领军人才,2018年科技部中青年科技创新领军人才,863项目首席专家,国家重点研发计划“社会治理与智慧社会科技支撑(平安中国)”重点专项总体专家组专家,中国工程院“人工智能2.0”规划专家委员会专家,中国人工智能产业创新联盟专家委员会主任,中国图象图形学学会副理事长,北京图象图形学学会副理事长。
主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然基金重点(2项)、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文160多篇,获最佳论文奖2次。参加10届(10年)由美国国家标准与技术研究院(NIST)举办的国际评测TRECVID视频搜索比赛,均获第一名,参赛队伍包括斯坦福大学、卡内基梅隆大学、牛津大学等。
成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。担任IEEE TCSVT高级领域编委、IEEE TMM等期刊编委,培养博士生获中国计算机学会、中国电子学会等优博。
上一篇:产学研强强联合,王选所与高德共建空间智能创新生态
