王选所数字视频研究室杨帅老师参加CVPR 2025

2025年6月11日至6月15日,国际计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美国田纳西州纳什维尔召开。王选所数字视频研究室杨帅助理教授参加了此次会议。

CVPR每年召开一次,是计算机视觉领域的顶级会议。本次会议吸引了来自学术界、工业界来自超过70个国家和地区共计9300人参加。会议包括了口头报告、海报展示、workshops和tutorials等环节。

王选所数字视频研究室杨帅助理教授会场照片

本次大会共提交了13008篇论文,录取2872篇论文,录取率为22.1%。

CVPR2025开幕式介绍会议数据

王选所博士后高翔为第一作者发表1篇论文,作者还包括杨帅,刘家瑛(通讯)。论文具体信息如下:

Xiang Gao, Shuai Yang, and Jiaying Liu. "PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures using Phase-Transferred Diffusion Model", Proc. of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, US, June 2025.

本工作提出了相位迁移扩散模型,一个基于文生图扩散模型的即插即用的视错觉隐藏图像创作方法,实现将任意的参考图像和谐地溶解、隐藏进由任意提示文本所描述的场景中去。所生成的视错觉隐藏图像在近距离视角下呈现出提示文本所描述的场景内容细节,而在远距离视角下呈现出参考图像的视觉结构线索。本工作首次探索了从文本引导的图像翻译的技术角度实现视错觉隐藏图像的创作,提出了一个新颖的扩散模型隐空间特征的相位迁移技术,以即插即用的方式实现了参考图像结构化信息与提示文本语义信息在扩散模型隐空间的深度融合,无需任何模型训练、模型微调、以及在线优化。

杨帅助理教授做海报展示

王选所硕士生马逸扬为第一作者发表1篇论文,王选所的作者还包括刘家瑛(通讯)。论文具体信息如下:

Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai Yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan. "JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation", Proc. of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, US, June 2025.

在多模态人工智能领域,基于预训练视觉编码器与多模态大语言模型(MLLM)的方法(如LLaVA系列)在视觉理解任务上表现出色。同时,基于Rectified Flow的模型(如Stable Diffusion 3及其衍生版本)在视觉生成方面取得了显著进展。那么,能否将这两种技术范式整合到一个统一的模型中呢?本工作通过在LLM框架内直接融合这两种结构,可以有效统一视觉理解与生成能力。该模型架构简单,将基于视觉编码器和LLM的理解框架与基于Rectified Flow的生成框架直接结合,实现了在单一LLM中的端到端训练。JanusFlow 的核心设计包括:解耦的视觉编码器:分别优化理解与生成能力。表征对齐:利用理解端编码器对生成端特征进行对齐,大幅提升Rectified Flow的训练效率。基于1.3B规模的LLM,JanusFlow在视觉理解和生成任务上均超越了此前同规模的统一多模态模型。

                                                                                                           海报展示

CLOSE

上一篇 下一篇