王选所学生参加国际文档分析与识别大会ICDAR 2025
发布时间:2025-10-08
发布时间:2025-10-08
2025年9月16日至21日,文档分析与识别领域的重要学术会议——第19届国际文档分析与识别大会(International Conference on Document Analysis and Recognition,ICDAR 2025)在中国武汉召开。王选所文档智能研究团队在此次会议上录用了2篇论文,硕士生胡蕙滢与王拓代表研究团队参与了此次会议,并进行了相关论文展示与报告。
ICDAR作为文档分析与识别领域的旗舰会议,吸引了全球范围内高校、科研机构及企业的顶尖学者参与。论文主题横跨文档布局分析、手写识别、历史文档分析、文档合成、多模态文档理解模型、自然语言处理应用于文档理解、文档可信性与溯源、拍照文档方法和字体分析等方向,充分展示了DAR在模型规模化、任务复杂化与数据多样化背景下的系统性进展。
本次录用的两篇论文均发表于Springer LNCS会议论文集,分别是两篇poster,具体信息及核心成果如下:
Huiying Hu, Yixiao Zhou, Xiaoqing Lyu, Multimodal Content Alignment with LLM for Visual Presentation of Papers, ICDAR 2025
该论文针对“将整篇学术论文一键PPT”时存在的图文错位、关键信息遗漏和版式杂乱等痛点,提出基于大语言模型的多模态对齐框架 Paper2PPT。整体采用“双塔-跨模态-解码”三段式结构:文本侧用 LLM 抽取章节逻辑并生成“段落-标题-关键词”层次化语义标签;视觉侧用 ViT 检测、分割论文中的图、表、照片,并通过轻量级图神经网络建立“图-段落”关联图;跨模态对齐模块将文本标签与视觉区域映射到联合潜空间,利用对比学习最大化正样本互信息,使模型学会“哪段文字该配哪张图”。在 MIND 论文集 2800 篇英文论文上的实验显示,Paper2PPT 在图文一致性等指标上均显著超越现有最佳基线,为学术成果的可视化传播提供了高效、易用的全新方案。
Tuo Wang, Yixiao Zhou, Tongwei Zhang, Zhicheng He, Yumeng Zhao, Xiaoqing Lyu, SSSI: Self-prompted Segmentation of Scientific Illustrations, ICDAR 2025
该论文针对科学插图(复杂流程图、结构图)中“子区域分割”面临的文本干扰、子区域范围不明确被过度分割、缺乏标注三大难题,提出自提示分割框架 SSSI。方法无需人工标注,自动利用插图内“文本-图形”空间关系生成提示。对于文本干扰的问题,OCR 先验模块检测并屏蔽所有文本像素,消除文本的干扰;然后将去文本的论文插图进行预分割,获得初始掩膜,同时以先抢OCR提取的文本框为中心对齐预分割的初始掩膜,生成“box prompts”;最后设计动态点采样算法,在box prompts动态采样提示点,并进行迭代掩码生成,实现无监督高精度子区域提取。
上一篇 没有了