王选计算机研究所师生参加EMNLP 2025

发布时间:2025-11-20

第30届自然语言处理中的经验方法大会(EMNLP)于2025年11月4日至9日在苏州举行。它专注于推动自然语言处理实证方法的研究与发展,每年吸引全球学术界和工业界的从业人员分享最新研究成果。王选所师生发表多篇论文,并与国际同行进行了深入交流。

EMNLP25.jpg

[1] 王选所助理教授张辉帅以第一作者的身份发表1篇论文:

Zhang, Huishuai et al. “AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training.” Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing.

本文提出了一种名为AdamS的新型优化器,作为Adam的简单高效替代方案,适用于大语言模型的预训练和后训练。该方法通过引入一种新颖的分母设计——即对动量与当前梯度的平方加权和进行开方,从而省去了传统Adam中二阶矩估计的计算需求。因此,AdamS在保持与SGD相同的内存和计算开销的同时,实现了更优的优化性能。此外,AdamS具备良好的易用性:它能够直接沿用AdamW的超参数设置,且完全与模型无关,无需修改现有优化器接口或架构即可无缝集成至当前训练流程中。其设计动机源于Transformer优化目标中观察到的平滑性特性,即局部平滑性可由梯度幅值刻画,而这一幅值可进一步通过动量幅值近似估计。研究不仅建立了严格的理论收敛性保证,还提供了超参数选择的实用指导。在多项实验验证中,包括GPT-2和Llama2(最高130亿参数)的预训练以及后训练阶段的强化学习任务,AdamS均表现出强劲性能。凭借其高效性、简洁性和理论完备性,AdamS为现有优化器提供了一个极具竞争力的新选择。

 

[2] 王选所博士后岳潭以第一作者的身份发表1篇论文:

Tan Yue, Rui Mao, Zilong Song, Zonghai Hu, Dongyan Zhao. "F2TEval: Human-Aligned Multi-Dimensional Evaluation for Figure-to-Text Task." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.

图表生成文本(Figure-to-Text, F2T)任务旨在将图表信息转化为自然语言,是连接视觉感知与语言理解的重要技术。然而现有评估方法存在局限:基于参考文本的方法只能捕捉浅层语义并依赖昂贵的标注,无参考方法依赖多模态大模型但效率低、对指令敏感,且现有方法大多只能提供样本级整体评分,缺乏可解释性,也难以与专家级标准对齐。为此,我们提出F2TEval,一种面向专家标准的五维无参考评估方法,覆盖忠实性、完整性、简洁性、逻辑性和分析性,并通过轻量级专家混合模型和Hilbert–Schmidt独立性准则实现各维度评分表示的有效解耦,同时构建包含21类图表类型和35个应用领域的人类标注基准数据集 F2TBenchmark,用于支持F2T评估研究。实验表明,在仅用0.9B参数规模下,F2TEval 在性能与效率上均显著优于Gemini-2.0和Claude-3.5。

 

[3] 王选所博士生王越千同学以第一作者的身份发表1篇论文:

Wang, Y., Meng, X., Wang, Y., Liang, J., Wei, J., Zhang, H., & Zhao, D. (2025). VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format. Findings of the Association for Computational Linguistics: EMNLP 2025.

已有视频大语言模型的研究主要集中于模型架构与训练数据,而用户与模型的交互形式却鲜少被深入研究。本文创新性地提出“视频-文本二重奏”交互模式,实现了视频多模态大模型的主动交互(Proactive Interaction),使模型能够在视频流持续播放过程中实现实时对话与响应。为适配这一模式,本文构建了训练数据集MMDuetIT,并设计了MAGQA任务作为实时响应能力的评估基准。实验表明,基于该模式训练的MMDuet模型在时间敏感任务中取得显著性能提升,同时实现了视频播放期间的实时交互能力。这一突破为视频大语言模型在直播解析等实时场景中的应用开辟了新路径。

 

[4] 王选所博士生张泽楷同学以第一作者的身份发表1篇论文:

Zhang Z, Guo Y, Lin J, Zhang, H., & Zhao, D. (2025). English as Defense Proxy: Mitigating Multilingual Jailbreak via Eliciting English Safety Knowledge. Findings of the Association for Computational Linguistics: EMNLP 2025.

当前大型语言模型的安全性保障存在显著的跨语言差异,例如,模型对英文输入的安全响应通常优于低资源语言。这种不一致性带来了潜在攻击风险:即使攻击者不精通某低资源语言,也可通过简单翻译绕过安全机制。传统解决方案通常将英语安全数据翻译为目标语言,并在此基础上进行多语言对齐,这一过程往往面临显著的“多语言对齐税”,即模型需在通用能力与安全性之间做出权衡。区别于传统方法对“翻译性英语安全知识”的依赖,我们提出直接利用模型在广泛英语对齐过程中所内化的“参数性英语安全知识”。前期实验表明,低资源语言的安全性主要与输出语言空间相关。基于此,我们提出E-Proxy(English as Defense Proxy),通过将英语作为统一的安全锚点,实现跨语言安全泛化。在对齐阶段,E-Proxy借助英语越狱提示激发模型内隐的安全知识,再通过语言映射机制将其迁移至其他语言。在多语言安全与通用能力的基准测试中,E-Proxy在安全性与通用性两方面均取得最优表现。进一步地,我们从机制层面揭示了其有效性来源:(1)英语提示能够有效激发参数中的安全知识。通过分析下一个token的logit分布,我们发现英语提示可显著激活表达拒绝行为的英语安全词,并从定性与定量角度验证了这一现象。(2)英语提示能够减少参数扰动,从而维持通用能力。通过计算训练前后模型参数的Principal Angle Distance,我们在多个模型上验证了E-Proxy所引起的参数变化更小,这为其保持优异通用能力提供了理论解释。


[5] 王选所硕士生袁旦龙同学以第一作者的身份发表1篇论文:

Yuan, D., Liu, J., Li, B., Zhang, H., Wang, J., Cai, X., & Zhao, D. (2024). ReMamba: Equip Mamba with Effective Long-Sequence Modeling. Findings of the Association for Computational Linguistics: EMNLP 2025.

我们的评测显示Mamba在长文本能力测试上远弱于transformer。同时我们观察到Mamba的过于频繁更新的状态空间容易导致Mamba长文本信息遗忘。通过修改Mamba选择遗忘变量delta的计算方法,我们在Mamba上设计了可导的Top-K提示压缩方法,显示保留关键信息并且减少状态空间更新次数,取得了长文本效果提升,长文本性能逼近transformer,同时保持极低的额外推理开销。


CLOSE