王选所语言计算与互联网挖掘实验室学生参加ACL 2025
第63届计算语言学协会年会(ACL 2025)于2025年7月27日至8月1日在奥地利维也纳举行。王选所语言计算与互联网挖掘实验室高铭齐、胡新宇、张浚哲、尹训健、王文清、张珍梁同学参加了此次会议。
ACL参会同学合影
作为自然语言处理(NLP)领域最具影响力的国际顶级会议,ACL每年吸引全球学者、业界专家和学生共聚一堂,分享最新研究成果与技术进展。本届大会的特别主题为“Generalization of NLP Models”,聚焦NLP模型的泛化能力与跨场景适应性,呼应学界和产业界对模型稳健性与可扩展性的持续关注。大会采用线下与线上相结合的混合形式,设有Keynote、Oral与Poster报告、系统演示等多元交流平台。ACL 2025共收到来自世界各地逾8300篇投稿,最终接收1699篇长文与1392篇Findings论文,主会录用率约为20%,充分体现了会议的学术竞争力与高质量标准。实验室本次参会展示了5篇论文,论文信息如下:
1. A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability
Xinyu Hu, Mingqi Gao, Li Lin, Zhenghan Yu, Xiaojun Wan
在自然语言生成(NLG)的元评估中,评估指标的表现通常是基于其与人类一致性的程度来衡量的。然而,我们发现传统的 NLG 元评估方法存在一些局限性,例如在人类评分处理上的问题,以及相关性度量选择上的模糊性,这些削弱了元评估的有效性。为此,我们提出了一种双视角的 NLG 元评估框架,针对不同的评估能力进行分析,从而提供更好的可解释性。此外,我们设计了自动构建相应评估基准的方法,无需额外的人工标注开销。我们基于所提出的元评估框架,选取16个具有代表性的大模型评估者,全面分析了它们在不同视角下的评估表现。
![]() |
![]() |
高铭齐和胡新宇海报展示
2. Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
Xunjian Yin, Xinyi Wang, Liangming Pan, Li Lin, Xiaojun Wan, William Yang Wang
大型语言模型 (LLMs) 的飞速发展显著提升了人工智能驱动的智能体在各类任务中的能力。然而,现有的智能体系统,无论是基于固定的管道算法还是预定义的元学习框架,都因受到人工设计组件的限制,无法探索整个智能体设计空间,从而可能错失全局最优的智能体设计方案。
在本文中,我们引入了哥德尔智能体(Gödel Agent),一个受哥德尔机启发的自我演化框架。它使得智能体能够以递归的方式自我改进,而无需依赖预定义的程序或固定的优化算法。哥德尔智能体利用大型语言模型,仅通过高层次的目标提示,就能动态修改自身的逻辑和行为。在数学推理和复杂智能体任务上的实验结果表明,哥德尔智能体的实现能够实现持续的自我改进,在性能、效率和泛化能力上均超越了人工设计的智能体。
尹训健同学海报展示
3. ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs
Zhenliang Zhang, Xinyu Hu, Huixuan Zhang, Junzhe Zhang, Xiaojun Wan
大型语言模型(LLMs)常面临幻觉(hallucination)问题。现有基于隐状态的幻觉检测方法多侧重于静态、孤立的表示,忽视了隐状态在各层之间的动态演化,从而限制了检测效果。为克服这一局限,我们将关注点转向隐状态的更新过程,并提出了一种新颖的度量指标ICR Score(Information Contribution to Residual Stream),用于量化各模块对隐状态更新的贡献。实证结果表明,ICR 分数在区分幻觉方面有效且稳定。基于这一发现,我们进一步提出了ICR 探针(ICR Probe)做幻觉检测,可捕捉隐状态的跨层演化。实验结果显示,ICR 探针在显著减少参数量的同时,取得了更优的性能。
张珍梁同学海报展示
4.Towards A “Novel” Benchmark: Evaluating Literary Fiction with Large Language Models
Wenqing Wang, Mingqi Gao, Xinyu Hu, Xiaojun Wan
本研究首次探索了LLMs在长篇小说评估中的应用,并提出了一个用于定量分析的多层次框架;发布了一个包含各种来源的英文和中文注释小说数据集,以及经过改进的指南,用于评估文学小说;评估了十个顶级LLMs,通过利用具有不同提示策略的不同LLMs,初步增强了自动小说评估,并基于细致的分析,提出了对当前 LLMs 在文学领域能力局限性的洞见,为未来模型优化提出见解。
王文清同学海报展示
5.MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency
Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Baizhou Huang, Xu Zhang, Xinyu Hu, Xiaojun Wan
多模态大型语言模型(MLLMs)容易出现非事实性或过时知识的问题,这些问题由于多模态知识的复杂性,可能表现为误解和误识别错误。以往的基准测试并未系统分析现有编辑方法在纠正这两类错误时的性能。为更好地表示和修正这些错误,我们将多模态知识分解为视觉和文本两个组成部分。不同类型的错误对应不同的编辑形式,分别针对多模态知识的不同部分进行修改。我们提出了MC-MKE,一个细粒度的多模态知识编辑基准,重点强调模态一致性(Modality Consistency)。该基准支持通过编辑相应知识部分分别纠正误解和误识别错误。我们在 MC-MKE 上评估了四种多模态知识编辑方法,结果揭示了它们的局限性,尤其是在保障模态一致性方面能力的不足。我们的研究突出了多模态知识编辑面临的挑战,并为开发更有效的多模态知识编辑技术提供了新的思路。
张浚哲同学海报展示
上一篇 没有了