计算机所赵东岩、严睿研究组6篇人机对话最新成果亮相智能领域顶级会议IJCAI

据人工智能领域顶级国际会议The 27th International Joint Conference on Artificial Intelligence（IJCAI 2018）通知，计算机所赵东岩研究员和严睿研究员课题组的6篇论文被IJCAI 2018录用为口头报告论文。这6篇论文的研究内容全部集中在智能人机对话交互上。智能人机交互被认为是下一代人工智能的风口，极具挑战性与前瞻性。

IJCAI是人工智能领域的顶级国际会议，也是CCF A类会议。IJCAI 2018将于2018年7月13日至19日在瑞典斯德哥尔摩举行，共有3470篇论文提交，录用率为20.5%。其中，该课题组有1篇论文作为综述论文发表，该Track要求非常严格，接收的论文仅占所有录用论文总数的2%。

6篇论文的主要信息如下：

（1） Chitty-Chitty-Chat Bot: Deep Learning for Conversational AI

作者：严睿

本篇论文收录在本次IJCAI的Special Track上，作为综述论文发表，本次大会录用的全球700余篇论文中，仅有15篇论文被录用到这个track上。本文对近年来方兴未艾的智能对话技术做了深入浅出的探讨，系统的总结了对话式交互技术发展脉络，分门别类的加以阐述，同时对当前的人机对话发展热点进行了分析，并对未来的挑战与趋势做了预测与展望。本文收获了多位审稿人的一致好评，被认为是“教科书式的介绍”，并将“吸引大量研究者的兴趣”。

（2） Smarter Response with Proactive Suggestion: A New Generative Neural Conversation Paradigm.

作者：严睿，赵东岩

传统意义上的人机对话在多数情况下是基于一个经典模式“一言一语”，即用户讲一句话，对话系统回复一句话。但这样的模式太过于呆板，人工智能基本局限在尽力响应用户的输入上。本文提出一种新的对话模式，即针对用户的输入，系统产生一句应答，并且除此之外，另外抛出一句提示，告诉用户还可以接着聊什么比较有意思。在开放领域聊天中，用户往往对谈话内容持开放态度，因此这样一个新的对话模式能够体现对话系统的主动性，表现的更为智能，可以提升用户与系统的交互粘性。实验结果证明了本文方法的有效性。

（3）Learning to Converse with Noisy Data: Generation with Calibration

作者：尚明月，付振新，彭楠赟，冯岩松，赵东岩，严睿

近年来基于对话数据驱动的开放领域人机对话系统发展迅速，然而基于公开对话的数据通常会包含很多噪声，比如内容不相关，或者包含大量的信息量少的“通用回复”。现有的模型将所有质量良莠不齐的数据统一对待，会损伤模型的最终效果。本文提出了一种引入校正网络的端到端模型，其中校正网络控制每个样本反向传播过程中对参数更新的权重去引导模型学习高质量样本，减少对低质量样本的拟合。校正网络利用对话评测模型的思想，采用负样本采样的方法训练，最终对每个样本可产生一个评分。在训练对话模型过程中，该分值通过线性映射成为该样本的权重。实验方法证明了本文方法可以有效的提高对话模型的生成质量。

（4） Get The Point of My Utterance! Learning Towards Effective Responses with Multi-Head Attention Mechanism

作者：陶重阳，高莘，尚明月，武威，赵东岩，严睿

注意力机制已经成为序列-序列生成模型中广泛使用的方法。然而，以往基于序列生成的对话模型总是趋于生成通用的回复，模型学习到的注意力分布总是处于相同的语义方面。为了解决这个问题，本文提出了一种基于多头注意力机制的神经对话系统，旨在从问题(Query)中捕捉不同的语义方面。实验结果证明了本文方法的有效性。

（5） An Ensemble of Retrieval-Based and Generation-Based Human-Computer Conversation Systems

作者：宋伊萍，李政德，聂建云，张铭，赵东岩，严睿

当前人机对话系统的主流方式大致可以分为检索式对话系统与生成式对话系统。检索式对话系统需要预先收集大量的人-人对话语料，用户输入一句话后，系统需要在大量的检索库中寻找合适的应答。生成式对话系统则是根据人-人对话语料，学习人们的对话模式，在实际应用中，当用户输入一句话，系统重新产生一个新的回复。这两种模式具有天然的不同，但各自具有优势与劣势。本文提出一个整合的方式，将两种系统合二为一，整合长处，规避短板，使得对于一个用户的输入，系统集成后会从不同的渠道输出优化结合的结果，从而实现1+1大于2的性能，实验结果证明了本文方法的有效性。

（6） One “Ruler” for All Languages: Multi-Lingual Dialogue Evaluation with Adversarial Multi-Task Learning

作者：童小伟，付振新，尚明月，赵东岩，严睿

开放领域的对话系统质量评测是一个具有挑战性的话题，其中存在的一个问题是评测指标的打分结果与人类的打分结果相关性低。近年来，基于深度神经网络的评测模型大大提高了与人类打分结果的相关程度。然而，现有的方法都关注于从单语言语料库中抽取特征完成评测，不能很好地满足跨语言评测任务的需求。本项工作将多任务学习策略引入到对话质量评测中，以便适应不同任务的对话在同一个框架下的评测，提高对话评测系统的泛化性能。结果表明：相比于大多数评测方法，我们提出的多语言评测模型与人类打分结果具有较高相关性。