数字音频实验室

》研究方向


	研究室主要研究方向：
	一、多媒体情感分析与识别
	二、数字音乐挖掘与检索
	三、广播及自媒体内容分析与检索
	四、音视频事件检测与挖掘

一、多媒体情感分析与识别
1995年，Picard提出关于如何通过情感计算来选择多媒体内容的想法。她设想了一个内容播放器，该播放器能够感知用户的情感状态，并发送与用户情感状态相匹配的内容。要实现这个设想就一定需要理解内容本身的情感。2001年，Hanjalic和Xu提出一个面向用户情感的视频内容分析的概念，这开创了针对理解视频内容情感内涵研究的先河。由于当前用户产生内容的快速增长，经典的、基于认知的索引方法已显现出它的局限性。基于情感的索引所显现出的、潜在的替代性，吸引了多媒体研究的学者们。用户也期望内容推荐和分发系统，能够更好地适应他们的体验和情感。虽然用户的互动与社会信息正在弥合人和机器之间存在的鸿沟，但是，对内容和用户的情感理解将一定会改进用户的体验。多媒体情感分析与识别的研究目标是，在多媒体内容的推荐和检索中使用情感因素。例如，当把“我想听一首欢快的歌”、“我想看一部恐怖片”等检索条件输入给计算机系统时，计算机系统能够给出满足要求的响应。其中关键的前提是，多媒体内容的情感属性，不是人工标注的，而是计算机自己通过计算获得的。多媒体情感分析识别与识别研究的一个关键问题是如何界定多媒体内容的情感。一直以来存在两种关于多媒体内容情感的说法，即“表达说”和“唤起说”。表达说认为多媒体内容的情感，是客观的，是作者要传达给受众，抑或作品实际表现的情感倾向，这种情感倾向会被听众或观众感受到，并产生共鸣。唤起说则认为，多媒体内容的情感是一种主观体验，是因人而异的。也即，多媒体内容的情感是由受众决定的。无论“表达说”还是“唤起说”都有其合理的立说的基础，但从情感计算研究的角度，更容易接受“表达说”。实际情况也是如此，采用“表达说”界定多媒体内容的情感已是学术界的共识。多媒体情感分析和识别的研究内容包括： 1)音乐、图像及视频的情感内容分析 2)多模态融合的情感内容理解 3)情感的多媒体索引 4)内容检索与推荐中的情感 5)歌词和博客的情感分析 6)社会媒体与情感分析 7)情感评测基准的建设 8)情感内容分析中的认知学、心理学观察 9)基于情感的多媒体应用 10)基于情感的多媒体事件检测本研究方向涉及的技术包括数字音频处理、数字视频处理、机器学习、数据挖掘、情感计算等。研究的成果可广泛地应用于广电媒体、移动媒体、互联网、数字音乐、影视游戏配乐、安全、安防等领域。
二、数字音乐的挖掘与检索
据中国互联网络信息中心（CNNIC）2013年1月发布的《第31次中国互联网络发展状况统计报告》，网络音乐仍然是中国网民使用率居高不下的网络应用（互联网使用率为77.3%，移动互联网使用率50.9%）。而在网络音乐应用中，面对日益增长的音乐资源，音乐检索是最主要、最关键的功能。如何在大规模音乐集上提供令用户满意的检索手段和体验，是音乐信息检索（MIR）领域最具挑战的研究方向之一。Ja-Young Kim等人的研究]表明，用户描述音乐和检索音乐时最常用的词语是与情感（31%、24%）和使用场景（23%、29%）等相关的词语。Lee and Downie对427个用户做了一个关于音乐信息需求、使用和检索行为的调查，结果显示，通过“关联场景”、“应用的场合”及“地点或事件”来检索音乐的分别有41.9%、23.6%、20.7%的正响应。目前国内外的音乐网站，如Pandora、AllMusic、Last.FM、百度音乐、虾米、酷我及多米等，都已出现利用情感、使用场景、曲风等概念来组织或检索音乐资源。但是目前音乐的情感、使用场景、曲风的标注，都是人工来完成的，如何实现计算机自动标注，是本研究方向所要研究的内容。因此，本研究方向的主要研究内容包括： 1)音乐曲风的自动识别 2)音乐情感的自动识别 3)音乐使用场景的识别 4)基于音频内容的艺术家识别 5)多模态融合音乐概念识别 6)音乐的多模态特征 7)音乐概念能识别的评测基准数据集 8)基于社会标签的音乐概念自动标注本研究方向涉及的技术包括数字音频处理、机器学习、数据挖掘、情感计算等。研究的成果可广泛地应用于广电媒体、移动媒体、互联网、数字音乐、影视游戏配乐等领域。
三、广播及自媒体内容分析与检索
在过去的十年里，我们看到在视音频内容识别和分析领域已经取得了很大的进步。例如，声纹已经引领了许多成功的商业应用，并从根本上改变了人们收听、共享和存储音乐的方式。同时，在可视内容鉴别方面的研究和开发也已经到了一个转折点，大规模商业应用也已经开始出现。自动内容识别（ACR）的应用已经找到进入消费者应用的方法。同时，主要的好莱坞电影工作室和电视网络已经采用ACR来跟踪和管理他们大规模的内容。当广播质量的视频和音频分析已经达到一个高级阶段时，消费者产生内容的分析却还滞后。在广播媒体和用户产生的内容之间的媒体关联性存在着巨大的潜力。因此，在最近几年，用户产生的内容已经吸引了学术界和工业界不断增长的关注度。本研究方向既涉及广电媒体产生的多媒体数据，也涉及自媒体产生的内容，研究内容包括：（1）算法和技术方面 a)面向内容鉴别的音视频指纹技术 b)音视频内容的分段与分类 c)音视频内容的特征与描述 d)音视频内容的聚类 e)大规模数据集的索引、匹配与检索 d)面向内容分类的机器学习 e)基于内容的鉴别与分类的评估（2）系统及应用方面 a)自动内容识别 (ACR) b)面向广播电视的自动内容识别 c)内容识别系统及服务的实现 d)移动设备的内容鉴别本研究方向涉及的技术包括数字音频处理、数字视频处理、机器学习、数据挖掘。研究的成果可广泛地应用于广电媒体、移动媒体、互联网媒体等领域。
四、音视频事件检测与挖掘
自动多媒体监控系统利用不同的工具和技术，来采集、处理和分析来自各种传感器的数据。这些系统经常被设计成支持自动、半自动的决策制定，如产生一个报警信息，以响应一个监控事件，也为决策者提供辅助信息，以保障公共安全。在工业界和学术界有许多研究者对自动监控的各个方面的展开研究，如媒体流的自动分析、实时处理、事件检测、系统构造、质量评估等。毫无疑问音视频事件检测是自动监控系统的核心技术基础之一。本研究方的研究内容包括： 1)音频事件检测（Audio Event Detection 或 Acoustic event detection, AED） 2)视频事件检测（Video Event Detection,VED 或Surveillance Event Detection,SED） 3)音视频相结合的多模态事件检测（Multi-modal Event Detection 或Multimedia Event Detection , MED）三个相关的研究方面。音视频事件检测（AED）一般是指，在音频录音中自动检测非语音事件，如人的脚步声、玻璃的破碎声、枪声、爆炸声等。自动音频事件检测是一个很困难的研究领域。例如，2007年的CLEAR（Classification of Events, Activities and Relationships）评测中，最好的AED系统，对于连续的研讨会现场音频录音中检测预先定义的音频事件，其准确率也仅达到30%。视频事件是指在视频中某些对象参与发生的一系列活动，通常是用户感兴趣的语义内容。而视频事件检测（SED）一般是指，在视频序列中发现并定位这些活动出现的视频片段。自动视频事件检测同样难度很高。以2012年TRECVID评测中，事件检测任务的结果来看，对放置物体事件的检测，最好的系统的准确率只有16%（检出50个，检对8个），而且是在621预知事件的背景下。在音频事件检测和视频事件检测准确率都不高的情况下，有研究结果表明，将音视频事件检测与视频事件检测相结合，可以显著地提高事件检测系统的性能，这种结合可以在特征层、模型训练层，或应用系统层实现。本研究方向涉及的技术包括数字音频处理、数字视频处理、机器学习、数据挖掘、情感计算等。研究的成果可应用于安全、安防等所有涉及监控的领域。