自动多媒体监控系统利用不同的工具和技术,来采集、处理和分析来自各种传感器的数据。这些系统经常被设计成支持自动、半自动的决策制定,如产生一个报警信息,以响应一个监控事件,也为决策者提供辅助信息,以保障公共安全。在工业界和学术界有许多研究者对自动监控的各个方面的展开研究,如媒体流的自动分析、实时处理、事件检测、系统构造、质量评估等。
毫无疑问音视频事件检测是自动监控系统的核心技术基础之一。本研究方的研究内容包括:
1)音频事件检测(Audio Event Detection 或 Acoustic event detection, AED)
2)视频事件检测(Video Event Detection,VED 或Surveillance Event Detection,SED)
3)音视频相结合的多模态事件检测(Multi-modal Event Detection 或Multimedia Event Detection , MED)
三个相关的研究方面。
音视频事件检测(AED)一般是指,在音频录音中自动检测非语音事件,如人的脚步声、玻璃的破碎声、枪声、爆炸声等。自动音频事件检测是一个很困难的研究领域。例如,2007年的CLEAR(Classification of Events, Activities and Relationships)评测中,最好的AED系统,对于连续的研讨会现场音频录音中检测预先定义的音频事件,其准确率也仅达到30%。
视频事件是指在视频中某些对象参与发生的一系列活动,通常是用户感兴趣的语义内容。而视频事件检测(SED)一般是指,在视频序列中发现并定位这些活动出现的视频片段。自动视频事件检测同样难度很高。以2012年TRECVID评测中,事件检测任务的结果来看,对放置物体事件的检测,最好的系统的准确率只有16%(检出50个,检对8个),而且是在621预知事件的背景下。
在音频事件检测和视频事件检测准确率都不高的情况下,有研究结果表明,将音视频事件检测与视频事件检测相结合,可以显著地提高事件检测系统的性能,这种结合可以在特征层、模型训练层,或应用系统层实现。
本研究方向涉及的技术包括数字音频处理、数字视频处理、机器学习、数据挖掘、情感计算等。研究的成果可应用于安全、安防等所有涉及监控的领域。
|