研究方向

数字视音频处理与检索技术研究

数字视音频处理与检索技术研究

计算机所从1995年开始数字视音频技术的研发工作,研制成功计算机辅助动画制作系统,1998年被评为首届中国高等学校十大科技进展;1997年研发成功面向电视台应用的电视节目数字化播出控制系统,获得广泛应用,并获2007年国家科技进步二等奖。在此基础上逐步发展为现在包括数字视音频编码、传输、检索等内容的数字视音频处理与检索研究方向,在TCSVT、TIP、ICCV、CVPR、AAAI、INFOCOM等国际高水平期刊或会议上发表了一批论文,视频检索在国际评测TRECVID中取得好成绩,承担或参加了科技部973计划、863计划、国家科技支撑、国家自然科学基金以及产业化等一批项目,获授权专利数十项,多项成果已获得应用。

目前数字视音频处理与检索研究方向主要开展广播电台、电视台和视音频网站等应用中的数字视音频编码、传输、检索等领域的前沿关键技术研究,解决应用技术难题、开发原型系统和产品,促进数字视音频技术的应用。

主要研究内容包括:

·开展H.264、AVS、HEVC等视频编码标准技术的研究工作,并对其关键算法进行优化改进,提交标准的改进提案。

·开展可伸缩视频编码技术的研究工作,在面对不同带宽、不同播放终端的网络视频播放时,只需一次编码就可自动适应多种应用,同时支持国际标准与私有编码格式。开展视频传输和网络通讯技术的研究工作,包括P2P传输技术、多天线MIMO技术、移动视频通讯技术等,提高数字视频的网络传输效率。

·开展图像视频超分辨率技术的研究工作,使数字视频在不同制式、高清标清之间转换后,仍能保持高水平的视觉质量。

·开展视频传输和网络通讯技术的研究工作,包括P2P传输技术、多天线MIMO技术、移动视频通讯技术等,提高数字视频的网络传输效率。

·开展与音乐概念识别相关的理论和方法的研究,主要包括音乐节奏、音乐曲风、音乐情感、音乐场景、音乐乐器等概念的识别。

·开展针对大规模网络音乐集的检索与推荐方法的研究,主要包括基于高层语义概念的音乐检索、音乐相似计算及相似检索、自动音乐播放列表生成等。

·开展基于音频的事件检测及多模态音视频事件检测理论和方法的研究,主要针对实时监控、事后取证等应用场景中进行事件检测的方法及技术。

·开展基于DAB数字广播标准的数据广播播出及接收技术的研究,主要包括数字广播网与移动通讯网、移动互联网融合技术、适应DAB数据广播业务运营的播出控制与接收技术等。

·开展视频理解与检索技术的研究,包括视频片段检索、镜头检索、字幕识别、概念标注、语义搜索、大规模视频索引结构等关键技术,支持基于内容的视频检索和基于语义的视频检索。

·开展网络多媒体搜索与挖掘技术的研究,以视频处理、图像处理、机器学习及模式识别等为基础,对互联网上的视频、图像等多媒体数据进行采集、分析、检索和挖掘,为构建新一代的多媒体搜索系统和多媒体监管系统提供关键技术支撑。

·开展基于内容的跨媒体检索技术的研究,支持图像、视频、音频、文本等不同媒体的交叉检索,为推动从目前单媒体检索到跨媒体检索提供关键技术支撑。

·开展机器学习和模式识别的基础方法研究,包括半监督学习、流形学习、稀疏表示等,为图像、视频理解与检索关键技术的研究提供基础支持。

已获得应用的主要科研成果有:

·数字化音视频控制技术研究及应用

研制了应用于电视台的“数字化音视频控制技术研究及应用”系统,获2007年国家科技进步二等奖。

·面向多种终端的大型网络视频系统关键技术及应用

研制了应用于网络视频的“面向多种终端的大型网络视频系统关键技术及应用”系统,包含了网络视频的采集、编辑、编码优化、存储、基于内容的检索、发布等功能,在新闻出版、广播电视及新兴媒体等单位的WebTV、IPTV、手机电视、多媒体数字告示等行业获得应用,并获2011年度教育部科技进步二等奖。

·可伸缩视频技术应用

研制了基于可伸缩视频编码的P2P流媒体视频服务系统,对可伸缩视频的率失真函数、漂移误差和包解码复杂度进行了有效的分析,实现了可伸缩视频码流的高效编码和传输,可以自动适应不同的视频终端和网络带宽,为互联网用户提供了流畅和清晰的视频服务,已在“迅雷看看”等网络视频播放中获得应用。

·基于内容的多媒体检索与监管技术应用

研制了基于内容的多媒体检索与监管系统,主要针对图像、视频数据提供基于内容的检索与识别技术,包括互联网图像/视频的采集、镜头分割与关键帧提取、图像/视频文字的检测与识别、镜头检索与识别、片段检索与识别、人脸识别、不良内容识别等核心关键技术,已应用于中国教育电视台等单位,为大规模多媒体数据的检索与监管提供关键技术支撑。

本研究方向目前有科研人员9名,其中正高职称科研人员3名、副高职称科研人员4名,研究生和实习学生数十名。