研究方向

跨媒体智能处理与分析技术

目前跨媒体智能处理与分析方向主要开展广播电台、电视台和视音频网站、阿里、头条、百度、华为等应用中的数字视音频编码、处理、传输、分析、识别、检索、目标检测等技术的前沿研究，解决应用技术难题、开发原型系统和产品，促进数字视音频技术的应用。

主要研究内容：

· 开展跨媒体分析理论与方法的研究与应用工作，包括图像细粒度分类、视频内容分析、视频描述生成、跨媒体检索、跨媒体生成、跨媒体推理等关键技术的研究工作，支持跨媒体互联网内容的分析、识别与监测应用。

· 开展AVS3、H.265/HEVC、H.266/VVC等视频编码标准技术的研究工作，并对其关键算法进行优化改进，提交标准的改进提案。

· 开展面向图像/视频重建与理解方法的研究，包括高效视频压缩与质量增强，特别是恶劣环境下图像/视频增强，图像/文字风格化，以及基于重建的视频分析与理解技术等。

· 开展基于机器学习的网络视频和未来网络研究，包括未来超高清虚拟现实视频传输、大规模视频内容分发技术研究，以及动态自适应流媒体和信息中心网络等。

· 开展多媒体数据的数字水印、可逆信息隐藏、隐写和隐写分析等技术研究，实施安全打印、隐密通信和内容鉴真等领域应用。

· 开展目标检测方向的基础方法和应用研究，包括通用目标检测框架设计、目标检测深度神经网络架构搜索、模型蒸馏、量化、以及对抗攻击和加固。
开展面向视频数据的计算机视觉和机器学习研究，包括小样本学习、视觉推理、视频时序定位、侵权检测、谱域深度网络等。

· 开展面向图信号处理、图机器学习的理论及其在三维视觉等应用的研究，包括三维点云数据的处理、压缩、分析和生成，支持自动驾驶导航、机器人视觉、虚拟现实/增强现实与文物修复等。

主要科研成果：

· 数字化音视频控制技术研究及应用

研制了应用于电视台的“数字化音视频控制技术研究及应用”系统，实现了面向电视台播出工作流程的网络化、数字化的多频道大型播出控制和总控监控系统，在省级及以上电视台播总控领域的市场占有率超过70％。该系统使播出工作效率提高了5-10 倍，播出故障率降低了90%以上，推动了我国电视播出从模拟到数字的革命，获2007年国家科技进步二等奖。

跨媒体智能处理与分析框架

· 面向多种终端的大型网络视频系统关键技术及应用

研制了应用于网络视频的“面向多种终端的大型网络视频系统关键技术及应用”系统，包含了网络视频的采集、编辑、编码优化、存储、基于内容的检索、发布等功能，在新闻出版、广播电视及新兴媒体等单位的WebTV、IPTV、手机电视、多媒体数字告示等行业获得应用，并获2011年度教育部科技进步二等奖。

· 互联网多模态内容分析与识别关键技术及应用

针对互联网内容“管不住”和“用不好”两大难题，研制了互联网多模态内容分析与监测系统等系列产品，取得了视觉语义概念识别、视觉对象检测、多模态语义关联、细粒度分类、舆情态势感知等一系列关键技术突破, 实现了对互联网图像、视频、网页等多模态内容的全面监测与数据利用，成功应用于国家网信办、公安部、工信部、国家广播电视总局等单位。获2016年北京市科学技术奖一等奖（技术发明），和2020年中国电子学会科技进步一等奖。

跨媒体智能处理与分析框架

互联网多模态内容分析与识别系统