研究方向

数字内容计算与知识服务技术研究

数字内容计算与知识服务技术研究

计算机所从上世纪80年代开始计算机网络与数据库技术的应用研究,1994年研制成功面向报社的新闻采编流程计算机管理系统,并在《深圳晚报》获得应用,实现了中文报业“告别纸与笔”的技术变革。此后历经12年持续研发和五代技术升级,成功研制“报业数字资产管理系统”,并获2006年国家科技进步二等奖,推动了我国报业的技术进步。 2000年以来,随着互联网的快速发展,本方向研发重点转向数字出版和互联网等新媒体,开展了数字内容计算与知识服务技术的研发工作,已在SIGIR、ACL、AAAI、IJCAI、WWW、VLDB、COLING、EMNLP、ICDM、JCDL和ACM TOIS、Computational Linguistics、VLDB Journal、TKDE等国际高水平会议或期刊上发表了一批学术论文,并在日本NII组织的NTCIR-8中文文本情感分析评测的两个任务上获得第一名、美国NIST组织的TAC RTE-6文本推理评测的全部任务上获得第一名、美国NIST组织的TAC 2011 文档自动摘要评测中摘要A任务上取得Pyramid第一名,承担或参加了20余项863计划、国家自然科学基金、科技支撑计划以及电子发展基金等产业化项目,获授权专利数十项,多项成果已获得应用。 目前数字内容计算与知识服务技术研究方向主要是以自然语言处理、机器学习与大规模数据管理技术为基础,面向开放域、多语种和异质的海量数字内容,开展内容理解、数据挖掘、语义数据管理与知识服务技术的研究,为互联网搜索、社会网络计算、大规模语义数据搜索与知识服务应用提供关键技术支撑。

主要研究内容包括:

·开展互联网中文语言分析技术的研究工作,包括中文词法分析、句法分析与浅层语义分析等基础技术,并开发可实用的中文语言分析工具。

·开展互联网新闻摘要与观点分析技术的研究工作,包括文档自动摘要、文本自动生成、文本情感分析与观点挖掘、跨语言比较分析等关键技术。开展学术知识挖掘与搜索技术的研究工作,包括学术文献知识抽取、综述自动生成等关键技术,并研发学术搜索系统。

·开展数字内容的语义挖掘与知识服务技术的研究工作,包括具有大规模数据处理能力的中文新闻语义特征提取技术与用户兴趣建模、基于用户行为分析的个性化服务等关键技术。

·开展海量信息存储与语义网络自动构建技术的研究工作,包括海量RDF语义数据网络(Semantic Web)的图数据管理模型、自动构建与动态扩展等关键技术,为海量语义数据的高效查询和动态更新提供基础研究成果。

·开展知识关联挖掘与海量语义搜索技术的研究工作,包括语义概念消歧、知识关联分析与挖掘技术,以及以语义关联检索、不确定性语义搜索为核心的海量语义搜索技术等,为大规模智能语义服务应用提供技术支撑。

·开展社会网络挖掘技术的研究工作,重点以微博为研究对象,研究实时搜索技术、短文本搜索分析技术及社会化网络分析技术。

·开展互联网舆情分析技术的研究工作,主要包括海量半结构化数据搜索挖掘、互联网舆情精准搜索与挖掘等关键技术,并研发互联网舆情监测与预警系统。系统架构如下图所示。

已获得应用的主要科研成果有:

·报业数字资产管理系统

报业数字资产管理系统实现了新闻媒体采编生产与经营管理的数字化、网络化及全流程一体化,获2006年国家科技进步二等奖。

·互联网舆情分析预警系统

该系统采用实时采集、自动抽取、主题检测和海量检索技术实现了互联网内容的自动获取、实时监控和强大的舆情信息处理功能,应用于多个省市、国家重要部门,为互联网舆情研判、掌握网络民意和打击网络低俗文化提供了智能化辅助手段。

·数字报刊与跨媒体出版系统

该系统包含了版面标引加工、数字报刊制作、多渠道发布、自动上载、数字发行控制与多终端阅读等系列数字出版技术,实现了数字报刊生产自动化、内容交换规范化和运营模式多样化,已有近千份报刊采用该系统发布数字报刊,推动了我国报业数字出版技术的发展。

本研究方向目前有科研人员7名,其中正高职称科研人员1名、副高职称科研人员3名,研究生和实习学生二十多名。