初心    ·    发展    ·    未来 home

北大计算机所35周年专题丨科研近距离,讲讲那些你不了解的科研成果(下)

2018-04-28 方正集团

编者按:方正集团创办至今32年来,矢志不移地坚持产学研一体化的发展模式,服务教学科研,推进产业报国,而其背后重要的“学研”平台之一就是北大计算机所。1983年,北大计算机所正式成立,迄今已走过了35年的光辉历程,而它的起源,要追溯到1975年北大成立的“748工程会战组”,发端自王选科研团队的汉字信息处理与激光照排技术。作为北大计算机所35周年专题的第四篇,让我们继续聚焦北大计算机所科研一线,讲讲那些你不了解的科研成果。

百廿之年,卅五之路

永不止步的创新精神,是他们科研的灵魂

细致踏实的工匠精神,是他们科研的态度

百折不挠的献身精神,是他们科研的激情

跨媒体智能识别与运用,

机器写稿的问世与实用

个性专属字体魅力的彰显,

以及未来开拓深度语义理解的技术思考

他们的科研思想从未落伍

他们的技术研发从未停下脚步

他们,一直在路上

计算机所多年来在国家和学校的大力支持下,在王选院士的带领和精神感召下,新一代的科研人员们不仅在印刷、新闻出版领域进行深入研发,更接连入主了人工智能与中华字库领域,成为了领军科技前沿与传承中华文化的先行者。下面我们仍用海报的形式,感受北大计算机所在新世纪时代下的不凡之举,近距离地了解这些科研成果的现实意义。

多模态智能识别,让计算机慧眼看世界
——跨媒体智能识别技术

视频、图像、文本等多模态内容智能识别是信息安全、人工智能和数字媒体领域的共性核心技术,对于保障网络空间安全具有重大意义。针对互联网内容“管不住”和“用不好”两大难题,计算机所彭宇新教授团队从2002年起开展了互联网多模态内容分析与识别技术的研究,历经十多年技术攻关,取得了语义概念识别、视觉对象检测、多模态语义关联、舆情态势感知等一系列关键技术突破。近年来6次参加国际权威评测TRECVID样例搜索比赛均获第一名。被国际学者评价为首创工作、巨大进展等。

团队研发了互联网多模态内容分析与监测系统等系列产品,成功应用于中央办公厅、中央宣传部、国家网信办、公安部、国家新闻出版广电总局等上百家重要单位,近70%的省级网信办使用该项目系统,取得了显著的经济效益,并在保障我国网络空间安全、促进文化发展传播等方面产生了突出的社会效益。

“互联网多模态内容分析与识别关键技术及应用”成果获2016年度北京市科学技术奖一等奖。

让计算机掌握文字创作的本领,迈向机器人写稿时代 
——基于人工智能与自然语言处理技术的机器写稿系统

 计算机所从2005年开始系统研究了面向机器写稿的人工智能与自然语言处理技术,提出了多项全新的自动文摘与文本生成方法,能够以原创或二次创作的方式自动生成内容准确、长短可控、可读性好的新闻稿件。计算机所分别与今日头条、南方都市报等单位合作推出小明(Xiaomingbot)、小南等多款写稿机器人,实现不同类型新闻稿件的自动创作,从而有效节省编辑记者的时间和精力,提高新闻生产效率和覆盖率。其中“AI小记者Xiaomingbot”是国内首款综合利用大数据分析、自然语言处理与机器学习技术的人工智能写稿机器人,能实现长短稿件的秒级生成,为里约奥运会以及各类足球联赛、NBA赛事提供赛事新闻撰写服务,在今日头条平台上已自动撰写与发布体育类新闻数千篇。上述写稿机器人获得业界广泛关注,受到上百家国内外媒体报道。

上述成果获得2017年度吴文俊人工智能科学技术奖(技术发明奖二等奖),所发表的学术论文获得自然语言处理顶级国际会议ACL2017的杰出论文奖。

中文字库自动生成技术

近年来,随着移动智能设备的普及,人们对于计算机中文字体在种类、质量和数量上的需求都日益增长。计算机所字形计算团队从2011年开始从事中文字库制作技术的研发,掌握了文本图片切割矫正识别、汉字笔画部件自动提取、字形质量评价、字体风格建模与重现、字形纹理特效迁移等核心技术,开发了手写体矢量字库快速制作网络系统、基于部件拼接的中文字库自动生成与智能化辅助设计压缩系统、基于风格学习的手写体中文字库自动生成系统,提供多种不同方案来实现个性化中文字库的快速制作与自动生成,让普通用户便捷地制作和使用属于个人风格的大规模中文字库成为可能,为个性化中文字体在计算机和移动互联网中的传播和普及打下基础。上述技术和系统已在方正手迹有限公司中投入实际使用,相关产品已在腾讯手机QQ、华为、小米、三星等软硬件平台中上线,吸引了海量用户使用,取得了良好的经济和社会效益。

研究所未来规划

      基于大数据和人工智能技术,研发文本、音频、视频等跨媒体内容的语义理解,实现输入内容的计算机理解后的再次生成。例如,输入一部电影,可以以语音的形式讲解电影的主要内容,以视频的形式生成一段摘要,以文本的形式产生一个电影故事的叙述等。还可以根据资料库里和网络上的众多内容,按照一定的要求,生成新的媒体格式的内容。

基于以上技术,可以实现媒体行业的智能化革命,公式推导机器人、看图说话机器人、采访机器人、讲故事机器人、写作机器人等都会因此产生。

这四项技术让我们看到了他们对科研的热忱,对中华传统文化的坚守与传承,对新时代的深度洞察,对未来科研的无限思考。在北大计算机所的35年里,他们不仅创造了新闻媒体行业的社会效益和经济效益,赢得了媒体人的良好口碑,推动了我国新闻媒体行业的快速发展,开拓了人工智能与新闻媒体融合的新视野,更赋予了中华汉字崭新的视觉呈现。


科研近距离 
他们与我们同行 
与北大同行 
与时代同行 
与国家同行 
与科研同行
CLOSE

上一篇 下一篇