学术报告:TML 一种文本挖掘语言

时 间:2012年9月21日(周五)下午 2:00

地 点:北京大学计算机科学技术研究所 106 会议室 (中关村北大街128号计算机所大楼)

报告人:孟涛博士

报告题目: TML 一种文本挖掘语言

报告简介:

TML(Text Mining Language)是一种通用的文本挖掘编程语言, 旨在提供一种简单通用的途径,让用户能够对文本中的各种语义目标进行分析和计算。 我们为此设计了这个语言的语法、编译器、虚拟机和图形化开发与调试环境,使用户可以针对任何应用领域轻松地进行编程以制定文本挖掘的分析目标、分析范围和分析手段, 用户代码进而会被编译成字节码在虚拟机内高效执行。TML高效地实现了大量实用文本分析技术,包括网络爬虫、文本抽取、分词、词性标注、命名实体抽取、文本分类、情感分析、概念与关系抽取等。这些技术以计算符号和保留词的形式体现在TML语法中。为了提高TML代码的运行效率, 我们攻克了字节码并发执行和数据分析流水线等技术难题。TML的实现语言为C; 并具有跨平台特性,支持Windows、Linux和MacOS等主流操作系统; TML虚拟机能基于Hadoop等常见分布式存储系统运行,并能够以库、可执行程序、客户端API(C/Python/Java)等不同形式被调用。

报告人简介:

孟涛博士,主要从事云存储与P2P计算, 文本挖掘与搜索等领域的技术和产品研发工作。 孟涛于1998年进入北京大学计算机系学习, 2007年在网络所获得博士学位, 其中于2000年7月至2007年7月间在李晓明教授”天网”课题组从事网页搜索技术的研究与开发。孟涛曾在美国Teragram Corporation及SAS Instittue任Technical Architect, 从事多语言自然语言处理和文本情感分析等技术研发; 在归国后曾担任中科院计算所助理研究员, 从事网络舆情系统相关的技术研发。

CLOSE

上一篇 下一篇