logo

NLPIR简介

   应各位ICTCLAS用户的要求,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉语分词系统。张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。/UG YP@&b0 自然语言处理与信息检索共享平台&oLVk2d{yL4f d NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;自然语言处理与信息检索共享平台/J nHBO(b1[YX

g/gFX&m z R%]/X0 访问http://ictclas.nlpir.org/(自然语言处理与信息检索共享平台),您可以获取NLPIR系统的最新版本,我们承诺:非商业应用永久免费,欢迎您关注张华平博士的新浪微博 @ICTCLAS张华平博士 交流。1P_bR$vk0 自然语言处理与信息检索共享平台1H9^+}NE*W;^

微博分词功能:对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。自然语言处理与信息检索共享平台5H8]U ]4`s"Q^


6b;t.P s@)\J0然语言处理与信息检索共享平台-l3?3v"Z#X|{t#A!d Z 图1:微博分词展示

)O1paCM(]&U0 自然语言处理与信息检索共享平台tORZ;]0e

新词发现与自适应分词功能:从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。自然语言处理与信息检索共享平台`:A7t&__pU&Z-z


,re-u;|;l"K'y0然语言处理与信息检索共享平台d)D1q3dd%iQB k 图2:自动识别“屌丝”等新词,并自动调整分词结果,实现自适应分词自然语言处理与信息检索共享平台v@nX k B


Lw6cXXC"s*`0关键词识别功能:采用信息熵自动计算关键词,包括新词与已知词,下面是对十八大报告前面部分内容的关键词提取结果。ta%\Xn,@cde's0 自然语言处理与信息检索共享平台m Rkv `O:V~&y

NmF#M;q*u{g0 图3:十八大报告的关键词识别结果 Ht${8i _+I"?*dB0 自然语言处理与信息检索共享平台-rUM"c3u ]

图4:NLPIR的前期版本获得了钱伟长中文信息处理科学技术奖一等奖 Ht${8i _+I"?*dB0 自然语言处理与信息检索共享平台-rUM"c3u ]

我们将持续采用共享模式,为各位提供各类可执行程序、二次开发API等形式的成果,欢迎各位用户使用并反馈,让我们做得更好。

2~ y!V/? x-


NLPIR 在您身边

2012 张华平博士 版权所有.保留所有权