logo

NLPIR大数据搜索与挖掘共享最新演示平台上线

1. 序言

云计算、智慧城市、移动互联网、大数据与物联网已经成为大数据时代的技术特征,实现了人、机器与实物的多维互联互通。大数据是指从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识,转化为智慧的方法学。大数据分为结构化大数据与非结构化大数据,结构化大数据在上世纪末期已经有较好的研究,产生了关系型数据库以及数据仓库等相对成熟的技术与产品。而以文本为主要元素的非结构化大数据,体量是结构化大数据的十倍甚至更多。非结构化大数据的生产、搜索、挖掘与分析已经成为了当前研究的热点与难点,但是大数据搜索、挖掘与可视化等落地的工程实践尚有较大距离,也是当下的工程急需

    以张华平博士为首的科研团队自主研发的NLPIR大数据搜索与挖掘共享平台,先后历时15年,其中的NLPIR/ICTCLAS分词系统是迄今为止最受欢迎也是应用最广泛的中文词法分析系统,已经成为中文信息处理领域的标杆性工作。为了进一步开放共享,我们推出了NLPIR大数据搜索与挖掘平在线演示云服务,同时,在 GitHub与开源中国网站共享出了NLPIR各个技术组件的不同平台开发库、头文件、实例、演示、开发文档等大量资源开放共享,以飨十余年来支持我们前行的所有用户,大家的应用与积极反馈是我们当下创新进步的重要源泉。

NLPIR大数据搜索与挖掘共享平,汇智语言理解,掘金内容价值,让数据成为智慧,助力企业发展。

 

 

2. NLPIR大数据搜索与挖掘平台简介

 

    为满足大数据搜索挖掘和文本处理的企业、单位、研究机构了解本平台,NLPIR提供直观系统的演示平台。该平台能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

     用户可根据演示平台的可视化效果直观了解其功能,所有功能模块全部由对应的二次开发接口(动态链接库.dll.so,及静态链接库等形式),各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容WindowsLinuxAndroidMaemo5, FreeBSD,麒麟等不同操作系统,开发者可使用JavaC/C++C#, PythonPhp, R等各类主流开发语言调用所有功能,根据自己的需求实现多样化的二次定制开发,从而为应用者提供大数据搜索与挖掘分析一站式解决方案。

 

3. NLPIR大数据搜索与挖掘平台主要优势

    NLPIR大数据搜索与挖掘共享平台的主要优势可以概括为以下三点:

3.1 技术优势

十余名博士硕士十余年的持续创新,获得了2010年钱伟长中文信息处理科学技术奖一等奖,专注于科学研究与工程应用融合,国际与国内公开第三方的独立评测综合第一,综合平衡效果与效率,实现了 “又好又快”的技术追求。

3.2 普适优势

NLPIR大数据搜索与挖掘平台提供云服务,更多的是提供第三方二次开发接口,无需访问我们的服务器,确保自身信息内容的安全可信,开发平台兼容当前所有主流的操作系统与开发语言。

3.3经验优势

 

  十余年中,NLPIR先后服务了全球30机构。其中涵盖了中央网信办、中国证监会、中国人民银行、国家统计局、国家气象局等国家机构,中信信托、华为、人民网、中国移动、中国邮政等大型商业机构,以及中国科学院、清华大学、中国科技信息情报研究所等科研机构。

 

 

4NLPIR大数据搜索与挖掘在线平台功能介绍

    本演示平台支持ChromeFirefoxIE(9+)UC360等主流浏览器

 

4.1 网络信息实时采集与正文提取

    NLPIR大数据搜索与挖掘演示平台根据新浪rss摘要,利用NLPIR的精准网络采集系统实时抓取新浪最新的新闻(每次刷新均会重新抓取),NLPIR正文提取系统将网页中的导航、广告等内容去除,利用网络文本链接密度作为主要参数,采用深度神经网络模型,实现文本正文内容的自动提取。这里,也可由用户人工随意输入任意的文章。

    为了确保服务的速度,在线演示系统的文章字数3000字以内。

 

4.2 基于层叠隐马模型的分词标注

NLPIR/ICTCLAS分词系统可以支持中英文分词与词性标注,可视化系统根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词为显著的颜色。本系统还支持在线用户词典的输入,可以在右下方添加用户词及词性,如“中东呼吸综合征 bing”。

NLPIR/ICTCLAS分词系统,采用层叠隐马模型(算法细节请参照:张华平,高凯,黄河燕赵燕平,《大数据搜索与挖掘》科学出版社2014.5 ISBN:978-7-03-040318-6),分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。它能够真正理解中文,利用机器学习解决歧义切分与词性标注歧义问题。张博士先后倾力打造十余年,内核升级10次,全球用户突破30

 

4.3 基于角色标注的实体抽取


    NLPIR实体抽取系统能够智能识别文本中出现的人名、地名、机构名、媒体、作者、及文章的主题关键词,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。NLPIR实体抽取系统采用基于角色标注算法自动识别命名实体(算法细节请参照:张华平,高凯,黄河燕,赵燕平大数据搜索与挖掘》科学出社2014.5ISBN:978-7-03-040318-6),可在此基础上搭建各种多样化的大数据挖掘应用。

 

4.4 基于完美双数组TRIE树的词频统计

本演示平台只展示了名词、动词、形容词三种开放词类的Top 10结果。这类结果已经足够支持后面的文本向量化计算,并达到较好的效果。

NLPIR的词频统计算法的效率较高,采用了我们的完美双数组TRIE树的专利算法(近期有进一步的优化),是常规算法速度的十倍以上,该算法的效率不会随着待统计结果数目的剧增而指数级增长,一般是亚线性增长。建议大家调用NLPIR/ICTCLAS开放的词频统计接口���

 

4.5 基于深度机器学习的文本分类


NLPIR采用了深度神经网络对分类体系进行了综合训练,目前训练的类别只是厂家的政治、经济、军事等。我们内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高,综合开放测试的F值接近86%NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。此外还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。

 

4.6 基于深度神经网络的文本情感分析


     NLPIR情感分析提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。情感分析主要采用了两种技术:1.情感词的自动识别与权重自动计算,利用共现关系,采用Bootstrapping的策略,反复迭代,生成新的情感词及权重;2.情感判别的深度神经网络:基于深度神经网络对情感词进行扩展计算,综合为最终的结果。


4.7 基于上下文条件熵的关键词提取


    NLPIR关键词提取能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。NLPIR主要采用交叉信息熵计算每个候选词的上下文条件熵,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。

 

NLPIR文章关键词提取的主要特色在于:

1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档;

2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征;

3、精准排序:关键词按照影响权重排序,可以输出权重值;

4、开放式接口:文章关键词提取组件作为NLPIR的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。

 

4.8 基于POS-CBOW的word2vec 语义扩展

    POS-CBOW方法综合了词性、词的分布特点,采用word2vector改进模型,对5GB的新闻语料进行训练,自动提取出了语义关联关系。如果训练文本调整为专业领域的生语料,该模型同样可以产生专业领域的本体关联关系。

 

4.9基于全局结构预测模型的转移依存句法分析

NLPIR提出使用Yamada算法的结构化转移依存句法分析模型,在Yamada算法的基础上,加入全局的训练以及预测,优化了特征集合。该模型的精度85.5%接近于目前转移依存句法最好结果(86.0%),并且在所有精度85%以上的依存句法模型中,达到了最快的分析速度。



4.10 简繁转化

 

NLPIR根据中文简繁词库,对照抽取互译。

 

4.11 基于隐马模型的自动注音

NLPIR根据词库,基于语意理解,对字词自动进行语音标注。准确率99%

 

4.12基于关键词提取的自动摘要


自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。

自动摘要中间件不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。

五,联系我们

北京理工大学大数据搜索与挖掘实验室

址:北京海淀区中关村南大街5号北京理工大学中心教学楼10层  邮编:100081

张华平教授助理:13681251543

话:+86-10-68918642

Email:  kevinzhang (at) bit.edu.cn

M S N: pipy_zhang (at) msn.com;

站: http://www.nlpir.org/

博: http://t.sina.com.com/drkevinzhang/

Big Data Search and Mining Lab.

Beijing Institute of Technology (BDMS@BIT)

Add: Floor 10, Teaching Center Building, No.5, South St.,Zhongguancun,Haidian District,Beijing,P.R.C  PC:100081

Tel: +86-10-68918642

Email: kevinzhang (at) bit.edu.cn

MSN: pipy_zhang (at) msn.com;

Website: http://www.nlpir.org/

Twitter: http://t.sina.com.com/drkevinzhang/


NLPIR 在您身边

2012 张华平博士 版权所有.保留所有权