大数据挖掘是伴随者互联网的普及应用和传统信息检索技术的不足提出并发展起来的。大数据挖掘是从大数据中发现有用的模式(其中的数据可以存放在数据库、数据仓库或其他信息库中),它旨在解决数据挖掘、信息检索、知识抽取以及更广泛的商业问题。 作为大数据挖掘领域中的一个重要研究分支,文本挖掘与处理主要研究从非结构化及半结构化的海量Web文本信息中挖掘有价值的信息,处理其中可能隐藏着的概念及其联系,并完成可能的知识发现。 文本挖掘与处理的主要对象是自然语言。自然语言的多样性和复杂性决定了计算机往往很难实现对自然语言的完全理解。在语言的深层挖掘上,目前的语言学研究和计算语言学研究尚不能充分地理解语言的内在含义,而精细语言分析也往往并不能充分解决复杂的现实问题。因此,浅层语言分析可能是目前可行的一条研究路线。一方面,它能够针对需求抽取语言表层之下特定的关键信息;另外一方面,它兼顾了分析结果的准确性和系统的实用性。 灵玖软件Nlpir Parser智能语义平台是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,也可以作为小规模数据的处理加工工具。 1、汉语词法分析 汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理*的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。 2、新语自动发现 灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。 3、文本内容去重 文本内容去重中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。灵玖采用高效的文章指纹算法,能够在较短的时间内与历史指纹库进行对比,从而发现重复记录。 4、文本分类过滤 文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。 5、文本聚类 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 6、文档关键词提取 采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出较新出现的新词语,所输出的词语可以配以权重。 7、文本摘要 自动摘要中间件不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。 8、网页正文提取 灵玖基于统计分布规律模型判定网页的特征,所适用的网页不受类型和领域的限制,不需要配置抽取规则,能够全自动地对海量互联网页信息进行高效处理。 9、全文搜索 全文搜索中间件内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。 Nlpir Parser智能语义平台涉及到的文本挖掘与处理技术也多是以自然语言表示的文本信息,从中挖掘出诸如新特征词、有意义串、关键词等,并在此基础上完成对文本信息的信息抽取、分类、聚类、检索、话题跟踪等处理工作。