在信息爆炸的移动互联网时代下,,网络信息也发生了巨大的变化,海量的用户群体是网络信息的基础,互联网企业需要通过云计算来对各种有效数据进行收集、分析和运行。 大数据时代,海量的数据——文本、图片、音频、视频等,已经无法按照常规的数据结构对收集到的数据进行分类,更为重要的是,在这些海量的大数据中,精确而有序的结构化数据只占较少部分,大量非结构化数据成为有待开采的金矿。而要利用或使用这些大数据,也就不能再追求因果式的数据存储与处理方式,而是在数据互涉、关联和数据多样性的基础上,建立整体、关联、动态、开放、平等的数据思维。其深度挖掘在的生产、搜索与分析已经成为了当前研究的热点与难点,并且大数据搜索、挖掘与可视化等落地的工程实践尚有较大距离,这也是当下的工程急需。 NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。 NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了全文精准检索、关键词提取、自动摘要、 新词发现、分词标注、文本聚类、 分类过滤、正负面分析、文档去重等模块处理效果的可视化展示,也可以作为小规模数据的处理加工工具。 大数据搜索和挖掘是建立在网络搜索、数据挖掘等基础上的。虽然传统的信息检索有很长的历史(可追溯到古代),但它真正受到人们的关注还是近半个世纪的事。 纵观人类历史,社会的每一次变革都是从生产工具的革新推动思维方式的转变开始的,大数据挖掘作为一种新兴技术与思维方式,“开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式。”