目前从大数据中获取信息的方式主要有数据库查询、文本搜索等方法。数据库主要用于处理结构化数据;信息检索主要用于对非结构化信息的处理,信息检索返回的结果集的数量一般非常巨大,用户要从检索结果中找到有用的信息仍然十分困难,因此,对检索结果自动提取摘要就显得尤为重要。 自动文摘方法大多都是基于句子抽取的文摘。基于抽取的自动文摘将文本视为句子(或者段落,或者其它文本片断,下面仅以句子代替)的线性序列,将句子视为词的线性序列。它通常分3步进行:(1)对源文本按一定规则进行切分,获取源文本的句子序列、句子的词序列表达;(2)计算词、句子的权重,对原文中的所有句子按权值高低降序排列,权值较高的若干句子被确定为文摘句;(3)将所有文摘句按照它们在原文中的出现顺序输出。 抽取文摘的关键问题是句子的选择以及句子的排序问题。句子的选择方法有许多,选取的原则是一致的:尽量用较重要的句子来反映文档集的话题,即话题相关度尽量的高,同时抽取出来的文摘句之间内容冗余度尽量的小。 灵玖软件NlpirParser智能文本摘要系统是基于机器学习(Machine Learning, ML)的多文档自动文摘(ML Summary)方法,可以采用隐性语义分析LSA(Latent Semantic Analysis)和支持向量机SVM(Support Vector Machine)等方法,通过监督和非监督的方式来生成多文档文摘。,能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。 灵玖软件NlpirParser智能文本摘要系统不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。