随着互联网的发展,建立中文分词库是解决以上业务需求的必要途径,而中文分词业界的词库对法律行业的分词、语法、语义等都无法进行*覆盖,必须首先通过自动中分词形成原始词库再引入并邀请法律行业*进行人工干预并筛查的步骤,后期还需要通过机器学习等人工智能方式自动发现、自动报告等用于提高人工筛查效率。 1、分词处理 中文分词是自然语言处理的基础,对于输入的一段中文,成功的进行中文分词,可以达到机器自动识别语句含义的效果。更采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。 2、 实体抽取 实体抽取能够自动挖掘出隐含在汉语中的人名、地名、机构名、媒体、作者,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。速度达到10M/s,可在此基础上搭建各种多样化的统计和应用。 3、 文本内容去重 中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。采用高效的文章指纹算法,能够在较短的时间内与历史指纹库进行对比,从而发现重复记录。 4、 新词发现 新词自动发现技术能够识别出词典中没有出现过的词汇、短语、流行用语,是语言文献分析方面的一把利器,并且在语义网扩展起到了重要作用。新词发现脱胎于语言自动分词技术,即对分词技术的有效提升和补充,有可辅助与语义处理的新词与新概念的扩展。 新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种数据挖掘应用中,在本工作中其在语义网扩展方面起到了关键性的作用。 5、 文本分类过滤 文本分类中间件能够根据文献内容进行类别的划分,可以用于数据分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。 文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道分析、垃圾信息屏蔽、敏感信息审查等领域。 6、 文本聚类 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大数据事件追踪、情报的可视化分析等诸多应用。 基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。 7、文档关键词提取 文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 文章关键词提取组件的主要特色在于: 1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档; 2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征; 3、精准排序:关键词按照影响权重排序,可以输出权重值; 4、开放式接口:采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。 8、文本摘要 自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。 自动摘要中间件不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。 9、网页正文提取 网页正文提取中间件能够实现HTML格式的精确分析,自动分辨出网页是属于索引页面还是内容页面。对于内容页面,能够高效剔除HTML标签和导航、广告等干扰性文字,返回实际有价值的正文内容。特别适用于大规模互联网信息的高效预处理和分析。 基于统计分布规律模型判定网页的特征,所适用的网页不受类型和领域的限制,不需要配置抽取规则,能够全自动地对海量互联网页信息进行高效处理。 10、正负面信息与情感值计算 云服务平台能自动识别正负面文章,依据文章信息的正负面程度,自动计算出文章的情感值,文章中正面词汇褒义词汇出现的多,文章情感值就高,反之,情感值就低。如果文章是介绍某商品的文章,情感值可以标识对商品的评价,也可以计算文章中表现出的对某人或某事的正负面评价,对某公司的褒贬程度。 11、数据采集 (1)利用我司的现有采集技术,实现对互联网目标信息源(网站、论坛、博客、**网站、中外媒体网站)各类碎片化信息的实时采集、动态索引、展现,采集信息源覆盖全世界各类航天相关网站,各类公开数据源,*网站,频道,页面的信息。 (2)系统应提供数据的导入导出接口,导入第三方专业数据库(如媒体网站数据频道、各类论文网站文本输出接口等、),以满足外部数据源的人工导入和向外部提供数据导出功能,补充数据来源。 (3)实现对互联网上某一领域**部门,国内外航天政策信息发布、数据、论坛、博客、社交网络等信息源的采集,获取*领域的信息,为集团和公司供数据基础。 (4)信息数据的采集要求7×24小时循环、增量的信息采集,数据采集的延时小于30分钟。 (5)满足对采集数据源类型多样性的要求,数据源包含数据栏目、评论栏目、论坛类、博客类、国内外媒体数据类,以及未来可能出现的其他网站表现类型。