互联网的普及引发了印刷术发明以来较伟大的传播革命,目前,互联网已经成为联系较广泛也较方便的信息传播平台,它以信息传播速度快、信息量大、不受时空限制、兼容多媒体信息等特性而日益受到人们的青睐,已经被公认为“*四媒体”。 1、网站数据采集子模块 在数据采集模块中,首先获取采集任务,然后开始采集数据信息,对于采集到的网页要提取出网页中的链接,同时判断是否是数据网页,如果是数据网页则抽取信息的相关信息(标题、发表时间、数据正文等),并保存数据网页,对于发现的新的链接,进行进一步的采集,重复这个过程直到达到结束的条件。 2、数据转码子模块 在保证数据信息的完整,不丢失标题、配图、文字等内容的前提下,对抓取的数据信息自动转码。将数据信息在原发地的编发格式转化为统一的代码格式,消除原发地的广告、链接等无用信息。 在数据转码子模块中,首先要检测是否有转码的剩余任务,如果不存在结束工作,否则,从数据库中取出原始数据数据,进行编码格式转换,然后消除无用的广告、链接等信息,将较终的数据信息保存到数据库中,同时进行剩余查询,直到所有数据全部转码完成。 3、采编控制子系统 系统用户共分为两类,一类属于普通用户,另一类属于系统管理员,其中采编控制平台只有系统管理员可以使用,具备的功能包括: (1)审核抓取的数据平台的内容; (2)能删除数据内容; (3)人工干预接口推送的数据; (4)可设定抓取目标源; (5)具备、用户数据管理功能,支持数据的统计、报告、管理(增、删、改、查)。 4、数据加工处理子系统 经过数据获取阶段得到的数据属于原始素材,数据加工处理子系统的功能就是对这些原始素材进行分析整理,以便推送给后台数据库。 灵玖软件自行研发了NLPIR大数据搜索与挖掘技术开发平台,以分词技术为基础,集成了全文精准检索、新词发现、分词标注、统计分析、关键词提取、热点分析、文本分类过滤、文档去重、等功能,其中全文精准搜索由本课题组独立开发的JZSearch搜索引擎支撑。 5、数据接口子系统 数据接口子系统主要为了,本系统采集数据,进行加工处理后,生成的熟数据,通过接口的形式发送给“法信”平台数据库,其重要功能包括: (1)将采集处理后的法律案例传送给后台,接收后台给出的与之类似的案例,判断是否重复; (2)如经上一步骤判断不重复,则将案例推送给“法信”平台数据库; (3)接收成功后再进行下一条目的推送;