网页信息采集(Web Crawler)也常被称作采集机器人(Web Robot)、网络蜘蛛(Web Spider)、网络爬虫(Web Worm)等。经过十几年的发展,网页信息采集技术已经是相对比较成熟,很多大的搜索引擎厂商,例如:Google、百度等都有比较成熟的信息采集系统,每天采集大量的网页信息提供用户搜索。针对整个Web的网页采集(Scalable Web Crawling)和增量式网页采集(Incremental Web Crawling)是较成熟也是在业内应用较广泛的两种网页采集的方式,而其他的网页采集形式则主要是网页采集领域新的研究和发展趋势的体现。 针对海量的WEB信息的问题,NLPIR网站数据采集技术采用的主要解决方案有两个方面: 首先:减少不必要的信息获取,针对性的获取目标信息 WEB信息的快速增长,使得几乎没有任何一个采集系统能够获取全部的信息,因此如何减少不必要的信息获取,把有限的网络和计算机资源用来获取那些需要的目标信息是解决海量信息的有效途径。 其次:提高信息采集的效率,在有**间内获取更多的信息 解决海量WEB信息较直观的方法就是提高采集的效率,这样在相同的时间内可以获得更多的信息。 WEB信息的重复问题: 针对WEB信息采集中重复问题,NLPIR网站数据采集技术采用了非常高效的查重策略BloomFilter算法,BloomFilter是一种综合平衡时间、空间代价,允许存在查找失败的有效查找算法。 WEB信息的更新问题: 针对WEB信息的更新问题,NLPIR网站数据采集技术的系统拥有和测试了多种更新的策略,包括:顺序更新策略、随机更新策略、动态更新策略等。 WEB信息的异构问题: 针对WEB信息的异构数据问题,NLPIR网站数据采集技术的采集系统可以根据需要设定需要的信息类型,不设置的文件类型不进行获取,文件类型的类型判断主要通过WEB服务器返回的Content-Type来进行判断,而不是采用链接的扩展名进行判断,相对来说,Content-Type的判断方式更加准确。 随着WEB技术的发展,要实现本项目中快速网页的获取的目标,还必须解决很多新的WEB获取中的技术难题,这些难题**表现为以JavaScript为代表的脚本语言所带来的信息采集的问题,主要有:动态链接生成问题、采用Ajax的问题等,针对这些新的采集难题,本系统都可以非常有效的进行处理。