企业信息

    灵玖中科软件(北京)有限公司

  • 10
  • 公司认证: 营业执照已认证
  • 企业性质:外资企业
    成立时间:
  • 公司地址: 北京市 海淀区 北京市海淀区苏州街49-3号盈智大厦5层
  • 姓名: 张宝
  • 认证: 手机未认证 身份证未认证 微信未绑定

    供应分类

Nlpir Parser搜索挖掘平台智能过滤敏感信息

时间:2017-05-10点击次数:233

  随着互联网技术的快速发展和普及,人们可以在网络上获得各种信息,怎样防止青少年接触到不健康内容是一个严肃的社会问题。要防止不健康、无用内容的蔓延,除了从法律角度采取措施外,从技术角度考虑的网络过滤技术是一种有效的手段。
  目前网络的信息过滤技术主要有三种,它们是基于URL过滤方式、基于文本的过滤方式和基于图像内容的过滤方式。这几种过滤技术各有优劣,有的实现比较简单,有的具有更广泛的适应性,有的效率高实时性更强。单一采用某一技术的准确性不高,而考虑到图片和图片附近的文字一般具有相同的类别,它们有相互补充说明的特性,所以综合考虑图片和文本的分类特点是本文研究的过滤方式。
  Nlpir Parser搜索挖掘平台敏感扫描系统是灵玖软件经过长时间研发,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成*的敏感关键词、敏感类别与权重等信息。
  针对Web上大量的网页文本内容,Nlpir Parser搜索挖掘平台敏感扫描系统利用决策树分流特性提出了敏感词决策树信息过滤算法。该算法基于敏感词库,通过构建敏感词决策树,以数据流形式处理网页文本内容,综合考虑区域、词频、敏感词级别三大要素,较终给出候选敏感词权重,计算文本整体敏感度,实现敏感文本检测。
  Nlpir Parser搜索挖掘平台敏感扫描系统具备四大特色:
  1、基于PDAT**的多关键词实时扫描算法
  我们采用了 NLPIR/ictclas的PDAT**算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度;
  2、关键词的多模式智能匹配
  用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体,及繁体形式。
  3、内置了丰富的敏感知识库
  目前已经自动内置了各种形式、**类型、3万多关键词的敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。
  4、支持用户增量添加百万量级业务敏感词库
  支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不**业的敏感扫描结果。

http://ljrj123.cn.b2b168.com