企业信息

    灵玖中科软件(北京)有限公司

  • 10
  • 公司认证: 营业执照已认证
  • 企业性质:外资企业
    成立时间:
  • 公司地址: 北京市 海淀区 北京市海淀区苏州街49-3号盈智大厦5层
  • 姓名: 张宝
  • 认证: 手机未认证 身份证未认证 微信未绑定

    供应分类

    Nlpir Parser灵玖大数据挖掘的语义技术

  • 所属行业:商务服务 其他商务服务
  • 发布日期:2017-06-28
  • 阅读量:240
  • 价格:1000.00 元/套 起
  • 产品规格:不限
  • 产品数量:1.00 套
  • 包装说明:不限
  • 发货地址:北京海淀  
  • 关键词:中文分词,语义分析,汉语挖掘,智能搜索,大数据

    Nlpir Parser灵玖大数据挖掘的语义技术详细内容

      当前正处于大数据时代,大数据为智慧城市提供丰富的数据环境。智慧城市技术需要面向万维网大数据处理及其知识服务的支持。语义技术为海量数据处理及知识管理提供有效的技术手段。
      语义技术的主要思想包括:(1)任何信息系统都需要数据;(2)数据表示要独立于具体的应用和平台,以保证较大程度的可重用性;(3)采用统一的数据概念表示,以保证数据表示独立于具体系统;(4)数据应能描述网络资源;(5)数据应提供初步推理支持。
      灵玖软件Nlpir Parser大数据挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。具体中间件包括:
      1 汉语词法分析
      汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理*的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
      词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。灵玖采用条件随机场(Conditional Random Field,简称CRF)模型,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。
      2新语自动发现
      新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
      灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。
      3 文本内容去重
      文本内容去重中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。灵玖采用高效的文章指纹算法,能够在较短的时间内与历史指纹库进行对比,从而发现重复记录。
      4 文本分类过滤
      文本分类中间件能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
      灵玖采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。用户可以灵活、方便的更换模板,来实现对不同的主题的分类过滤。
      5 文本聚类
      文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
      6 文档关键词提取
      文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
      采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出较新出现的新词语,所输出的词语可以配以权重。
      7 文本摘要
      自动摘要系统不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。
      8 网页正文提取
      网页正文提取中间件能够实现HTML格式的精确分析,自动分辨出网页是属于索引页面还是内容页面,灵玖基于统计分布规律模型判定网页的特征,所适用的网页不受类型和领域的限制,不需要配置抽取规则,能够全自动地对海量互联网页信息进行高效处理。
      9 全文搜索
      全文搜索中间件内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。
      语义技术的一系列技术标准,采用独立于具体应用系统的统一数据表达格式,使得基于语义技术的应用系统可以非常方便地融合网络大量共享数据。如语义数据关联云图,既便于融合他人现有数据,也有利于未来系统功能的扩充。

    http://ljrj123.cn.b2b168.com
    欢迎来到灵玖中科软件(北京)有限公司网站, 具体地址是北京市海淀区北京市海淀区苏州街49-3号盈智大厦5层,联系人是张宝。 主要经营灵玖软件(LING-JOIN-微场景宣传片),专注于大数据语义搜索与挖掘的技术创新与服务,提供大数据搜索、大数据挖掘与大数据应用解决方案,以应对大数据的管理、处理、分析,并从大数据中获知识与智慧,将用户的大数据困境转变为大数据宝藏。灵玖软件大数据语义技术已经应用于**三十余万家机构,灵玖软件在大数据应用落地上有成熟的产品与解决方案,赢得了用户的一致口碑。。 单位注册资金单位注册资金人民币 1000 - 5000 万元。 你有什么需要?我们都可以帮你一一解决!我们公司主要的特色服务是:大数据开发,大数据搜索与挖掘,大数据中文分词等,“诚信”是我们立足之本,“创新”是我们生存之源,“便捷”是我们努力的方向,用户的满意是我们较大的收益、用户的信赖是我们较大的成果。