企业信息

    灵玖中科软件(北京)有限公司

  • 9
  • 公司认证: 营业执照已认证
  • 企业性质:外资企业
    成立时间:
  • 公司地址: 北京市 海淀区 北京市海淀区苏州街49-3号盈智大厦5层
  • 姓名: 张宝
  • 认证: 手机未认证 身份证未认证 微信未绑定

    供应分类

    文本挖掘:灵玖大数据汉语智能分词技术

  • 所属行业:商务服务 咨询服务
  • 发布日期:2016-11-21
  • 阅读量:212
  • 价格:1.00 元/套 起
  • 产品规格:不限
  • 产品数量:1.00 套
  • 包装说明:不限
  • 发货地址:北京海淀  
  • 关键词:汉语分词,语义分析,大数据中文分词,大数据搜索

    文本挖掘:灵玖大数据汉语智能分词技术详细内容

      汉语分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
      汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中较基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位逐词输出,为紧随其后的加工处理提供先决条件,如图1所示。可见,中文自动分词是自然语言处理的**个步骤,其重要性勿庸置疑。
      然而,汉语自动分词存在很大的挑战。命名实体识别、新词处理和歧义消解是三个较根本又很棘手的问题。这里所谓的命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。例如,“计算技术研究所”,“斯琴高娃”,“石家庄”,要是在训练集中没有包含这些词的先验知识,那么将它们完整从句子中切分出来是很困难的。新词发现也叫做未登录词。这些词的出现是由于数据集范围的局限性以及新词的产生。它们包括了部分的命名实体、网络用语等,如何对这些未能从数据集中获得知识的词切分,依旧值得认真研究。常见的两种汉语分词的歧义有:1)交集型切分歧义。例如,给定一个输入句子——“结合成分子”,由于其中的“结合”、“合成”、“成分”和“分子”都能构成词,因此对切分来说造成了一定的困难;2)组合型歧义。例如“门把手弄坏了”,由于字之间的不同组合,可能存在的分词结果有:“门/把/手/弄坏了”和“门/把手/弄/坏/了”。尽管存在这么多的难以处理的问题,新的分词方法还是在不断被发掘。
      而灵玖大数据汉语智能分词系统是在多年研究基础上,耗时一年研制出了基于条件随机场(Conditional Random Field,简称CRF)模型,该系统的功能有:中文分词;词性标注;未登录词识别。分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
      大数据汉语智能分词系统充分解决了中文分词里三个主要的问题:
      1、词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。
      2、人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。
      3. 新词发现:从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。

    http://ljrj123.cn.b2b168.com
    欢迎来到灵玖中科软件(北京)有限公司网站, 具体地址是北京市海淀区北京市海淀区苏州街49-3号盈智大厦5层,联系人是张宝。 主要经营灵玖软件(LING-JOIN-微场景宣传片),专注于大数据语义搜索与挖掘的技术创新与服务,提供大数据搜索、大数据挖掘与大数据应用解决方案,以应对大数据的管理、处理、分析,并从大数据中获知识与智慧,将用户的大数据困境转变为大数据宝藏。灵玖软件大数据语义技术已经应用于**三十余万家机构,灵玖软件在大数据应用落地上有成熟的产品与解决方案,赢得了用户的一致口碑。。 单位注册资金单位注册资金人民币 1000 - 5000 万元。 你有什么需要?我们都可以帮你一一解决!我们公司主要的特色服务是:大数据开发,大数据搜索与挖掘,大数据中文分词等,“诚信”是我们立足之本,“创新”是我们生存之源,“便捷”是我们努力的方向,用户的满意是我们较大的收益、用户的信赖是我们较大的成果。