自然语言处理是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。因此,自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战,包括自然语言理解,因此,自然语言处理涉及人机交互的面积。 自然语言处理研究逐渐从词汇语义成分的语义转移,进一步的,叙事的理解。然而人类水平的自然语言处理,是一个人工智能完全问题。它是相当于解决*的人工智能问题使计算机和人一样聪明,或强大的AI。自然语言处理的未来一般也因此密切结合人工智能发展。 自然语言处理分析技术,大致分为两个层面,一个是浅层分析,如分词,词性标注。这些技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟。另一个层面是对语言进行深层的处理,需要对句子进行全局分析。深层语言分析有三个层次:句法、语义、语用。 句法关心的是词语如何排列形成正确的句子,并决定每个词语在句子中充当的结构角色。语义是指词语的意义(词义)以及在句子中词语意义是如何相互结合形成句子意义(句义)的。获得一个句子暗含的语义信息是较重要的,并且是自然语言处理的较终目标。语义信息与句子的句法和词义信息有着密切的联系。 语义分析,指的是将给定的自然语言(包括篇章和句子)转化为反映其意义的某种形式化表示,也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通。语义依存分析是处理词级别、短语级别、从句级别以及句子级别的语义结构的过程。它是面向整个句子的,而不仅是句子中主要谓词与其论元之间的语义关系,还含有非主要谓词包含的语义信息,如数量(quantity)、属性(attribute)和频率(frequency)等。 ??NLPIR文本搜索与挖掘开发系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,?Android,Maemo5,?FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。它融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含意思。语义依存分析提取句子中所有的修饰词与核心词对间的语义关系,且修饰词与核心词对覆盖了句子中所有的词,即句子中的每一个词都有其核心节点(除了整个句子的核心节点外)。? ??NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 NLPIRNLPIR文本搜索与挖掘开发系统主要功能介绍 1)中英文混合分词功能 自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能,如图所示 2)关键词提取功能 采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。 3)新词识别与自适应分词功能 从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。 4)用户专业词典功能 可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。 5)微博分词功能 对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。