进入21世纪,面对网络时代信息的爆炸式增长,中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,在互联网时代则显示出其优势。它的开发利用关系到我国今后信息产业乃至社会经济的发展和安全,具有巨大的经济价值和社会价值。 中文信息处理包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。中文信息网已逐渐成为我国现代化社会的神经系统,它将促进人民文化和社会生产效率*提高。中文信息处理工程已建立起现代化中文语言文字信息系统,使凝聚在语言文字中的知识信息发挥更大效能,使汉语汉字得到较佳利用。 中字信息处理的应用范围非常广泛,如编辑文稿整理文件档案资料和排版印刷等,可以说凡是要文字表达信息的场所,都可以使用文字信息处理技术。文字信息处理的实质就是把文字信息数字,就是用一个固定的数码代表一个字母或文字,这一数码就叫做代码。这样,在计算机内部处理文字信息时,就可以像处理纯数字一样来进行。需要输出时,再把替代的数码还原成相应的字母或文字。也就是说,汉字信息处理就是计算机对汉字代码的数据处理。 中文信息处理应用研究的问题,比如信息输入中的键盘输入和汉字识别发展已经成熟,但语音识别却很实现,困难是要适应不同人之间的语音变化以及外界的噪音干扰;中文信息处理研究分散而且存在着低层次重复、缺乏统一规范和标准的问题;现代汉语研究领域和计算机领域的隔绝状态没有出现根本性改变;汉语文和少数民族语言文字的信息处理技术与国际水平相比,还有相当大的差距。特别是自主知识产权的成果还不多;语言资源和成果的共享还有很大局限,网络上对公众开放的中国语言文字资源还很少,远不能满足我国国民经济发展和信息化事业对中文信息处理技术的要求等等。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。