基于N-最短路径方法的中文词语粗分模型-中文信息处理技术.pdfVIP

下载本文档

28
0
约 6页
2017-09-13 发布于重庆
举报
版权申诉

基于N-最短路径方法的中文词语粗分模型-中文信息处理技术.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文信息处理技术发展简史张华平中文信息处理技术发展简史张华平 ( 中国科学院计算技术研究所软件实验室北京 100080) E-mail: zhanghp@software. Homepage: ; http://pipy_ 摘要: 真正意义上的中文信息处理迄今已经有 20 余年的历史了，随着计算机的普及和 Internet 的蓬勃发展，中文信息处理技术实实在在的改变了人们的生活。本文根据目前所能收集的文献资料，集中整理了中文信息处理技术发展的简史，并从自身专业的角度，针对重大的研究工作做了粗浅的评述，旨在提供一个中文信息处理技术发展的脉络，达到“以史为鉴”或者“温故而知新”的效果。关键词: 中文信息处理技术，简史 1、引言在我国，中文信息处理已经不是什么新鲜事物了，随着科学技术的发展，中文信息处理技术已经深入到了社会生活的各个方面。所谓“中文信息处理”，指的是用计算机对汉语（包括口语和书面语）进行转换、传输、存贮、分析等加工的科学。它是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科，是自然语言信息处理的一个分支，需要以大量的语言知识、背景知识为依据，对中文信息的人脑处理过程进行模拟。其中，“中文”是指中国通用的所有语言种类，包括汉语及其他少数民族的语言；但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取，并有一定交际功能的东西，“信息”是不确定性的减少，是负熵。所谓“处理”，是指用计算机对信息进行各种加工，主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。严格意义上讲，“汉语计算机自动分析”比“中文信息处理”更加确切，为表述的习惯，在这里，我们依然沿袭这一称呼。 2002年9月，笔者有幸参加了在台北市举行的第十九届国际计算语言学学术会议(The th 19 International Conference on Computational Linguistics) SIGHAN （Special Interest Group on HAN ）研究兴趣组关于“十年后的中文处理”的讨论，台北“中研院”的黄居仁教授详尽的回顾了中文信息处理在台北的二十年发展史。实际上，祖国大陆的中文信息处理历史更加悠久、而且取得了许多实实在在的、改变了人们生活的成就，然而境外的研究群体、我们国家非中文信息处理领域的人员、乃至从事这一方向研究的人员也知之甚少。因此，笔者依据目前所能收集的文献资料，整理出中文信息处理二十年的科学发展史，并从自己专业的角度出发，予以评述，希望能对投身这一领域的研究人员或者工程技术人员提供一些历史参考资料，并盼望有心人能够“以史为鉴”或者“温故而知新”。本文的第一部分将综述中文信息处理的难点，第二部分按照发展的各个阶段，阐述中文信息处理的发展史，最后探讨目前中文信息处理的问题及应对方案。 2 、中文信息处理的难点汉语在世界上属于汉藏语系，是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分[1] 。其主要特点有：基金项目: 国家重点基础研究项目(G1998030507-4 ；G1998030510) 作者简介: 张华平(1978.2-) :男，江西波阳人，硕博连读生，主要研究领域为计算语言学与中文信息处理。中文信息处理技术发展简史张华平 (1) 汉语的独一无二的特色是：完全使用由象形文字演化而来的方块汉字； (2) 词语没有形态标记；汉语是以字为基本单位，词之间没有明显的标记，词本身也没有明显的形态标志。所以中文信息处理的基础课题和特有的问题就是中文分词，分词本身的也有一定的错误率[2]，这无疑降低了后续处理的实际效果。 (3) 结构松散，比如：我上街买菜，看见一个人，穿着一件