基于语料库的汉语字词相关性研究.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语料库的汉语字词相关性研究.doc

基于语料库的汉语字词相关性研究 盛玉麒   一、概 说   文字是记录语言的书面符号系统。字母文字系统通过记录语音实现对语言的记录。字母本身就成为一个个的记音符号,被语言的音位系统赋予了音的属性。汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由口-耳交际的符号系统转换成为眼-口-耳信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。绝大多数汉字是一个个单音节的语素或词。   由于汉字记录汉语时不实行分词连写,所以,在书面上,汉语的字、语素与词特别是单音节词以及词与词组之间存在界限不清的复杂关系。汉字本位的中国传统语言学与词语本位的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传统语言学离开了语言中的词儿几乎无法深入讨论词法、句法等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位词儿出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的切分、定类等基础研究方面,又遇到许多二难的障碍。这个基本问题不解决,进一步的理论研究几乎是沙上建塔。   如果抛开汉字,单纯从词的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,但是实践起来很难。因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是文字系统,仍然与实用的书面符号系统不同。对于使用汉语汉字的人来说,已经形成了汉字式认知模式,甚至在口语中也时常少不了像字眼儿、咬字吐词、字正腔圆等以字代词、以词代字的说法。因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。   本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。   从书面上看,汉语的词儿就是由一个或几个单字所组成的。汉语语法无非是组字成词和谴词造句的方法。语言本身是一个习惯的系统。其中许多规律包括词语的创造原则与构成方式等都是约定俗成的。这个约定俗成既有有章可循的规律或道理,又有许多无章可循的、既没规律又无道理的例外,如一些强制性的积非成是的习惯或语言事实。以动词吃为例,既可以接所有能够用嘴吃的东西、也可以接属于吞咽到胃里东西、甚至可以接根本与嘴咀嚼无关的东西或事情:像吃饭、吃烟、吃醋、吃闷棍、吃官司、吃回扣、吃这一?quot;,甚至吃床腿等等。显然,单纯从意义搭配或语法关系的角度,有时很难解决这些活跃在日常语言中的词汇现象。   如果我们从数理语言学的角度,运用数理统计的方法,就会发现,在书面汉语的语言事实中,不管是规律还是例外,都符合一种统计学的规律:例如一个双音词,表现在书面上就是两个词,而且,这两个字必然经常连在一起出现;反之,如果两个字之间不构成一个词,那么,它们一般就不会经常在一起出现。我们可以根据这个特点,找出字与字、词与词、字与词之间是否经常在一起出现的规律,也就是字词相关性,将其推而广之,就可以发现书面汉语中的词法、句法甚至章法的组织与结构规律了。   汉语的分词是中文信息处理各个应用系统中经常遇到的一个难题。如果不分词,关于汉语的词类划分、语法关系与规则的描写等,就没有了着落,语言的理解也就无从下手。可是,在现实生活中,使用汉语的人一般好象不大注意词儿,词和非词的界限是比较模糊的;另一方面,也不大计较在一个句子中使用的是什么词类、是名词还是动词、是及物动词还是不及物动词。即使在纠正病句时,通常也不说你这里应当用动词、不应当用形容词;或者这里应当用及物动词、不应当用不及物动词,等等。人们注意的只是一个现成的语流中现实的字符串的合理性,或者叫可理解性。这个合理性或可理解性可以从字词相关性中找出来。   另外,由于是使用汉字记录汉语,所以,说话时的同音词表现在汉字中一定用不同的同音字代替,例如:不能把安徽写成安灰,也不能把高兴写成高性或高姓。这说明汉字已经成为专字专用的一种书写符号系统。一切关于现代汉语的研究都无法离开书面汉语,一切关于书面汉语的研究都不能离开汉字。所以,从这个意义上说,关于现代汉语字词相关性的研究,是揭示现代汉语内在规律的重要途径。   字与字的相关性、字与词的相关性以及词与词的相关性可以归结为汉语的马尔科夫特征。这是所有离散集合的一个普遍规律性特征。运用这个特征,可以发现和解决字本位的传统语言学无法发现的问题,也可以发现和解决词本位的现代语言学对于书面汉语无法解决的问题。   笔者从1987年开始研究这个问题,通过研制《信息处理用现代汉语三万词语集》、《当代汉语流通频度词典》、《信息处理用现代汉语港台词语集》以及对《邓小平文选》、《十三经》、《红楼梦》、《金瓶梅》、《醒世姻缘传》等语料的抽样统计分析,探讨汉语字词相关性研究的

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档