现代汉语语义构词数据库.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《现代汉语语义构词信息库》说明 1引言 汉语构词法是汉语词汇学、语法学长期以来关注的问题,取得了丰硕成果。近年来随着汉语信息处理的发展,汉语构词法的研究又有了更加实际的意义和需求,又取得了很多有价值的研究成果。综观这些研究成果,主要是从语法形式入手研究构词法,关注并揭示词的结构类型、构词的语素类型与词性之间的关系等。这些成果丰富和发展了词汇学、语法学理论,同时,也为汉语信息处理词语的识别与理解提供了基本依据。基于语义的汉语构词法研究才刚刚起步,目前所能见到的比较有影响的成果有周荐、葛本仪、鲁川、傅爱平等先生的有关研究,这些成果有的提出了研究的思路、有的粗略地分析了双音复合词两个语素之间的语义关系、有的从理论上总结“意合”构词研究与实际应用上的不足。总的来说,这些成果是比较粗略的,限制了其在计算机语言信息处理当中的应用。面向信息处理的基于大规模标注语料库的汉语语义构词规则的深入细致的研究总结势在必行。 2汉语语义构词研究的总体思路 语素义与词义的关系一直是词汇语义学关心的理论问题,进入信息时代,其实际意义尤为重要。搞清楚语素(字)义经过整合转化为词义的规则,不仅对人(尤其是留学生)望文(字)生(词) 义识读新词语具有重要的指导作用,而且是计算机语言信息处理当中未登录词语的识别以及语义理解的重要依据。随着信息时代的到来,现代汉语词汇迅速发展,“新词”激增,而“汉字”却未增,“这就证明了:汉族人既有用旧字造新词的创造能力,又有看旧字懂新词的领悟力。”“我国人工智能学者和语言学者要通力合作,让电脑模拟汉族人看旧字懂新词的智力。这就应促使‘汉语基因工程’上马,即把字符当作汉语的‘基因’,构建各级‘意序模式库’,阐明造字、造词和造句的‘意合规则’。”这样,计算机就可以利用这些规则去识别那些越来越多的未登录词语,同时“也有助于对外汉语教学,要教外国学生也像汉族人一样,有看旧字懂新词的领悟力和把新知识‘意译’为汉语时有用旧字造新词的创造力” [1]。 如何研究由字义整合转化为词义的规律,即汉语语义构词规则?我们认为拟分三步走。第一步按照一个统一的语义分类体系,分别建立现代汉语字、词的语义分类信息库,尽可能获得全面、系统的字、词的语义分布信息。正是在这种思想指导下,我们本着人机两用的研究理念,引入“字位”的观念(所谓“字位”就是最小的语义构词单位,即形音义一体化的字,每个字位一形、一音、一义),遵循“一字一条、一义一条、意义与语法功能结合、非语素字单独立条”等原则将“国标GB2312”所定义的6763个汉字衍生为17430个字位,按照《同义词词林》的语义分类体系给每个字位归了类,录入数据库,建成了大型的《汉字义类信息库》[2]。第二步,在字、词语义分类信息库的基础上,通过统计比较说明字、词语义分布的实际情况以及二者之间的对应关系,为进一步进行语义构词规律的研究提供一个理论基础。经过比较研究,我们发现:(1)字的义类体系和词的义类体系基本一致。(2)字、词在各个义类中的分布比例基本一致。(3)从大类到每个小类,除了个别的类外,字、词的绝对数量多少是一致的,即除了个别类外,绝大部分类字最多、词也是最多的,相反,如果字最少、词也是最少的。可见,字与词在义类上有对应关系,大部分词的意义是在字义的基础上整合而成的。 第三步,进行语义构词规律的研究。选取一定数量的双音合成词,利用“汉字义类信息库”对构成双音合成词的每个字进行语义标注[3],建成大型的《汉语语义构词数据库》,在此基础上进行统计归纳,总结出由字义整合成词义的具体规律[4]。前面两步工作已经完成,本文介绍的是第三步工作的一个初步结果。 3《汉语语义构词数据库》的实现 以《同义词词林》为基础,结合《现代汉语词典》《新词语大词典》[5]选取了52366个双音合成词,然后将《汉字义类信息库》的信息用计算机给这些合成词中的每个字标注义类标记和简单释义,经过人工校对,建成大型的《汉语语义构词数据库》。数据库中所用的语义类标记大类有:A人、B物、C时间与空间、D抽象事物、E特征、F动作、G心理活动、H活动、I现象与状态、J关联、K助语、L敬语。数据库样例如下: ID 合成词 合成词的语义类 前字 后字 字、词语义关系类型 2 力争 Je12 Ka19,尽力,努力 Ha02,争夺 6 3 联邦 Di02 Ie09,连接,联合 DI02,国 6 4 联播 Hh03 Ie09,连接,联合 Hh03,传播 6 5 联电 Hi11 Ie09,连接,联合 Bg04,有电荷存在和电荷变化现象 6 6 联合 Ie08 Ie09,连接,联合 Hj30,合并 6 8 联结 Ie08 Ie09,连接,联合 Ie02,发生某种关系,结合 6 9 联军 Di11 Ie09,连接,联合 DI11,军队

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档