样例文件说明-中文语言资源联盟.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
样例文件说明-中文语言资源联盟.doc

973课题G1998030501A-01 《汉语语法信息词典(高频词)》 技术报告 1. 任务概述 973课题G1998030501A-01规定的任务可作如下概述:根据1998年全年2600万字《人民日报》基本标注语料库(以下简称“北大基本标注语料库”或“标注语料库”)统计词频,将《现代汉语语法信息词典》中所包含的25000-30000个高频词及其相关语法属性信息全部抽取出来,形成一个《现代汉语语法信息词典》的高频词子集,再在该子集中对每个词语补充两项信息:频度与从语料库挑选的3-5个例句。这样便得到任务书所要求的《汉语语法信息词典(高频词)》。 由此可见,本项任务完全立足于北京大学计算语言学研究所的两个基础资源:《现代汉语语法信息词典》和北大基本标注语料库。表面上看来,有了这两个资源,完成任务并不困难。然而,当实际应用这两个根据不同需求先后开发的资源时,仍有一些复杂的问题需要解决。 独立地考察,《现代汉语语法信息词典》和北大基本标注语料库的质量是完全可以信赖的,已得到业界的普遍认可,尽管不能说没有瑕疵(flaw)。但是,当综合应用这两项资源时,它们之间的“缝隙”或“鸿沟”(gap)立即暴露出来了。 如何处理不同知识库之间在应用时暴露出来时的“缝隙”,可能成为今后知识库建设和应用的普遍问题。 两个知识库的“缝隙”描述 《现代汉语语法信息词典详解(第二版)》(2003年2月清华大学出版社)[1]是对含7.3万词语的电子词典《现代汉语语法信息词典》的必威体育精装版、最详细的介绍。这里把其中第4章作为必威体育精装版的《现代汉语语法信息词典规格说明书》置于附录1中。北大基本标注语料库的规范已在《中文信息学报》2002年第5,6两期连载[2]。这里把它作为附录2。 对照这两个知识库的说明书和实例,可以看出这两个知识库是密切关联的。它们都遵循词组本位语法体系,所使用的词类标记集也是兼容的。这种状态为利用这两个知识库开发《汉语语法信息词典(高频词)》奠定了坚实的基础。但这两个知识库之间也存在“缝隙”,为开发《汉语语法信息词典(高频词)》带来了困难,尽管采取了一些填补“缝隙”的措施,但最终成果还是留下了缺憾。 (1)《现代汉语语法信息词典》的登录项“词语”和标注语料库的“切分单位”不完全一致。这个“缝隙”是必然存在的,可以细分为以下3种情况。赵元任明确地解说过“词典里的不成词的条目和词典里不收的临时词”[3],朱德熙具体地指明:“一九三零年”是一个时间词,“二十”、“三千”是数词[4]。可见这样的时间词和数词是无穷多的。北大基本标注语料库是遵循这样的语法理论进行切分的,但这些词《现代汉语语法信息词典》显然不可能全收,只能收它们的构成成分。这是第一种情况。第二种情况与第一种情况正好相反,像“菜霸”、“废液”等是词典中没有的未定义词,标注语料库如果不能正确地确认它们,自然影响词频统计。按理它们是应该收入词典的,但社会生活总在发展、变化,任何一部词典绝不可能囊括全部已经存在的词,更不可能预测未来出现的词。第三种情况像“应用性”、“抽象派” 等合成词,标注语料库明确规定是一个切分单位,但该不该收入词典却是有弹性的。《现代汉语语法信息词典》里有“应用”、“抽象”,又有归入后接成分的“性”、“派”,不收这些合成词是可以的,事实上也不可能全收。但《现代汉语语法信息词典》却又收了“积极性”、“激进派”,同样也是合理的。这样的词是否收入词典只能根据应用的需要,相对客观的标准是各个词在语料中出现的频度。 (2)《现代汉语语法信息词典》的词类代码和基本标注语料库的标记集有交错。基本标注语料库约有40个扩充的词性标记,《现代汉语语法信息词典》只使用26个小写字母作为词类代码,词类代码只是语料库标记集的一个子集。如果仅仅像ns是n的子类,vn/vd是v的子类,an/ad是a的子类, 那么词频统计时将ns,vn/vd,an/ad等分别归入n,v,a就能得到词典中的词语(带词性)在语料库中的频度。但是,有些情况不限于多对一,就比较复杂了。现在,标注语料库的人名不区分“姓”和“名”,单字的“姓”、“复姓”(例:令狐、欧阳)、单字的“名”、两个字的“名”以及非汉族姓名的音译在语料库中均标为“nr”,“nr”与词典中登录项“词语”的“词类”不存在简单的对应关系。像“蒲”置于词典的语素库中,基本含义是植物名称(非专有名词,例:菖蒲,蒲扇),词类代码是Ng,而在语料库中,可以作“姓”,可以是地名(山西蒲州),可以作人名的用字,因而其后可能出现多种不同的标记。这种情况显然不适合采用简单归并的办法。 (3)基本标注语料库没有标注《现代汉语语法信息词典》的“同形”信息。《现代汉语语法信息词典》的各个数据库文件都以“词语”+“词类”+“同形”作为主关键字(Primary Key)。例如,词典中“调配”有两

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档