- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语语料库的开发与管理 一、 大规模的标注语料库 作者认为,为了提高工作效率的现代化水平,需要考虑计算机的综合语言数据库。北京大学计算语言学研究所积十多年之努力开发的《现代汉语语法信息词典》(以下简称《语法信息词典》)是这个语言知识库的主要组成部分。 《语法信息词典》中的知识是由研制者根据自己对语言现象的观察、领悟并参照前人的语言学著作、词典、语料而整理的。这种知识还不能充分满足要求,多数颗粒度较大,也难以保证与真实语料完全一致。计算机硬件与软件的进步为自然语言处理技术的发展提供了广阔的新天地。现在,大规模的电子文本语料垂手可得。机器(更准确地说,人利用计算机)可以直接从大规模的语料中学习到处理语言的大量知识。例如,对大量语料进行简单的统计,就能得到“汉字的使用频度”。计算两个汉字在语料中出现的“互信息”就能发现“词”,但原始语料的利用价值或者说无指导的机器学习的潜力是有局限性的。人们常说“良师出高徒”。如果在原始语料中预先注入一些语言学知识,譬如根据人的认识将一部分语料按词切分好并标注上词性,然后再将这样的语料作为样例提供给机器,机器就能学得更多更好。正是基于这样的认识,北大计算语言学研究所与富士通合作正在对一个2700多万汉字的语料库进行加工。目前的加工项目包括词语切分和词性标注,并标出专有名词(包括短语型专有名称)。经过如此加工的语料库可以简称为“标注语料库”。 要建成高质量的大规模的标注语料库,需要具备多方面的基础和条件。其中必须先行的一项工作就是制订完备的可供人机两用的加工规范。 二、 /w启动/vn仪式/d 语料库中的原始语料包括1998年全年《人民日报》的纯文本文件和其他一些语料,超过2700万字。《人民日报》的纯文本文件的质量高,几乎没有错字或语法错误。1998年一年的语料虽然不能说覆盖了当代汉语使用的全面情况,但至少是一个相当大的有代表性的子集。从标注语料库中摘录一段,示例如下: 由/p [共青团/n 中央/n]nt 、/w [全国/n 绿化/vn 委员会/n]nt 、/w 林业部/nt 、/w 铁道部/nt 、/w [全国/n 青年/n 联合会/n]nt 共同/d 发起/v 的/u 迎/v 香港/ns 回归/v 京九/j 植绿护绿/l 活动/vn 今天/t 正式/ad 启动/v 。/w 广东/ns 的/u 深圳/ns 、/w 惠州/ns 、/w 河源/ns 等/u 地/n 同时/d 举行/v 了/u 隆重/a 热烈/a 的/u 启动/vn 仪式/n 。/w 在原始语料中,若去掉标点符号,汉字都是一个接一个排列的,词与词之间没有间隔。加工后的语料,切分单位之间用“空格”隔开了。对每个切分单位加了标记,每个斜杠“/”右边的n,v,a,w等相应地表示它左边的切分单位是名词、动词、形容词、标点符号等,ns是地名。用一对方括号括起来的若干个切分单位代表一个短语型的专有名称,如nt表示一个团体机构的名称。 这项工程对加工质量要求甚严。为了得到高精度的加工结果,必须制订明确的可操作的加工规范,同时实现人与计算机的合理分工与妥善配合。 三、 文件仓库加工规范的制定 3.1 增加了标记和语料库 制订《现代汉语语料库加工——词语切分与词性标注规范与手册》的基本思路如下: (1)词语切分的规范尽可能同已有的中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《语法信息词典》可作为基本参照,有必要对“分词规范”作一些调整和补充。 (2)词性标注使用小标记集。除了使用《语法信息词典》中的26个词类标记外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素g按其子类标注,已有名语素Ng,动语素Vg,形容语素Ag,时间语素Tg,副语素Dg等;③动词和形容词的某些功能标记,即名动词vn(在句法结构中起名词作用的动词),名形词an(起名词作用的形容词),副动词vd(起副词作用的动词),副形词ad(起副词作用的形容词)。合计约40个左右。同汉语信息处理学界的某些研究相比,这是一个小标记集。 (3)与已有资源的配合。尽管使用的是小标记集,但标注语料库同《语法信息词典》是紧密联系的,在自然语言处理应用系统中,以文本中的词语及词性(各个标记的第一个字母就是相应的词性,只有语素符号g是标记的第二个字母)为入口,可以快速、准确地检索到词典中词语的丰富的语法属性信息。这就是说,经过切分、标注的语料库同《现代汉语语法信息词典》相结合,可以形成一个超文本的语言知识库。 (4)对专有名词(人名、地名、团体机构名等)进行了标注。并用方括号标出短语型专有名称。 (5)规范既要适应语言信息处理与语料库语言
文档评论(0)