- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语语料库的建设及其在汉语教学中的应用(精华)
汉语语料库的建设及其在汉语教学中的应用 * 俞士汶 北京大学信息科学技术学院 北京大学计算语言学研究所 1. 引言 语言学家历来重视第一手语言资料的获取和运用。在个人计算机普及以前,语言学家只 能靠手工用卡片收集少量的典型的资料。所以,中国前辈语言学家曾感叹他们是在用小本钱 做大买卖。计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的 发展、为语言教学研究注入了新的活力。 计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来 [1],这门学科已经有了40 多年的发展历史。1990 年代,语料库语言学异军突起,这是计算 语言学发展历史上的一个重要的里程碑。由于计算机以及应用技术(电子排版、因特网等等) 的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取 语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的 统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分 类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。 语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。可以引用以下事 实作为语料库价值的佐证。2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理 表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。并进 一步说明:“通用性怎么确定呢?就是用计算机做词频统计。”这项词频统计工作是应用计算 机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。 如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几 百组(最多不过1500 组)异形词进行的。即使针对性如此明确,在中文文本中统计这些异 形词的时候,仍会遇到困难。原因同日语一样,书面汉语的词与词之间不留间隔。“过分” 和“过份”是一组异形词。如果在原始文本中简单地统计汉字串“过分”的出现次数,就??? 出现误差。例如,“他们有过分歧”、“有人做过分析”、“已经检查过分会场了”、“北大在汉 中办过分校”等等汉字串中的“过分”都不是一个词。汉字串“过分”的出现频度并不等于 “过分”这个词的频度。笔者以为,进行异形词统计的研究者应该是进行了人工校对的。但 这样的工作并不能得到关于数以万计的汉语通用词语使用频度恼迦鲜丁6杂谥形睦此担? 实现大规模文本的正确的词语切分是词频统计的基础。相对于原始的未经过任何加工的(生) 语料,将汉语句子正确地切分为词语序列(即在词语同词语之间加上区分标记,如:空格) 的语料就是经过加工的(熟)语料。面向不同的应用,语料库需要有不同深度的加工。只作 切分,只能得到不区分词性的词频统计。以“把”为例,至少有3 种词性:介词,量词,动 词,意义和用法截然不同。只有在大规模文本中,在切分的基础上,进一步标注“把”的词 性,才能统计出带词性的词频。显然,带词性的词频信息无论对信息处理、词典编纂还是汉 语教学都有重要的意义。通常,将词语切分和词性标注这两件密切相关的加工任务叫做汉语 语料库的基本加工。 语料库语言学为汉语语料库的基本加工提供了理论模型和实现技术。面向语言信息处理 的理论、技术和应用,北京大学计算语言学研究所(以下简称“北大计算语言所”)研制了 系列化的经过加工的语料库和其他语言知识库。 *本文相关研究得到中国国家自然科学基金项973 项目G1998030507-4、863 项目2001AA114040 的支持。 1 2. 北京大学计算语言学研究所语料库建设概况 北大计算语言所从 1992 年起开始研究现代汉语语料库的多级加工技术,历时已有 10 载,对从词语切分和词性标注的基本加工到树库的构建都进行过探索[3,4,5],并完成了一 系列的大型语言工程,积累了一些有价值的成果。 目前,北大计算语言所拥有的加工语料库首推自1999 年4 月至2002 年4 月历时3 年完 成的《人民日报》标注语料库。该语料库包含1998 年全年2600 多万汉字语料,对全部语料 已完成词语切分和词性标注等基本加工。该项成果通过了合作单位 Fujitsu 的验收。其中 1 月份的 200 多万字的标注语料已在计算语言所的主页( 或 )上公布,可以免费下载。对于上半年的1300 万字的标注语料,业界可以 通过人民日报社新闻信息中心获得许可使用权。 语料库的加工离不开详细的、严谨的加工规范的指导。《人民日报》语料库的加工规范 是1999 年3 月制订、2001 年7 月修订的《现代汉语语料库加工规范——词语
文档评论(0)