网站大量收购独家精品文档,联系QQ:2885784924

第三节语料库建设(上).ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三节语料库建设(上)

第三节 语料库建设(上) 授课时间:2006年12月11日 授课人:徐艳华 教学目标 语料库及其种类 语言学研究的三种方法 语料库语言学的发展历史 语料库的意义 一、语料库及其种类 1、语料库的定义 语料库(Corpus),就是指在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。 2、语料库的种类 语料库根据不同的标准大致分为: 生语料库:就是未经加工的、没有任何切分、标注标记的原始语料库。 熟语料库:就是指经过加工、带有切分、标注标记的语料库。 监控语料库:用于观察现代英语的变迁。 平行语料库:把两种语言中完全对应的文本输入计算机,通过分析对比找出两者的对应关系,可用于机器翻译研究。 异质型语料库:就是广泛收集和存储各种语料,语料选取并不要求依据某个事先确定的选材原则,所选语料一般只按其原貌存储。 同质型语料库:指所收语料必须具有同一属性。如美国TIPSTER语料库只存储与军事有关的文本,德国波恩大学建立的Kant语料库只收集作家Kant的著作。 系统型语料库:就是依据事先确定的选材原则和比例选取语料的语料库,这类语料库强调语料选取的系统性、均匀性和合理性,力求具有广泛的代表性,以真实反映一个特定语种或特定范围的语言事实全貌。 专用型语料库:就是指专门服务于某个特定目的的语料库,如美国为珍藏人文科学重要著作和资料而建立的北美人文科学语料库等。 二、语言学研究的三种方法 内省法:主要是转换生成语言学家采用的研究方法,他们以语言学家本人为资料提供人,依靠自己的语感作为判断语言现象的歧义、正误、可接受性等的依据。 诱导法:是一种调查方法,通过实地调查来收集人们对实际使用的语言材料的看法和人们对语言材料的心理反应,通常采用有控制的方法诱导出被试者对句子或句子中的某个成分的判断,要求被试者确定句子中有没有错误、句子的可接受程度、对句子的理解程度以及其他类似的有关数据 语料库方法:以语料库为基础的研究方法,即语料库语言学。由于语料库所收集的是语言事实,也就是人们实际使用的语言,因此语料库语言学方法可以说是着眼于语言运用的研究方法。 现代语言学研究三种方法的比较 三、语料库语言学的发展历史 1、关于语料库语言学的定义 “根据篇章材料对对语言的研究称为语料库语言学。”(K。Aijmer B .Aitenberg,19991,p.1) “基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。”(T。Mcenery A.wilson,1996,p.1) “以语料为语言描写的起点或以语料为验证有关语言假说的方法称为语料库语言学”(D.Crystal,1999,p.86) 可见,语料库语言学是一种以语料库为基础的语言研究方法。实际上包括了两个方面:一是对自然语言进行标注,二是对已标注的语料的研究和利用方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。发展到现在,语料库语言学已成为计算语言学的一个分支学科,主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法标注,研究语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域的应用。 2、语料库语言学的发展历史 语料库语言学的早期发展 (1)语言习得是应用语料研究方法较早较普遍的领域。 (2)利用自然语言进行音系研究,在西方当首推美国早期的结构主义语言学家,如F.boas和E.Sapir等人。他们注重“野外工作”,强调语料获取的自然性和语料分析的客观性。 (3)方言学从其产生以来就与语料结下不解之缘。 新的语料库语言学(第一代语料库) R.Quirk着手建立的“英语用法”语库。1959年,英国语言学家0uirk在杜伦大学任教时提出了建立现代英语用法调查语料库的设想、想建立一个为语法研究服务的容量为100万个单词的语料库,60年代以后,国外先后建立了一批第一代语料库。美国Brown大学建立的布朗语料库容量是100万个单词,是依靠人力以键盘方式输入计算机的,存入1961年美国各类书刊的连续语言样本500篇,每篇2000个词。 第二代语料库的建成 80年代以来,以伯明翰英语语料库为代表的一大批语料库相继建成。这些机控语料库,尽管规模、设计和研究目的各异,但大多采用了较新的KDEM(Kurzweil Data Etry Machine)光电符号识别技术,使语 料的编码和编辑得以从繁重的人工输入中解脱出来,大大加快了语料的标注处理,促进了语料的分析和利用,故称第二代语料库。 第三代语料库 进入90年代后,由于计算机文本处理技术(例如词处理编辑软件和

文档评论(0)

yanchuh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档