- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言理解-语料库精要
语料库 什么是语料库 语料库是语言材料的集合 语料库的特点 必须是真实语言环境中出现过的语言材料 必须是以电子计算机为载体 必须经过一定的分析、加工和处理 语料库的类型1 按来源分类 口语语料库 书面语语料库 按语言分类 单语语料库 双语语料库 按加工分类 生语料库 熟语料库 语料库的类型2 按加工方式分 单语 原始语料库 切分标注语料库 句法树库 语义标注语料库 …… 双语 篇章对齐语料库 句子对齐语料库 词语对齐语料库 结构对齐语料库 …… 语料库研究的历史 第一代(1970-80年代) 百万词级 以语言研究为导向 第二代(1980-90年代) 千万词级 词典编纂-应用导向 第三代(1990年代-) 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 第四代(?) 互联网作为语料库 第一代语料库1 Brown语料库 始建于1960年代初 W.N.Francis和H.Kucera发起 美国Brown大学建立 世界上第一个根据系统性原则采集样本的标准语料库 主要代表当代美国英语 规模100万词次 第一代语料库2 LOB语料库 始建于1970年代初 由英国Lancaster大学著名语言学家Geoffrey Leech倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要代表当代英国英语 第一代语料库3 LLC语料库 1960年代初,由Randolph Quirk主持 收集2000小时的谈话和广播等口语素材并整理成书面材料 由瑞典Lund大学J. Svartvik主持全部录入计算机 1975年建成 第二代语料库1 COBUILD语料库 建于1980年代 以词典编撰为应用背景 有英国Birminghan大学与Collins出版社合作完成 规模达2000万词次 基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评 第二代语料库2 Longman语料库 建于1980年代 包括三个语料库 LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服务 词典规模达5000万词次 第三代语料库2 PennTreeBank(宾州大学树库) 美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持 1993年,完成了对近300万英语词的句子语法结构标注 2000年完成了中文树库(第一版):10万词次,4185个句子 第三代语料库1 ACL/DCI语料库 美国ACL倡议发起 收集语料范围广泛 华尔街日报 Collins英语词典 Brown语料库 PennTreeBank 一些双语或多语文本等 既有已标注的语料,也有未标注语料 制定了语料库文件的格式标注 采用统一的SGML标注语言 语料标注依照TEI(Text Encoding Initiative)标准 语料库的收集、整理和应用 语料的选取 Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman –精品原则 –有影响力原则 –随机挑选原则 –高流通度原则 –典型性原则 –易于获得原则 –具有统计样本意义原则 –符合语言规范原则 平衡性:主观性强 语料库的加工 语料库标注(Annotation) 1)词性标记(Part-of-speech tagging) 2)句法层次和范畴标记(Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation) 语料库加工工具 分类工具名称功能描述 A. 文件处理工具 文本过滤器 将不同的文件格式转成为纯文本文件格式 文本分类器 自动判别文本领域 语料库辅助校对工具及一致性检查工具 按照语料库加工规范,对语料质量进行管理 B. 语言处理工具 分词与词性标注工具 对语料进行词语识别,词性标记处理 词义标注工具 对词义进行标注 浅层分析工具 对语块(chunk)进行标注 句法分析工具 对句子进行完全句法分析 双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词的对齐加工 双语语料库(Bilingual Corpora)加工 段落对齐 句子对齐 词对齐 短语对齐 双语句子对齐 基于长度(length-based)的对齐方法Gale Church (1993) 纯粹基于句
您可能关注的文档
- 自改六年级上册口语交际习作八精要.pptx
- 园林树木栽培与养护复习资料要点.doc
- 园林树木的土肥水管理要点.doc
- 自然条件对城市及交通线路的影响(改)精要.pptx
- 自然拼读教学 元音字母在闭音节中的发音规律精要.ppt
- 自然界中的守恒量精要.ppt
- 自然拼读法精要.ppt
- 自然语言理解-汉语概念内涵分析精要.ppt
- 自然科学基金申报注意事项(江西著名教授关于国家基金讲座ppt)精要.ppt
- 自然语言理解-词法分析精要.ppt
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
有哪些信誉好的足球投注网站
文档评论(0)