汉语共时语料库持续开发与多维应用研究.pdfVIP

汉语共时语料库持续开发与多维应用研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语共时语料库:持续开发与多维应用 香港城市大学语言资讯科学研究中心 香港城市大学语言资讯科学研究中心,主要从事语言学、自然语言处理和信息科学间的跨 学科研究,致力于建立科技、人文科学和社会科学之间的学术桥梁,是香港城市大学所属 六所校级研究中心之一。语言资讯科学研究中心经过十多年精确地共时处理,从来自世界 泛华语地区具影响力华文报刊及电子媒体的庞大文本资料中,累积了大量有用的统计数据、 VariationinChinese Speech 资料和技术。建立了LIVAC(Linguistic Communities)汉语共时语 料库。 以下主要从几个方面来介绍LIVAC语料库。第一部分将主要介绍LIVAC语料库的建立,其 语料的收集,设计特点.规模等。第二部分介绍LIVAC语料库的开发层次和深度,简单描 述已有的标注。第三和第四部分分别介绍基于LIVAC的语言研究及应用开发。 1.语料库设计 1.1来源;泛华语地区 LIVAC共时语料库定时分别处理来自多地的定=霪|=同类语料。语料来l源包括北京、上海、广 州、深圳及珠江三角洲地区、香港、澳门、台北及新加坡等多地有代表性的中文报章与传 媒、电子新闻报道。选取内容包括各媒体中的社论、世界各地要闻、当地新闻、两岸报道、 综合新闻,后来更扩展至包括经济新闻、体育新闻、娱乐新闻以及广告等。从范围看.上 述各地可以说涵盖了世界上使用中文的泛华语地区,从内容上看,可以说囊括了新闻媒体 中文的大多数层面。 1.2.时段:1995年至今 LIVAC按时语料库自1995年开始,每星期定时处理各地的同步语料,是一个“动态”更新 的语料库。历时十多年的语料方便有兴趣人士追踪有代表性的语言发展全面动态。 1.3.特点:共时、动态、均衡 除来源广泛外,LIVAC共时语料库最大的特点是“共时性”和“动态”,即持续不断地共时 收集各地同一日期的同步等量语料。语料库采用前所未有的严谨“视窗”模式,并在内容 的选择上刻意重复,可供各种客观的比较研究,方便有关的信息科技发展与应用。 1.4.规模;最大汉语共时语料库 LIVAC语料库到2006年6月,经处理的语料总字数达2亿2千5百万字以上,词型数目超 过123万条,并仍在不断增长。其中包括新概念词及其延伸、词义有所发展或转移的旧词 和有地方特色的词语等。此外,还从中提炼开发了复合词语、新概念词语、专名、专用词 语、四字格词语等多个专用词库。 。 目前上网可供检索的为1995年7月至1997年6月间京沪港澳台星等六地中文媒体有代表 性的的语料,含1,600多万字、近19万词条。现阶段提供了词语、词类及文旬的统计和搜 .-83.. 索等服务。尚有其他进一步的语言资料与功能,如字、词配搭、分布或语言结构的其他资 料。 2.语料库标注 2.I.词性标注 LIVAC语料库的语料经机器切词及人工校对后,分别作了多种词性标注,主要包括名词(一 般名词、人名、地名、专名等),动词(不及物动词、单宾动词、双宾动词、兼语动词、趋 向动词、名动词等).形容词(性质形容词、状态形容词,非谓形容词等)等共40多种词 类。上述标注将为语言工程提供优良的素材。也可供多方面的研究发展。包括对泛华语地 区的社会、文化与语言的深入比较。以上工作是由香港城市大学的校办企业麒麟星信息技 术有限公司和珠海分公司共同完成的。 2.2.语义论元标注 语义论元结构的标注是由句法标注到语义标注的过程中不可或缺的一步,同时对机器翻译, 信息提取,问答系统,数据挖掘等许多应用是重要的知识来源。我们在LIVAC中选择了高 频的几千个动词,对语义论元结构进行了标注。在人工标注的基础上,我们深入分析了现 代汉语动词的论元结构,论元属性,语法特征,语义特征,配价方式。施事、受事等语义 成分跟主语、宾语等句法成分之间的投射关系.并探讨了自动标注的算法。语义论元标注 的研究加深了我们对汉语结构的全面认识。也为后续研究和应用提供了比较充分的语义知 识方面的基础。 3.基于LIVAC语料库的语言研究 3.1.汉语音节的分布 究竟汉语是怎样的单音节语言?我们对香港词型与词次的音节分布情况进行了考察,从中 发现不论是就词型还是就词次来说,香港常用词前十个至五千个中全部或大部分都是单音 节或双

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档