十五211-语言知识库20020910DOC.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
十五211-语言知识库20020910DOC

“十五”“211工程”建设子项目建议 北京大学综合型语言知识库的建设 信息科学技术学院 ?计算语言学研究所 ?俞士汶 2002年9月9日 面向信息处理的综合型语言知识库 ——计算语言学学科建设的基础设施 主要内容 1. 背景 基础 内容和目标 希望得到的支持 背景 社会的信息化日益加快,语言文字是信息的载体,“语言文字自动处理”研究的重要性、迫切性已经为公众所认同。相关的一些研究成果已经进入人们的日常生活。支撑“语言文字自动处理”的计算语言学的理论与技术和社会生活的关系十分密切,自然也越来越得到社会的重视。第一届学生计算语言学研讨会于今年8月在北大成功召开便是一个鲜明的例证。来自全国(包括香港和台湾)、新加坡、澳大利亚、韩国等地域的160余名学生参加了会议,规模远远超出一年前计划时的预计。 北京大学计算语言学研究所已经成为在国内外有广泛影响的计算语言学研究基地。集成在语言基础资源建设这个关键研究领域所积累的成果,建成为语言信息处理可以提供全面支持的综合型语言知识库成为北京大学计算语言学研究所发展的新机遇。这个综合型语言知识库也是计算语言学和应用语言学学科发展的最重要的基础设施。北大在这个文理结合的领域具有天然的优势。建设综合型语言知识库可以保持和发展北大的优势, 面临的竞争也是严峻的。美国国防部支持宾夕法利亚大学建成了中文树库,已产生影响。台湾学者争取到了国际计算语言学大会COLING2002于今年8月在台北召开。国家973重大基础研究项目“图像、语音、自然语言理解与知识发掘”专家组决定于2002年9月21日至22日召开“自然语言处理若干重要问题”学术研讨会,并着手组建“中国语言资源联盟”(北大计算语言所会成为该联盟的成员)。 2. 基础 16年来,北京大学计算语言学研究所已取得如下成果: 现代汉语语法信息词典(7.3万词语) 大规模标注语料库(2600万汉字) 面向机器翻译的语义词典(5万多词语) 面向信息检索与信息提取的中文概念词典(6万多概念) 英汉对照的双语语料库(5万多句对) 信息科学技术领域术语库(15万条英汉对照术语) 语言知识库建设的系列工具软件(汉语切分与词性标注软件、双语对齐软件、汉语文本注音软件、中文概念词典可视化辅助开发软件、术语自动提取软件等等) 这些成果的规模、水平与质量在国内外汉语信息处理学界居于领先(至少先进)地位,除了获得政府部委级与北京大学的多项奖励外,最重要的影响是通过成果转让(license)方式已经传播到世界各地:美国、日本、德国、法国、韩国、新加坡、瑞典以及香港、台湾和内地等50多家大学、研究所和公司。Microsoft、IBM、Xerox、Intel、Fujitsu、NTT、松下、佳能、东芝、德国Saillabs、韩国Enpia、青鸟、联想、北佳等大公司或者从北京大学计算语言研究所购买了科研成果许可使用权,或者同北大共享合作研究成果。计算语言学研究所一直是在只得到很少投入的条件下取得这些成果的,现在北大在经济上也已经得到数以百万计的收益,远远超出国家的投入(包括攻关项目、基金项目的经费等)。另外,更多的国内外用户从北大计算语言学研究所的主页上免费下载了很多实用的资源。像200多万字的《人民日报》标注语料库的累计下载人次已达560。由于这些成果的广泛影响,像现代汉语词语分类体系和语料库标注集等工作规范又成为有关部门制订国家标准的重要参考。 北大开发综合型语言知识库的基础已经具备,条件已经成熟,而且目前正是恰当时机,机不可失。 更重要的,北大计算语言学研究所还具有显著的人才优势。15名研究人员中,11人是年轻的博士。他们与计算语言所早期创业的几名骨干一起团结奋斗,大家都具有全身心投入的敬业精神。全所的人都认识到综合型语言知识库建设的重要性,可以拧成一股绳。 3. 内容和目标 开发综合型语言知识库的支撑软件,充分展现其价值和作用。 集成已有成果,形成一个整体。各个知识库可以相互参照。不断消除瑕疵,提高质量,向完美境界逼近。 提供丰富的算法和合适的软件工具,支持数据挖掘和知识发现。促使现有知识库从初级产品形式向深加工产品形式不断发展。 提供多种形式的知识传播和信息服务机制,让综合型语言知识库在语言信息处理研究和传统语言学研究中发挥举足轻重的作用。 不断扩充综合型语言知识库,使其可持续发展、动态更新。 为了向自然语言理解研究前进一步,需要在句法和词汇语义研究已经取得一定优势的基础上,开展句法语义的研究。准备研制的“广义虚词知识库”是句法语义研究的基础,也是综合型语言知识库大家族中的新成员。 建设短语信息库,提高机器翻译的效率和质量。 探索术语定义自动提取和科技术语计算机辅助定义。 探索树库等反映全句结构和语义信息的知识表达形式。 探索篇章信息表达方式和

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档