基于《知网》的中文信息结构抽取1HowNet-BasedExtractionof.pdfVIP

基于《知网》的中文信息结构抽取1HowNet-BasedExtractionof.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于《知网》的中文信息结构抽取1 董强 郝长伶 董振东 中国科学院计算机语言信息工程研究中心 北京 100083 E-mail: support@ HowNet-Based Extraction of Chinese Message Structures Qiang Dong Changling Hao Zhendong Dong Research Center of Computer Language Information Engineering, CAS, Beij ing, 100083 E-mail: support@ Abstract: The Chinese message structure is composed of several Chinese fragments which may be characters words or phrases. Every message structure carries certain information. We have developed a HowNet-based extractor that can extract Chinese message structures from a real text and serves as an interactive tool for building large-scale bank of Chinese message structures. The system utilizes the HowNet Knowledge System as its basic resources. It is an integrated system of rule-based analyzer, statistics based on the examples and the analogy given by HowNet-based concept similarity calculator. Keyword: Chinese message structure; Knowledge Database Mark-up Language (KDML); parsing; chunk; 1 引言 近年来,语块分析(chunk parsing )或被称为浅层句法分析(shallow parsing )或部分句法分析(partial parsing )等语言处理方法成为语言技术研究的一个热点。其中印欧语言在这方面的研究已经取得了 一定的成果,但是对于中文的语块分析则相对落后。其中主要的原因在于:相对于印欧语言,中文 没有那么丰富的形态变化,中文的词类 句法功能不是一一对应的,中文的词、短语、句子之间的 界限是模糊的。除此而外,甚至可能是更重要的原因在于:中文的结构更加依赖于语义的制约。 本文提出中文信息结构这样的概念,并据此构建了基于知网的中文信息结构抽取器。该抽取器从中 文的语义出发,以知网知识系统作为其基础资源。中文信息结构抽取器的功能主要包括两个方面: (1)构建、管理和维护《知网-中文信息结构库》的数据;(2)是分析并抽取真实文本中的中文信 息结构。其技术关键是:第一,它对于中文的词、词组、短语进行一体化的处理;第二,它主要是 基于语义的。第三,它是基于规则匹配和基于大规模实例库及相似度比较的结合。中文信息结构抽 取器利用已有的中文信息结构的模式与实例编写规则, 利用这些规则到真实的文本中抽取所需的 中文信息结构来构建更大规模的中文信息结构库。 2 中文信息结构 信息结构 (message structure )是由两个或两个以上的字、词或短语构成,句法和语义合理,并传达 了特定信息的结构。该结构内不含有介词、助词、连词、标点。该结构内部允许呈递归形态。信息 结构是信息理解 (message understanding )的基础。信息结构是依赖于特定语言的,不同的语言可以 表达相同的信息,但有着不同的信息结构。试以通缉犯这样一个词语为例。其中有两个基本单元 “通缉”和 “犯”,“通缉”为动词,“犯”为名词,因此从句法结构看是 V +N 的定中结构;从语 1基金项

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档