基于《知网》的中文信息结构抽取1HowNet-BasedExtractionof.pdfVIP

下载本文档

17
0
约9.72千字
约 7页
2017-09-16 发布于重庆
举报
版权申诉

基于《知网》的中文信息结构抽取1HowNet-BasedExtractionof.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于《知网》的中文信息结构抽取1 董强郝长伶董振东中国科学院计算机语言信息工程研究中心北京 100083 E-mail: support@ HowNet-Based Extraction of Chinese Message Structures Qiang Dong Changling Hao Zhendong Dong Research Center of Computer Language Information Engineering, CAS, Beij ing, 100083 E-mail: support@ Abstract: The Chinese message structure is composed of several Chinese fragments which may be characters words or phrases. Every message structure carries certain information. We have developed a HowNet-based extractor that can extract Chinese message structures from a real text and serves as an interactive tool for building large-scale bank of Chinese message structures. The system utilizes the HowNet Knowledge System as its basic resources. It is an integrated system of rule-based analyzer, statistics based on the examples and the analogy given by HowNet-based concept similarity calculator. Keyword: Chinese message structure; Knowledge Database Mark-up Language (KDML); parsing; chunk; 1 引言近年来，语块分析（chunk parsing ）或被称为浅层句法分析（shallow parsing ）或部分句法分析（partial parsing ）等语言处理方法成为语言技术研究的一个热点。其中印欧语言在这方面的研究已经取得了一定的成果，但是对于中文的语块分析则相对落后。其中主要的原因在于：相对于印欧语言，中文没有那么丰富的形态变化，中文的词类句法功能不是一一对应的，中文的词、短语、句子之间的界限是模糊的。除此而外，甚至可能是更重要的原因在于：中文的结构更加依赖于语义的制约。本文提出中文信息结构这样的概念，并据此构建了基于知网的中文信息结构抽取器。该抽取器从中文的语义出发，以知网知识系统作为其基础资源。中文信息结构抽取器的功能主要包括两个方面：（1）构建、管理和维护《知网-中文信息结构库》的数据；（2）是分析并抽取真实文本中的中文信息结构。其技术关键是：第一，它对于中文的词、词组、短语进行一体化的处理；第二，它主要是基于语义的。第三，它是基于规则匹配和基于大规模实例库及相似度比较的结合。中文信息结构抽取器利用已有的中文信息结构的模式与实例编写规则，利用这些规则到真实的文本中抽取所需的中文信息结构来构建更大规模的中文信息结构库。 2 中文信息结构信息结构（message structure ）是由两个或两个以上的字、词或短语构成，句法和语义合理，并传达了特定信息的结构。该结构内不含有介词、助词、连词、标点。该结构内部允许呈递归形态。信息结构是信息理解（message understanding ）的基础。信息结构是依赖于特定语言的，不同的语言可以表达相同的信息，但有着不同的信息结构。试以通缉犯这样一个词语为例。其中有两个基本单元 “通缉”和 “犯”，“通缉”为动词，“犯”为名词，因此从句法结构看是 V ＋N 的定中结构；从语 1基金项