- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于《知网》的中文信息结构抽取1
董强 郝长伶 董振东
中国科学院计算机语言信息工程研究中心 北京 100083
E-mail: support@
HowNet-Based Extraction of Chinese Message Structures
Qiang Dong Changling Hao Zhendong Dong
Research Center of Computer Language Information Engineering, CAS, Beij ing, 100083
E-mail: support@
Abstract: The Chinese message structure is composed of several Chinese fragments which may be
characters words or phrases. Every message structure carries certain information. We have developed a
HowNet-based extractor that can extract Chinese message structures from a real text and serves as an
interactive tool for building large-scale bank of Chinese message structures. The system utilizes the
HowNet Knowledge System as its basic resources. It is an integrated system of rule-based analyzer,
statistics based on the examples and the analogy given by HowNet-based concept similarity calculator.
Keyword: Chinese message structure; Knowledge Database Mark-up Language (KDML); parsing;
chunk;
1 引言
近年来,语块分析(chunk parsing )或被称为浅层句法分析(shallow parsing )或部分句法分析(partial
parsing )等语言处理方法成为语言技术研究的一个热点。其中印欧语言在这方面的研究已经取得了
一定的成果,但是对于中文的语块分析则相对落后。其中主要的原因在于:相对于印欧语言,中文
没有那么丰富的形态变化,中文的词类 句法功能不是一一对应的,中文的词、短语、句子之间的
界限是模糊的。除此而外,甚至可能是更重要的原因在于:中文的结构更加依赖于语义的制约。
本文提出中文信息结构这样的概念,并据此构建了基于知网的中文信息结构抽取器。该抽取器从中
文的语义出发,以知网知识系统作为其基础资源。中文信息结构抽取器的功能主要包括两个方面:
(1)构建、管理和维护《知网-中文信息结构库》的数据;(2)是分析并抽取真实文本中的中文信
息结构。其技术关键是:第一,它对于中文的词、词组、短语进行一体化的处理;第二,它主要是
基于语义的。第三,它是基于规则匹配和基于大规模实例库及相似度比较的结合。中文信息结构抽
取器利用已有的中文信息结构的模式与实例编写规则, 利用这些规则到真实的文本中抽取所需的
中文信息结构来构建更大规模的中文信息结构库。
2 中文信息结构
信息结构 (message structure )是由两个或两个以上的字、词或短语构成,句法和语义合理,并传达
了特定信息的结构。该结构内不含有介词、助词、连词、标点。该结构内部允许呈递归形态。信息
结构是信息理解 (message understanding )的基础。信息结构是依赖于特定语言的,不同的语言可以
表达相同的信息,但有着不同的信息结构。试以通缉犯这样一个词语为例。其中有两个基本单元
“通缉”和 “犯”,“通缉”为动词,“犯”为名词,因此从句法结构看是 V +N 的定中结构;从语
1基金项
您可能关注的文档
最近下载
- NB-T47008-2010承压设备用碳素钢和合金钢锻件.pdf VIP
- (行业标准)NBT 47039-2013 可变弹簧吊架 .pdf VIP
- 人教版初中化学九年级上册 5.1质量守恒定律 大单元整体教学设计.doc
- 设立招标代理服务公司市场研究报告.pptx VIP
- 综合教研组工作计划模板.docx VIP
- 教研组工作计划4篇.docx VIP
- 《铁路轨道维护》课件——线路标志标识刷新作业.pptx VIP
- EBZ160悬臂式掘进机使用说明书.pdf VIP
- 新解读《GB_T 9139-2018土方机械 液压挖掘机 技术条件》.docx VIP
- 急性胰腺炎护理查房【26页】.pptx VIP
文档评论(0)