- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文自由短文本信息抽取方法研究
中文自由短文本信息抽取方法研究 摘要:现实生活中,中文自由短文本大量出现,而短文本处理技术在话题跟踪与发现、流行语分析、舆情预警等领域都得到广泛的发展和利用。虽然信息抽取技术在一些领域已经得到了很好的研究应用,但针对中文自由短文本数据的抽取技术的研究则比较少。该文主要总结了当前中文短文本信息抽取方法的研究情况及存在的问题。提出了一种基于HNC的中文自由短文本信息抽取中的过滤、分类、聚类、模板生成等算法的开发及对其进行研究。 关键词:短文本;信息抽取 中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)15-3691-02 近年来,大量短文本,如电子邮件,网络聊天,网络博客等已经成为信息交流和情感沟通手段,深刻改变了我们的生活习惯和沟通方式。中文的自由短文在比如网络舆情与公安预警等很多领域都有广阔发展前景,虽然英文信息提取技术得到很好研究应用,中文的信息抽取研究较晚,但也取得了一些效果。孙斌在他的博士论文[1]中提出了一种对事件抽取的研究,并且提出了一种InfoX的原型系统。对人民日报语料库中调职、辞职和任命三个事件,召回分别为50%,44%,42%,精度为75%,47%,54%,取得了一些成绩。 但相对长度短,结构各异的中文短文本的提取技术研究则相对更少。 1中文信息抽取方法的研究 目前对中文信息抽取方法的研究主要有以下四种。 1.1基于频繁的词集的方法 该方法的基本思想是,利用关键字出现在多少确定,虽然关键字在一个短文中出现的次数少,但是在总的预料中依然会出现很多次。Sebastiani利用该方法对数字图书馆中关于摘要部分进行了适当的比较[2],最后指出这个方法比较适合中文短文本的分类,但对于噪声大的短文准确度依然不高。 1.2模板匹配法 指在一些特定的模式指导下对于某类事件的识别和抽取,而这个特定的模式是可以通过人工或自动方法来取得的。采用这个方法来进行事件抽取的IE系统一般由两个模块组成分别是信息抽取模块和模式获取模块。 1.3基于语义的方法 song等人提出了一种基于空间概念[3]和流动的信息分类的方法。该方法利用??念之间的关系来确定的语义关系,并使用此语义关系来指导分类,以达到短文本分类结果,这个方法能够得到比一般的向量空间模型好的效果。zelikovitz等提出了一个使用潜在语义索引来对短文本分类方法[4]。该方法定义了潜在的语义索引词之间的语义联系,从而提高了文章分类的准确性。 1.4基于本体的信息抽取 在CNKI中就是使用这种信息抽取的方法,主要原理是,利用本体这个概念抽取出关键字,然后在计算本体概念中这些字词之间的相似度[5]。本体论描述某个领域中所有事物和事物之间的关系,但只有这些认识能得到一个很好的信息抽取吗?答案是否定的。即使我们已经知道了客观世界中某些事物有一定属性,该事物也有一定的属性(例如,狗有四条腿,是一种哺乳动物),我们仍然不知道这一段文字中提取文字说明是本体(狗),以及哪些文字或段落描述这个事物(狗)的属性,更不能由此推理知道短文介绍的是一种哺乳动物。 由此可知信息提取的现有技术不能满足要求。无论从可扩展性和准确性方面,中文短文本信息提取还有待进一步研究。尤其是存在如精度不高,可扩展性不强,高纬度的数据问题等。如何高效、准确提取信息成为短文本信息抽取技术的发展难点,由此文中提出了一种基于中文的HNC的短文本信息提取,过滤,分类,聚类,模板生成算法的开发和研究。 单个短文本由于信息有限,其有价值信息和相关属性有效特征都很难挖掘,因此,我们所说的中文自由短文本信息抽取一般都是针对整个短文本语料,从大量的短文语料库中进行信息抽取,通过词与词之间的相关性,挖掘有价值的信息。这样就是因为短文挖掘不是对某个短文而是对语料库而言,所以我们使用的抽取技术与传统信息处理技术是不同的,相应的关键技术也有较大差异。 2短文本信息抽取流程 图1显示了本文研究的短文本信息抽取流程。 首先,我们进行信息的收集,这些信息来源很多比如先确定大量BBS、QQ聊天信息、论坛等诸如此类有大量短文本网站,然后根据当前热点确定监控内容从而再确定需要跟踪的热点。采用信息自动收集和人工干预模式相结合的网络信息采集,对网络采集到的信息要进行初步处理,即过滤掉某些与热点无关的文本和语句;按主题自动分类、聚类、浅层语义分析等。 其次,利用HNC知识和语义词典,对经过预处理的信息进行深层语义分析(句类分析),包括:主语义块的识别、命名实体识别、语义消歧、指代解析等。最后经过概念建模、语义模板生成、模板匹配得到最终的短文本的结构化信息。 根据图1,提出了如下5点主要技术。 (1)短文
文档评论(0)