基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDFVIP

基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDF

第35 卷 第3 期 计 算 机 工 程 2009 年2 月 Vol.35 No.3 Computer Engineering February 2009 ·软件技术与数据库· 文章编号:1000—3428(2009)03—0089—02 文献标识码:A 中图分类号:TP393 基于子树广度的Web 信息抽取 王 权,施韶亭 (甘肃省科学技术情报研究所,兰州 730000) 摘 要:提出一种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献 网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息, 并能保证较高的数据抽取回召率和查准率。 关键词:子树广度;信息抽取;跨库检索 Web Information Extraction Based on Sub-tree Breadth WANG Quan, SHI Shao-ting (Institute of Science Technology Information of Gansu, Lanzhou 730000) 【Abstract 】This paper proposes a new method which can extract the useful information from the different document sites automatically based on the breadth of a sub-tree. Experimental evaluation on a large of Web pages from different document Web sites has done and this method has been applied to the platform of gansu science technology document sharing successfully. Experimental result shows this method automatically extracts the information ignoring where Web sites the pages come from and has high accuracy in terms of recall and precision . 【Key words 】sub-tree breadth; information extraction; cross-search 对不同数据源的检索信息进行提取是跨库检索系统的一 种关键技术。文献[1]基于XML 提出一系列交互机制和启发 式算法生成信息抽取规则;文献[2]定义断言说明文件,文件 中包含抽取数据的命令和步骤;文献[3]基于属性文法生成具 有容错机制的解析器对源文件进行解析抽取;文献[4]基于逻 辑的声明语言Elog 进行HTML 到XML 的翻译和解析。在遇 到异构性多数据源时,上述抽取方法均是针对某个信息源单 独进行提取,没有建立一个较高级别的统一抽象。本文提出 一种新的基于子树广度的网页信息抽取方法,能不区分科技 图2 VIP 网页组织形式 文献网页来源而自动正确地抽取相关重要内容,当网页更新 本文提出的方法不用生成抽取模板,而是通过查看科技 时也能自动正确地抽取信息。 文献网站每页显示的题录数并将此数存储在数据库,再使用 1 基于子树广度的信息抽取 HTML Tidy[5]将这些网页的HTML 格式清理转换成 XML 文 同一个科技文献网站采取相同的模板生成,

您可能关注的文档

文档评论(0)

zcbsj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档