用Capture_Recapture方法估计Web数据库大小.pdf

用Capture_Recapture方法估计Web数据库大小.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用Capture_Recapture方法估计Web数据库大小.pdf

  收稿日期: 20082 072 07; 修回日期:20  基金项目: 国家自然科学基金资助项目 ; 2005年度国家教育部科研重点项目 (205059) ; 2006年江苏省“ 六大人才高峰” 项目 (062 E2 037) ; 2006年度江苏省软件和集成电路业专项经费资助项目 ( [ 2006 ]221241)   作者简介:苗忠义 (19772) ,男,内蒙古乌兰察布人,硕士研究生,主要研究方向为 Deep Web、 Web数据挖掘、 Web数据抽取 ( hjmzy@qq . com) ; 胡鹏昱 (19832) ,女,安徽池州人,硕士研究生,主要研究方向为 Deep Web、 Web数据挖掘、 Web数据抽取;崔志明 (19612) ,男,上海人,教授,博导, 主要研究方向为智能化信息处理、 计算机网络应用与数据库应用. 用 Cap ture2 Recap ture方法估计 Web数据库大小3 苗忠义 , 胡鹏昱 , 崔志明 (苏州大学 智能信息处理研究所, 江苏 苏州 215006) 摘  要: 为了估计网络数据库的大小,提出了基于 Cap ture2 Recap ture过滤二字亲密、 二字排斥的方法。通过在 接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立 性,过滤掉其中不独立的情况,再利用 Cap ture2 Recap ture方法估计网络数据库的大小。在模拟和真实的环境下 进行了实验,该方法偏差度和波动度均较小。 关键词: 大小估计; 深网; 网络数据库 中图分类号: TP311     文献标志码: A    文章编号: 100123695 (2009) 0521754203 Using Cap ture2 Recap ture app roach estimate size ofWeb databases M I AO Zhong2 yi, HU Peng2 yu, CU I Zhi2 ming ( Institute of Intelligent Infor m ation Processing Application, Suzhou Univer sity, Suzhou J iangsu 215006, China) Abstract: I n order t o esti mate the size ofWeb database, this paper p r oposed the Cap ture2 Recap ture based esti mati onmethods that filtered out t wo words inti mate and rejecti on cases . Submitting attributed high2 frequencywords in the text box of query in2 terface, using the returned result, in the intersecti on of t wo results analyzing the independence of t wo samp ling, filtering the dependent coup les, and then using Cap ture2 Recap ture method esti mated the size ofWeb database . In the si mulated and real environment for the experi ment, the bias and the volatility of the method are s maller . Key words: size esti mati on; Deep Web; Web database    网络上出现了越来越多可以在线访问的数据库 ,人们通过 网页上特定的查询接口和后台的数据库进行动态交互 ,这种数 据库称做 Web database (WDB) ,这样的站点称做 Deep Web站 点。文献 [ 1 ]在 2000年 6月对全球 WDB的规模进行了宏观 估计 ,称约有 43 000~96 000个 Deep Web站点 ,Deep Web数 据量约为静态页面的 500倍; 2004年 4月文献 [ 2 ]对其进行重 新估计 ,称有 307 000个 Deep Web站点 ,四年间增长了 3~7 倍。文献 [ 3 ]对中国 Deep Web的规模、 分布和结构进行了研 究 ,称约有 24 000个 DeepWeb站点 , 28 000个 Web数据库 ,如

文档评论(0)

sunny + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档