用Capture_Recapture方法估计Web数据库大小.pdf

下载文档

14
0
约 4页
2018-03-25 发布于江苏
举报
版权申诉
保障服务

用Capture_Recapture方法估计Web数据库大小.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　收稿日期: 20082 072 07; 修回日期:20　　基金项目: 国家自然科学基金资助项目 ; 2005年度国家教育部科研重点项目 (205059) ; 2006年江苏省“ 六大人才高峰” 项目 (062 E2 037) ; 2006年度江苏省软件和集成电路业专项经费资助项目 ( [ 2006 ]221241) 　　作者简介:苗忠义 (19772) ,男,内蒙古乌兰察布人,硕士研究生,主要研究方向为 Deep Web、 Web数据挖掘、 Web数据抽取 ( hjmzy@qq . com) ; 胡鹏昱 (19832) ,女,安徽池州人,硕士研究生,主要研究方向为 Deep Web、 Web数据挖掘、 Web数据抽取;崔志明 (19612) ,男,上海人,教授,博导, 主要研究方向为智能化信息处理、计算机网络应用与数据库应用. 用 Cap ture2 Recap ture方法估计 Web数据库大小3 苗忠义 , 胡鹏昱 , 崔志明 (苏州大学智能信息处理研究所, 江苏苏州 215006) 摘　要: 为了估计网络数据库的大小,提出了基于 Cap ture2 Recap ture过滤二字亲密、二字排斥的方法。通过在接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立性,过滤掉其中不独立的情况,再利用 Cap ture2 Recap ture方法估计网络数据库的大小。在模拟和真实的环境下进行了实验,该方法偏差度和波动度均较小。关键词: 大小估计; 深网; 网络数据库中图分类号: TP311 　　　文献标志码: A　　　文章编号: 100123695 (2009) 0521754203 Using Cap ture2 Recap ture app roach estimate size ofWeb databases M I AO Zhong2 yi, HU Peng2 yu, CU I Zhi2 ming ( Institute of Intelligent Infor m ation Processing Application, Suzhou Univer sity, Suzhou J iangsu 215006, China) Abstract: I n order t o esti mate the size ofWeb database, this paper p r oposed the Cap ture2 Recap ture based esti mati onmethods that filtered out t wo words inti mate and rejecti on cases . Submitting attributed high2 frequencywords in the text box of query in2 terface, using the returned result, in the intersecti on of t wo results analyzing the independence of t wo samp ling, filtering the dependent coup les, and then using Cap ture2 Recap ture method esti mated the size ofWeb database . In the si mulated and real environment for the experi ment, the bias and the volatility of the method are s maller . Key words: size esti mati on; Deep Web; Web database 　　网络上出现了越来越多可以在线访问的数据库 ,人们通过网页上特定的查询接口和后台的数据库进行动态交互 ,这种数据库称做 Web database (WDB) ,这样的站点称做 Deep Web站点。文献 [ 1 ]在 2000年 6月对全球 WDB的规模进行了宏观估计 ,称约有 43 000～96 000个 Deep Web站点 ,Deep Web数据量约为静态页面的 500倍; 2004年 4月文献 [ 2 ]对其进行重新估计 ,称有 307 000个 Deep Web站点 ,四年间增长了 3～7 倍。文献 [ 3 ]对中国 Deep Web的规模、分布和结构进行了研究 ,称约有 24 000个 DeepWeb站点 , 28 000个 Web数据库 ,如