- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于图模型的Web数据库采样方法分析.doc
一种基于图模型的Web数据库采样方法分析 摘 要:随着我国科学技术水平的不断提高,促进了web的快速发展。Web逐渐成为一个很大的信息资源。在web的数据库中,大量丰富的信息资源存在于特定查询能力的查询接口中,不能让人了解到web数据库自身的特点,比如分布、更新频率等。给web数据集成带来了很大的挑战。因此,为了解决此问题,提出了一种基于图模型的Web数据库采样方法。本文通过对该种方法进行分析。 关键词:图模型;web;数据库采样方法;分析 中图分类号:TP311.13 一种基于图模型的Web数据库采样方法,能够通过运用查询接口的方式,在web数据库中以增量的形式得到最相似的样本,也就是通过查询得到一定数量的样本,然后对已经保存过的样本作为下一次查询的记录。该种方法不受到查询接口中的属性表现形式所局限,是一种一般的web数据库采样方法,具有在小代价下获得高质量样本的优点。 1 一种web数据库图模型 Web数据库图模型,通过运用以图游历的方式实现web数据库采样的目的,对web数据库模型的相关定义、性质以及定理等进行分析。 1.1 强查询的定义 针对两个查询Q1和Q2,如果满足A(Q1) A(Q2),且对于 ai∈A(Q2)能同时满足三个条件,就可以说Q1是Q2的强查询: (1)ai如果是属于关键词属性,那么Q1在ai上的值就是Q2在ai中数值的超集;(2)ai如果是属于范围属性,那么Q1在ai上的取值范围等同于Q2在ai中的子范围;(3)ai如果是属于分类属性,那么Q1在ai上的值相当于Q2在ai上的值。 强查询的性质,具有包含性和传递性。 1.1.1 包含性 如果Q1是Q2的强查询,那么就能满足R(Q1) R(Q2)。另外,在证明过程中, 记录Ri∈R(Q1),针对属性aj∈A(Ri) A(Q2)的值Vj,要考虑到以下几点: (1)aj如果是属于关键词属性,那么受到Vj属于Q1在ai上数值的超集,那么就得到Q1在ai上的值就是Q2在ai中数值的超集,因此,Vj和Q2在ai中的数值交集不能为空;(2)aj如果是属于范围属性,那么Vj一定在Q1在ai上的取值范围中,由于Q1在ai上的取值范围等同于Q2在ai中的子范围,因此,Vj属于Q2在ai中的取值范围;(3)aj如果是属于分类属性,那么Vj等同于Q1在ai上的取值,由于Q1在ai上的值相当于Q2在ai上的值,因此,Vj和Q1在ai上的值相等。 由此可以了解到,Ri一定满足Q2,也就是R(Q2) R(Q1). 1.1.2 传递性 如果Q1是Q2的强查询,Q2是Q3的强查询,那么由此可以得出,Q1是Q3的强查询。在证明的过程中,按照强查询的定义,得出A(Q1) A(Q2) A(Q3),针对属性aj∈S(Q1),要从以下几个方面进行考虑: (1)aj如果是属于关键词属性,那么Q1在ai上的值属于Q2在ai值的超集,由于Q2在ai中的值属于Q3在ai中值的子集,所以,Q1在ai上的值等同于Q3在ai中的超值集;(2)aj如果是属于范围属性,那么Q1在ai上取值范围属于Q2在ai中的子范围,由于Q2在ai中取值范围相当于Q3在ai中值的子集,由此可以得出,Q1在ai上取值范围等同于Q3在ai中值的子范围;(3)aj如果是属于分类属性,如果Q1在ai上的值和Q2在ai中的值相等,又由于Q2在ai中的值相当于Q3在ai中的值,那么可以得出Q1在ai上的值和Q3在ai中的值相等。 从以上三个方面可以得出结论,Q1是Q3的强查询。 1.2 弱查询的定义 根据强查询的定义,Q1是Q2的强查询,那么弱查询就是,Q2是Q1的弱查询。其性质和强查询的性质相同。 1.3 查询相关记录 查询相关记录,指的是给一个特定的记录集合,例如{R1,R2,R3,...Rn},如果将一个强查询进行提交,使其同时出现在一个查询结果中,那么就称这两个集合是与查询Q有关的;与此相反,那么就表明他们是与查询没有关系的。 1.4 web数据库图模型 web数据库图模型,简称WG。给其一个特定的WDB,其图模型表示为WG(V,E),其中,V作为顶点的集合,每个顶点Vi和WDB中的记录Ri互相对应,也就是│V│=│WDB│,其中,E属于无向边的集合。若两个记录间的查询是相关的,其相对应的顶点之间有一条互相连接的边,针对每个顶点,都要进行最强查询;针对每条边,对所互相连接的两个顶点记录进行最强查询。由于在该种图模型中,对每个顶点、每条边都进行了查询,所查询的方法在强查询的定义中已经给出。因此,针对每个顶点,在记录集合R中,顶点互相对应的记录与其相等;针对每条边,对于记录集合R中,两
文档评论(0)