XML数据源选择专利申请明书杨卫东.docVIP

下载本文档

4
0
约4.25千字
约 8页
2018-06-26 发布于福建
举报
版权申诉

XML数据源选择专利申请明书杨卫东.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XML数据源选择专利申请明书杨卫东

说明书 XSelector：一种XML数据源的选择方法杨卫东，朱冠胜技术领域本发明属于数据管理技术领域，具体为一种针对可扩充标记语言（XML）数据源进行关键字检索时的数据源选择的方法，称为XSelector。背景技术随着业务需求的不断变化，信息集成平台[1]越来越受到关注，信息集成平台的一个很重要的问题便是在关键字查询处理时如何选择好的数据源（即前K个好的数据源）。在关键字的数据源选择的研究中，信息检索及关系数据库领域均已有研究成果出现，这两个领域的数据源选择算法都不完全适用于XML数据源。信息检索领域的基于关键字的数据源选择方法利用了TF·IDF技术[2][3]，即统计词频及倒序文档频率来计算数据源的优劣，由于XML是半结构化的文本，利用信息检索领域的方法会丢失文档的结构信息，因而不适用与XML数据源的选择。在结构化的关系数据库中，由于关系数据库中结果是通过表的关联关系（如主外键关联）形成，其结果为线性结构，但XML的结果虽然可以看成一棵树，具有层次结构，因此关系数据库中的基于关键字的数据源选择算法[13][14]也不适用于XML数据源。因此，在XML数据源中做基于关键字的数据源选择显得各位迫切及重要。到目前为止，涉及到XML数据源选择只有参考文献[4]，它没有考虑在关键字有哪些信誉好的足球投注网站情况下的XML数据源选择。但是，在很多XML信息检索的应用中，关键字有哪些信誉好的足球投注网站是一向已经被证明了的受欢迎的技术。与参考文献[4]相比，本发明基于的是关键字有哪些信誉好的足球投注网站情况下的数据源选择方案。发明内容本发明的目的在于提出一种针对可扩充标记语言（XML）数据源进行关键字检索时的数据源选择的方法；保证在单遍扫描XML数据源的情况下建立数据源摘要，同时保持较低的内存耗费、有效进行返回结果的缓存管理。本发明提出的基于关键字查询的XML数据源的选择方法，可以记为XDSelection。方法的具体步骤如下：（1）检索XML数据源，提取所有关键字的评分信息。（2）根据关键字的评分信息构造数据源摘要。（3）利用数据源评价模型，为数据源和用户查询评分，并排序数据源。 1．提取关键字评分信息 XML关键字有哪些信誉好的足球投注网站的一个核心问题是XML中哪些部分是用户感兴趣的数据,即确定与用户有哪些信誉好的足球投注网站语义最密切相关的XML片段，避免向用户返回大量的无关结果。当前的很多相关研究将XML文档看作一颗树，以所有关键字的最小公共祖先(LCA)为基础，来确定XML关键字有哪些信誉好的足球投注网站的语义。通常的返回结果是以一个节点为根的子树，为了评价关键字在此结果中占的重要性，我们定义在节点n中关键字的评分信息为节点n是“包含”关键字的一个节点，其中“包含”的意思是节点n或其子孙节点中包含该关键字。其中num(Ki)函数表示节点中所包含关键字的个数。表示关键字Ki的在子节点中的影响程度。如果此节点不包含该关键字，则此数值为0。K为常数，用来标示关键字与结果节点的距离因素，为调节频率影响的参数。 2．构造数据源数据源选择的目标是要选择出更好的数据源，关键在于我们需要确定数据源是否对于一个关键字查询能给出更好的结果。结果越好，说明数据源的质量也就越好。因此在选择数据源时，我们通常是对每个数据源给出的结果进行评分，以评分大小来依次排序每个数据源的重要性。通常，数据源的评分模型可以表示为其中D表示数据源，Q表示查询，n表示一个查询结果，上式表明数据源的评分结果直接源于数据源中给出的结果的质量。在实际应用环境中，如果为每一个查询都查出每个数据源的结果，并且给数据源评分，这样的做法很不实际，而且浪费了大量的资源。一个可行的折中方法是建立数据源摘要，利用摘要特性来反应数据源的整体质量。考虑到要衡量关键字查询与数据源之间关系时，我们需要为每一个数据源建立一个能包含关键字之间关系的摘要。因此，我们要建立的数据源从很大程度上依赖于数据源所能返回的结果，接下来我们就对结果进行分析，继而建立XML数据源的摘要。我们定义对于查询Query，节点n作为返回结果时的评分为结果的评分结果依赖于每个关键字的对结果的影响程度，如果节点中不包含关键字，那么此结果的评分为0。例如，在图1中，若K=2，λ=10，关键字“Bob”与“XML”，节点0.0的评分为6.25，而节点0的评分为1.5625，当K的值变大时，这两个结果之间的差距将会变大，这样能够更好区分这两个结果。通过对结果的观察，我们所要建立的摘要中需要包括数据源中所有关键字对的关系，可以用下面的公式表示表示两个关键字i,j在xml数据源中的关系的值最终所有关键字对将形成XML数据源的摘要XDS(XML Datasource Summary) 3．数据源评价模型我们已经分析了得到所有查询结果后评价数据源优劣的方法不可取，这样不仅浪费了计