- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干SolrCloud分布式相似性检测系统
基于SolrCloud的分布式相似性检测系统 摘 要:文档相似性检测中,很多文本的资源是碎片化存储,实现全局的文本查重,在没有统一管理的情况下,不可能短时间将数据集中,数据仍旧是分散存储,为实现全局的检查,采用基于SolrCloud的分布式查重。论文在b位Minwise Hash的基础上,提出了弹性细粒度相似性检测方法;通过分析多粒度特征提取的特点,设置项目模板进行正则表达式匹配,提升了相似性检索的效率,最后通过系统实现验证该系统的有效性 关键词:SolrCloud;相似性检测;哈希;分布式 0 引言 随着信息时代的发展,数字文档(如基金项目申报文档,论文文档,网页等)呈几何级数增长的同时,由于其本身的易复制性,导致项目重复申请,论文抄袭,网页重复等不良现象频频出现;大量相似文档的存在和数据孤岛数量不断的增加,也降低了信息检索的效率和精度。在这种情况下,研究高性能的分布式相似性检测系统显得尤为重要 Minwise Hash[1]算法作为目前主流的海量集合相似度估计算法,经过不断改进[2],在信息检索中得到广泛应用[3]。Li等人[4]提出的b位Minwise Hash在Minwise Hash算法的基础之上通过降低存储空间和计算时间进一步提高了算法的效率。同时,b位Minwise Hash也是对集合估计算法的一种理论创新,在三者相似性检测[5]、大型线性支持向量机[6]以及基于最大似然估计的估计算法[7]等领域有了新的应用发展[8]。论文在b位Minwise Hash的基础上,提出了一种细粒度文档相似性快速检测方法,并将其应用到分布式相似性检测系统中,介绍它的系统框架、系统关键技术难点和解决方案以及软件实际使用效果 1 系统的架构 1.1 基于SolrCloud的分布式系统 (1)SolrCloud是基于Solr和ZooKeeper的分布式有哪些信誉好的足球投注网站方案。该方案具有集中配置、自动容错、近实时有哪些信誉好的足球投注网站、负载均衡等特点。系统为满足全局相似性检查,基于SolrCloud提出一种分布式文档相似检测方案,较好解决跨数据源相似性检测问题。这种分布式查重方式核心算法应用了b位Minwise Hash,兼顾检测的精度和效率,结合弹性细粒度,对各类数据进行加工处理,准确匹配各章节,将文档最小原子锁定到句子级,形成海量句子指纹库;每个数据站点间的传输通道和统一的传输接口规范 把所有的索引集合视为一个总索引库,将总索引库分为三个索引片,分别存放在三个站点,即为主索引库,并且,考虑到平台的健壮性,为每个索引片增设了一个备份,即为从索引库。各个索引库之间的联系通过ZooKeeper提供的服务协调 (2)联盟式检测的模式。如图2所示,站点1是查重系统站点,主要进行预处理数据,计算相似度。站点2和站点3主要是作为跨部门的数据采集点,在站点1需要的时候传输历史数据至站点1,站点将获得自身数据库以外的待对比历史库,以期获得更准确的查重结果 (3)数据的检测流程。如图3所示,包含以下两个流程 1)本地检测:将待查库的文本发给本地引擎,对文本中每个段落进行计算相似性,检索出相似的段落 2)远程检测:系统中站点表保存了所有站点的IP地址及端口。索引库表保存了能够访问到的远程所有索引库的信息 在两种检测的基础上实现跨站点检测步骤:以与远程站点1的历史库1比对为例 第一步:用户选择远程站点,系统访问站点表,获取远程站点1的IP。然后向远程站点1发送请求获取站点1可供查的索引库列表 第二步:用户选择历史库1,系统在任务表中新建检测任务 第三步:本地检测引擎扫描数据库,获取检测任务信息,检测完后,没有找到的句子,再将句子的指纹加密发送到远程站点1,远程站点1的引擎接收后检测 第四步:远程站点1查完将检测结果发回本地站点,本地结合远程站点1的相似性证据一起写回待查表 1.2 系统的网络拓扑结构 由于相似性检测系统通常都是单位内部人员使用,因此系统一般部署在内部局域网环境中。当然,对于大众用户的相似性检测需求,系统也可以对Internet开放 本文构建系统部署的网络拓扑结构如图4所示 2 系统的关键技术 2.1 确定检测粒度 细粒度文档相似性检测,通常是将文档切割为多个自定义长度的文本块集合,通过相关检索,计算并获取每个文本块与文本集合中的文本的相似程度。如果文本块的长度选择过大,则计算准确度不高,容易遗漏多方抄袭部分内容的情况。同时,如果文本块长度选择太小,也会造成时间和空间的开销过大 在文档切割的过程中,通常会首先按照自然段对文档进行初步的划分,这是由于自然段可以表达作者相对完整的思想,同时也提供了对文档结构的换行。而另一方面,大部分抄袭者也都是选择以段落为单位进行抄袭的
您可能关注的文档
最近下载
- 中医外科学期末复习.pdf VIP
- 生产车间划线标识执行规范.pdf VIP
- EDA软件:Cadence Allegro二次开发_ CadenceAllegro数据库操作.docx VIP
- 物性表_威格斯 PEEK VICTREX® PEEK 450G.pdf VIP
- 让我们一起去追“星”!——两弹一星之核弹老人魏世杰 课件--2023-2024学年高二下学期爱国主义教育主题班会 (1).pptx VIP
- (2025秋新版)部编版二年级语文上册全册教学设计.pdf
- 《领导力》培训课件ppt.pptx VIP
- 运输车队长绩效考核表.xlsx VIP
- 驾校一点通摩托车科目一题库400题讲解 .pdf
- 印尼二手车市场研究及业务建议.pdf VIP
文档评论(0)