结合SSD的向量检索优化研究.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

数字经济时代,大数据、云计算、移动互联网等新一代的技术催生出了海

量的图像、视频、文本等非结构化数据。为了检索这些非结构化数据,通常使

用深度学习技术将其转换为结构化向量,再进行向量检索。现在,基于近邻图

的方法因其优秀的检索能力,成为了向量检索的主流算法。

然而,目前传统的基于近邻图的方法过于依赖内存,在大规模数据下存在

着高昂的内存成本。为了解决这一问题,当前的主流方法,如DiskANN,将高

内存占用的近邻图索引存储在固态硬盘(SSD)上,这显著降低了检索时的内存消

耗。然而,DiskANN算法未考虑实际应用中常见的高并发批查询检索场景,导

致存在大量冗余的SSD访问请求,这增加了检索时延。本文旨在优化DiskANN

的检索算法,以减少批查询场景下与SSD交互的IO时间。具体研究内容如下:

(1)基于路由阶段性特点的批查询重排算法。近邻图路由过程可以划分

为两阶段,第一阶段远端路由逼近以及第二阶段近似暴力有哪些信誉好的足球投注网站,且在有哪些信誉好的足球投注网站的第

二阶段,查询范围基本位于图中的强连通分量(SCC)中。针对这一特性,本文采

用了两个策略减少IO次数:1.提出了基于SCC相似性的批查询聚类算法,从而

提高了第二阶段访问SSD数据的复用性,减少了IO次数;2.本文通过缓存策略,

优化查询的入口点,进一步减少第一阶段路由过程中不确定随机IO读取的次数。

(2)针对“长尾效应”的多队列动态调度策略。在批查询场景下,现有

算法存在由“长尾效应”导致的平均IO时间增加的问题。具体地,为了实现足

够高的有哪些信誉好的足球投注网站精度,近邻图批查询中少数查询需要占用很长的IO处理时间。在目

前单队列的读取策略下,此类查询会增加后续查询的等待时间,从而影响了平

均IO时间。针对以上问题,本文提出了多队列动态调度策略,其依赖于两个关

键修改:1.通过使用多队列而非单队列,降低了长尾IO对整体IO时间的影响;

2.本文根据队列长度最短原则对查询进行调度分配,降低了平均IO时间。

(3)基于区域特征的有哪些信誉好的足球投注网站提前终止机制。现有方法中查询终止策略固定,

不能根据查询分布自适应终止,易受“长尾效应”影响而导致冗余计算。针对

这个问题,本文提出了基于区域特征的有哪些信誉好的足球投注网站提前终止策略,通过查询过程中的

区域特征以预测剩余有哪些信誉好的足球投注网站步骤数量,从而实现动态有哪些信誉好的足球投注网站终止并减少冗余开销。

基于上述成果,本文设计实现了一个图片向量检索系统,并完成了亿级规

模图片的检索应用,验证了本文算法在大规模数据场景下的检索效率和有效性。

关键词:向量检索,固态硬盘,查询重排,多队列,提前终止

ABSTRACT

Intheeraofdigitaleconomy,new-generationtechnologiessuchasbigdata,cloud

computing,andmobileInternethavespawnedmassiveamountsofunstructureddata

suchasimages,videos,andtexts.Inordertoretrievetheseunstructureddata,deep

learningtechniquesareusuallyusedtoconvertthemintostructuredvectors,andthen

performvectorretrieval.Now,themethodbasedonthenearestneighborgraphhas

becomethemainstreamalgorithmofvectorretrievalbecauseofitsexcellentretrieval

ability.

However,thecurrenttraditionalneighborgraph-basedmethodsrelytoomuchon

memory,andthereisahighmemorycostinlarge-scaledata.Tosolvethisproblem,

currentmainstreammethods,suchasDiskANN,storethememory-int

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档