- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1-16每题6分,第17题3分,共计100分。习题 6-10 考虑图6-9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf情况,采用图6-8中的idf值来计算所有词项car、auto、insurance及best的tf-idf值。Doc1Doc2Doc3car27424auto3330insurance03329best14017图6-9 习题 6-10中所使用的tf值car在三篇文档中的tf-idf值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39.6auto在三篇文档中的tf-idf值分别为:Doc1:3*2.08=6.24;33*2.08=68.64;0*2.08=0insurance在三篇文档中的tf-idf值分别为:Doc1:0*1.62=0;33*1.62=53.46;29*1.62=46.98best在三篇文档中的tf-idf值分别为:Doc1:14*1.5=21;0*1.5=0;17*1.5=25.5习题 6-15 回到习题6-10中的tf-idf权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。Doc1=(44.55,6.24,0,21),Len(Doc1)=49.6451对其长度归一化得到Doc1=(0.897,0.126,0,0.423)Doc2=(6.6,68.64,53.46,0),Len(Doc2)=87.2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39.6,0,46.98,25.5),Len(Doc3)=66.5247对其长度归一化得到Doc3=(0.595,0,0.706,0.383)习题 6-19 计算查询digital cameras及文档digital cameras and video cameras的向量空间相似度并将结果填入表6-1的空列中。假定N对查询及文档中的词项权重(wf对应的列)采用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。将 and看成是停用词。请在tf列中给出词项的出现频率,并计算出最后的相似度结果。表6-1 习题6-19中的余弦相似度计算词查 询文 档tfwfdfidfqi=wf-idftfwfdi=归一化的wfdigital1110521.56video00100520cameras1150 0002.3012.30121.3010.6771.558相似度结果=1.56+1.558=3.118习题 7-1 图7-2中倒排记录表均按照静态得分g(d)的降序排列,为什么不采用升序排列?一篇文档d的最后得分定义为g(d)和某个与查询相关的得分的某种组合,一些文档具有高的g(d)值更有可能具有较大的最后得分,降序排列有助于提高top-k检索的效率。在这种排序下,高分文档更可能在倒排记录表遍历的前期出现。在实际受限的应用当中(比如,任意有哪些信誉好的足球投注网站需要在50ms内返回结果),上述方式可以提前结束倒排记录表的遍历。习题 7-8 平面上的最近邻问题如下:在平面上给出N个数据点并将它们预处理成某种数据结构,给定查询点Q,在N个点中寻找与Q具有最短欧氏距离的点。很显然,如果我们希望能够避免计算Q和所有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明:如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离Q最近的数据点)。如图所示,黄色圈代表查询,离查询最近的两个先导者为l1,l2,但是离查询最近的文档是红色圈代表的,不属于l1,l2,属于离查询较远的先导者l3,因此离查询最近的文档不会被返回。习题 8-5 [**] 正确率和召回率之间是否一定存在等值点?说明为什么一定存在或给出反例。如果返回的相关文档数(RR)=0,正确率=召回率=0。如果返回的不相关的文档(RN)=未返回的相关文档(NR),正确率也等于召回率。如果一篇文档都不返回,正确率=1,召回率=0;如果返回全部的文档,正确率=相关文档数/总文档数,召回率=1。假设返回的文档中排名靠前的都是相关文档,那么随着返回文档数的增加,RN由0变为N-相关文档数,且中间每一个值都能取到,NR由总共相关文档数变为0,同样能取到中间的每一个值。RN从小变大,NR从大变小看,中间有一个相等的情况,这时候召回率=正确率。习题 8-8 [*] 考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的结果排名靠前),相关性判定的情况如下所示:系统1 R N R N
有哪些信誉好的足球投注网站
文档评论(0)