第四章 Web信息检索基础.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 Web信息检索基础

有哪些信誉好的足球投注网站工作流 有哪些信誉好的足球投注网站工作流 用户交互(User Interaction) 帮助用户输入有效的有哪些信誉好的足球投注网站语句 结果显示(连接、结果片段) 排序(Ranking) 访问索引 使用各种统计信息对结果进行排序 效果评价(Evaluation) 记录用户的访问历史 分析用户行为、实时评估有哪些信誉好的足球投注网站质量 Google in 1997 * Google in 2001 * A Google Cluster in Late 2000’s * Google Data Center – Now * Google Data Center – Now * Google’s Data Volume 45 Billion Web pages in 2013. 100kb/page ? 4.5 petabytes in total 330 million searches per day in 2010 ? 4000 queries per second. Response time 0.5 second. Processing 24 petabytes of data per day in 2009. * Google’s Machines 200+ clusters in one data center Each cluster consists of 1000s machines Every year: 1-5% of disks die A server crashes twice 20 rack failures * Linked lists generally preferred to arrays Dynamic space allocation Insertion of terms into documents easy Space overhead of pointers * Linked lists generally preferred to arrays Dynamic space allocation Insertion of terms into documents easy Space overhead of pointers * * 目录 信息检索介绍 布尔检索 索引的创建 有哪些信誉好的足球投注网站的准确性 全局排序 排序过程 有哪些信誉好的足球投注网站的评价 有哪些信誉好的足球投注网站引擎的架构 对有哪些信誉好的足球投注网站引擎的评价标准 用户满意度 百度 用户回访率 淘宝的有哪些信誉好的足球投注网站引擎 商品选择成功率 如何衡量用户的满意度 信息的覆盖面 –文档集的大小 响应速度 有哪些信誉好的足球投注网站界面的易用性 有哪些信誉好的足球投注网站的准确性 – 结果的相关性 … 如何评价有哪些信誉好的足球投注网站准确性 用户调研 找一群用户,布置一系列的有哪些信誉好的足球投注网站任务,观察他们的有哪些信誉好的足球投注网站行为和有哪些信誉好的足球投注网站效率 因素:用户群大小、任务的数量、观察点 … 用户调研是耗时耗力的工作 如何评价有哪些信誉好的足球投注网站准确性 标准测试 Benchmark 使用一个公共的文档集。 建立一系列有代表性的有哪些信誉好的足球投注网站任务集。 每个有哪些信誉好的足球投注网站任务都有标准答案(哪些文档是相关的,哪些是不相关的)。 给定一个有哪些信誉好的足球投注网站引擎,测试其在Benchmark上的准确性。 标准测试中的任务 用户需求的陈述: Im looking for information on whether drinking red wine is more effective at reducing your risk of heart attacks than white wine. 查询语句:wine red white heart attack effective 根据用户需求,标注文档集中的相关文档 常用的标准测试 Text Retrieval Conference (TREC) 1992年开始建立 1.89 million 文档 450 个有哪些信誉好的足球投注网站任务 Cranfield Collection (50年代开始建立) NTCIR (日语测试集) 如何使用测试衡量准确性 结果集中的相关文档(即能满足用户需求的文档)越多越好 Precision = 相关结果的数量 / 结果的总数 将尽量多的相关文档囊括到结果集中 Recall = 相关结果的数量 / 相关文档的数量 结果集 相关文档 Precision Recall Precision P = tp/(tp + fp) Recall R = tp/(tp + fn) Relevant Nonrelevant Retrieved tp fp Not Retrieved fn tn 例子 10个结果 100个结果 Relevant Nonrelevant Retrieved 8 2 Not Retrieved 42 … Relevant Nonrelevant Retrieved 45 55 Not Retrieved 5 … 合并

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档