北大 internet高级程序设计 lecture9.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北大 internet高级程序设计 lecture9

Lecture-9 爬虫的设计与实现爬虫的设计与实现 爬虫的设计与实现爬虫的设计与实现 lisuke@ 参考参考 参考参考 本讲义参考了本讲义参考了 本讲义参考了本讲义参考了 – Stanford大学讲义 – 其他大学老师的讲义 – 表示感谢 ! Page 2 Web 网页收集 Q: 有哪些信誉好的足球投注网站引擎如何 知道包括查询关 键字的网页的呢 ? A: 因为所有这些 网页都已经被下 载 了. Page 4 starting pages (seeds) 爬虫爬虫 爬虫爬虫 (Crawler): 的基本思想的基本思想 的基本思想的基本思想 Page 5 有许多名字有许多名字 有许多名字有许多名字 Crawler Spider Robot (or bot) Web agent Wanderer, worm, … And famous instances: googlebot, scooter, slurp, msnbot, … Page 6 Google的爬虫的爬虫Googlebot 的爬虫的爬虫 Page 7 爬虫的分类爬虫的分类 爬虫的分类爬虫的分类 Crawlers Universal crawlers Preferential crawlers Focused crawlers Topical crawlers Adaptive topical crawlers Static crawlers Evolutionary crawlers Reinforcement learning crawlersBest-first PageRank etc... etc... 许多关键的技术使用许多关键的技术使用::: 许多关键的技术使用许多关键的技术使用:: – 增量、交互、并发 (并行)等. Page 8 Focused crawler A focused crawler or topical crawler is a web crawler that attempts to download only web pages that are relevant to a pre-defined topic or set of topics. Topical crawling generally assumes that only the topic is given, while fo

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档