- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
爬虫的工作原理和流程数据采集技术与应用
内容/content通用爬虫的工作原理01聚焦爬虫的工作原理02爬虫的工作流程03总结与思考04
爬虫的工作原理通用网络爬虫和聚焦网络爬虫是如何工作的?
通用爬虫的工作原理通用网络爬虫的采集目标是整个互联网上的所有网页,它会从一个或多个初始URL开始,获取初始URL对应的网页数据,并不断从该网页数据中抽取新的URL放到队列中,直至满足一定的条件后停止。
通用爬虫的工作原理(1)获取初始URL。既可以由用户指定,也可以由待采集的初始网页指定。(2)抓取页面,并获得新URL。根据初始URL抓取对应的网页,之后将该网页存储到原始网页数据库中,并且在抓取网页的同时对网页内容进行解析,并从中提取出新URL。(3)将新URL放入URL队列。有了新URL之后,我们需要将新URL放入URL队列中。(4)读取新URL。从URL队列中读取新URL,并根据该URL获取对应网页数据,同时从新网页中抽取新的URL。(5)是否满足停止条件。若网络爬虫满足设置的停止条件,则停止采集;若网络爬虫没有满足设置的停止条件,则继续根据新URL抓取对应的网页,并重复步骤(2)~(5)。
聚焦爬虫的工作原理聚焦网络爬虫面向有特殊需求的人群,它会根据预先设定的主题顺着某个垂直领域进行抓取,而不是漫无目的地随意抓取。与通用网络爬虫相比,聚焦网络爬虫会根据一定的网页分析算法对网页进行筛选,保留与主题有关的网页链接,舍弃与主题无关的网页链接,其目的性更强。
聚焦爬虫的工作原理(1)根据需求确定好聚焦网络爬虫的采集目标,以及进行相关的描述。(2)获取初始URL。(3)根据初始URL抓取页面,并获得新URL。(4)从新URL中过滤掉与采集目标无关的URL。(5)将过滤后的URL放到URL队列中。(6)根据一定的抓取策略,从URL队列中确定URL优先级,并确定下一步要抓取的URL。(7)从下一步要抓取的URL中读取新URL,以准备根据新URL抓取下一个网页。(8)若聚焦网络爬虫满足设置的停止条件,或没有可获取的URL时,停止采集;若网络爬虫没有满足设置的停止条件,则继续根据新URL抓取对应的网页,并重复步骤(3)~(8)。
爬虫的工作流程(1)选择一些网页,将这些网页的链接作为种子URL放入待抓取URL队列中。(2)从待抓取URL队列中依次读取URL。(3)通过DNS解析URL,把URL地址转换为网站服务器所对应的IP地址。(4)将IP地址和网页相对路径名称交给网页下载器,网页下载器负责网页内容的下载。(5)网页下载器将相应网页的内容下载到本地。(6)将下载到本地的网页存储到页面库中,同时将使用过的URL放入到已抓取的URL队列中,避免重复抓取。(7)对于刚下载的网页中抽取出所包含的URL信息。(8)在已抓取URL队列中检查抽取的URL是否被下载过。如果它还未被下载过,则将这个URL放入待抓取URL队列中。如此重复(2)~(8),直到待抓取URL队列为空。
总结与思考课后,请大家思考爬虫程序开发应遵守的法律和道德规范本次课主要讲解了聚焦网络爬虫和通用网络爬虫的工作原理和工作流程。
下次课再见!
有哪些信誉好的足球投注网站
文档评论(0)