上交大《Python程序设计实用教程》教学资源 教学课件 模块9.pptxVIP

上交大《Python程序设计实用教程》教学资源 教学课件 模块9.pptx

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网 络 爬 虫 模块9 学习前 请思考 (1)什么是网络爬虫? (2)网络爬虫是如何工作的? (3)Python在网络爬取中的作用是什么? (4)数据爬取是不是无限制的? 目录 content 初识网络爬虫 9.1 网络爬虫的常用技术 9.2 实训:网络小说下载 9.3 Part one 初识网络爬虫 9.1 9.1.1 网络爬虫介绍 1.网络爬虫的概念 网络爬虫又被称为网页蜘蛛或网络机器人,在FOAF社区中,更经常地被称为网页追逐者,是一种按照一定规则,自动地抓取万维网信息的程序或脚本。其另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或蠕虫。 网络爬虫是一个自动提取网页的程序,它为有哪些信誉好的足球投注网站引擎从万维网上下载网页,是有哪些信誉好的足球投注网站引擎的重要组成部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的某一条件时停止。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列中。然后,它将根据一定的有哪些信誉好的足球投注网站策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件网络时停止。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析和过滤,并建立索引,以便之后进行查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 9.1.1 网络爬虫介绍 2.网络爬虫的分类 网络爬虫按照实现的技术和结构可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。 (1)通用网络爬虫。通用网络爬虫是捜索引擎(如Baidu、Google等)抓取系统的重要组成部分。其主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷,但是通用网络爬虫适用于为有哪些信誉好的足球投注网站引擎有哪些信誉好的足球投注网站广泛的主题,有较强的应用价值。 通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列和初始 URL 集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有深度优先策略和广度优先策略。 9.1.1 网络爬虫介绍 (2)聚焦网络爬虫。聚焦网络爬虫(focused crawler)又称主题网络爬虫(topical crawler),是“特定主题需求”的一种网络爬虫程序,它与通用网络爬虫的区别在于:聚焦网络爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块和内容评价模块。聚焦网络爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。 (3)增量式网络爬虫。增量式网络爬虫(incremental Web crawler)是指对已下载网页采取增量式更新和只爬行新产生的或已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。 9.1.1 网络爬虫介绍 与周期性爬行和刷新页面的网络爬虫相比,增量式网络爬虫只会在需要时爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构包含爬行模块、排序模块、更新模块、本地页面集、待爬行URL集及本地页面URL集。 (4)深层网络爬虫。在互联网中,Web页面按存在方式可以分为表层网页(surface Web)和深层网页(deep Web,也称invisible Web pages或hidden Web)。表层网页是指传统有哪些信誉好的足球投注网站引擎可以索引的页面,是以超链接可以到达的静态网页为主构成的Web页面。深层网页是大部分内容不能通过静态链接获取的、隐藏在有哪些信誉好的足球投注网站表单后的、只有用户提交一些关键词才能获得的 Web 页面。例如,用户注册后内容才可见的网页就属于深层网页。 deep Web爬虫体系结构包含六个基本功能模块(爬行控制器、解析器、表单分析器、表单处理器、响应分析器和LVS控制器)和两个爬虫内部数据结构(URL列表和LVS表)。 其中,LVS(label value set)表示标签/数值集合,用来表示填充表单的数据源。 9.1.2 网络爬虫的基本工作原理 网络爬虫的基本工作流程如图9-1所示(此处以通用网络爬虫为例)。 (1)获取最初的URL,该URL地址是用户自己制定的初始爬取的网络。 (2)爬取对应地址的网页,

文档评论(0)

一帆风顺 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档