Python基础与大数据应用（第2版）（微课版）课件单元8-Python爬虫框架.pptx

下载文档

0
0
约6.97千字
约 29页
2025-06-25 发布于山东
举报
版权申诉
保障服务

Python基础与大数据应用（第2版）（微课版）课件单元8-Python爬虫框架.pptx

1、本文档共29页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

单元八Python爬虫框架;;1．Scrapy

Scrapy是Python开发中的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、数据监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便地修改它。它还提供了多种类型的爬虫的基类，如BaseSpider、SitemapSpider等。

2．Crawley

Crawley能高速爬取对应网站的内容，支持关系数据库和非关系型数据库，数据可以导出为JSON、XML等格式。

3．Portia

Portia是一个用Python编写的、无需任何编程知识就能可视化爬取网站数据的开源工具。Portia是运行在Web浏览器中的，提供了可视化的Web页面，只需通过单击即可标注页面上需提取的相应数据，完成爬取规则的开发。这些规则还可在Scrapy中使用，用于抓取页面。

4．PySpider

PySpider是一个强大的网络爬虫系统，并带有强大的WebUI。PySpider采用Python语言编写，具有分布式架构，支持多种数据库后端，并具有强大的WebUI支持的脚本编辑器、任务监视器、项目管理器及结果查看器。

5．BeautifulSoup

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过用户喜欢的转换器实现常用的文档导航、查找、修改等功能。BeautifulSoup会帮助用户节省数小时甚至数天的工作时间。获取HTML元素都是用bs4完成的。

6．Grab

Grab是一个网页爬虫抓取框架，为异步处理数据提供了多种有效的方法，可以构建各种复杂的网页抓取工具。

7．Cola

Cola是一个分布式的爬虫框架。对用户来说，使用Cola时只需编写几个特定的函数即可，而无须关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

;;截止到2024年2月，Scrapy框架的必威体育精装版版本为2.11.1，本书安装Scrapy2.11.1。现讲解使用命令方式和在PyCharm中安装Scrapy框架的方法。

1．使用pip命令安装

（1）查看Python版本和pip版本，命令如图8-1所示。

图8-1查看Python、pip版本

如果Python和pip的版本比较低，需要将其升级。

Python3.12.1按照单元01介绍的方法安装即可。

pip3的安装命令为apt-getinstallpython3-pip。

;

;2．在PyCharm环??中安装Scrapy框架

在PyCharm环境中安装Scrapy框架，请参照单元07中requests库的安装，只需要有哪些信誉好的足球投注网站“scrapy”即可;;Scrapy是一个使用Python编写的爬虫框架（CrawlerFramework），它简单轻巧，并且使用起来非常方便。Scrapy使用Twisted异步网络库来处理网络通信。Scrapy整体架构如下图所示。

;;Scrapy是通过Scrapy命令行工具进行控制的。在介绍命令行工具和子命令前，先熟悉一下Scrapy项目的目录结构。

在提取数据之前，需要先创建一个新的Scrapy项目。在Ubuntu20.04、Python3.12.1环境中，创建Scrapy项目并运行的主要流程如下（以pysrc项目名为例）。

（1）通过命令行定位到存放项目的目录。如在/home/scrapy/路径下建立一个文件夹，命令为mkdirpysrc。

（2）创建名为pysrc的Scrapy项目。进入上一步创建的pysrc文件夹，在终端输入命令scrapystartprojectpysrc，即可创建一个名为pysrc的项目，如图8-7所示，项目创建成功。

;pysrc目录下的文件分别如下。

?scrapy.cfg：项目配置文件。

?pysrc：Python项目模块,代码将从这里导入。

?pysrc/items.py：项目文件。

?pysrc/middlewares.py：定义爬虫中间件和下载器中间件。

?pysrc/pipelines.py：项目管道文件。

?pysrc/settings.py：项目设置文件。

?pysrc/spiders：放置爬虫的目录。

当使用tree命令时，系统可能会提示tree命令不能使用，此时需要安装，aptinstalltree可安装tree命令。

（3）设置items.py、pipelines.py、settings.py文件。

（4）在spiders文件夹下创建获取网页信息的文件。

（5）运行Scrapy框架。在命令行输入命令

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

Python基础与大数据应用（第2版）（微课版）课件单元8-Python爬虫框架.pptx