- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
单元八Python爬虫框架;;1.Scrapy
Scrapy是Python开发中的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、数据监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改它。它还提供了多种类型的爬虫的基类,如BaseSpider、SitemapSpider等。
2.Crawley
Crawley能高速爬取对应网站的内容,支持关系数据库和非关系型数据库,数据可以导出为JSON、XML等格式。
3.Portia
Portia是一个用Python编写的、无需任何编程知识就能可视化爬取网站数据的开源工具。Portia是运行在Web浏览器中的,提供了可视化的Web页面,只需通过单击即可标注页面上需提取的相应数据,完成爬取规则的开发。这些规则还可在Scrapy中使用,用于抓取页面。
4.PySpider
PySpider是一个强大的网络爬虫系统,并带有强大的WebUI。PySpider采用Python语言编写,具有分布式架构,支持多种数据库后端,并具有强大的WebUI支持的脚本编辑器、任务监视器、项目管理器及结果查看器。
5.BeautifulSoup
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过用户喜欢的转换器实现常用的文档导航、查找、修改等功能。BeautifulSoup会帮助用户节省数小时甚至数天的工作时间。获取HTML元素都是用bs4完成的。
6.Grab
Grab是一个网页爬虫抓取框架,为异步处理数据提供了多种有效的方法,可以构建各种复杂的网页抓取工具。
7.Cola
Cola是一个分布式的爬虫框架。对用户来说,使用Cola时只需编写几个特定的函数即可,而无须关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。
;;截止到2024年2月,Scrapy框架的必威体育精装版版本为2.11.1,本书安装Scrapy2.11.1。现讲解使用命令方式和在PyCharm中安装Scrapy框架的方法。
1.使用pip命令安装
(1)查看Python版本和pip版本,命令如图8-1所示。
图8-1查看Python、pip版本
如果Python和pip的版本比较低,需要将其升级。
Python3.12.1按照单元01介绍的方法安装即可。
pip3的安装命令为apt-getinstallpython3-pip。
;
;2.在PyCharm环??中安装Scrapy框架
在PyCharm环境中安装Scrapy框架,请参照单元07中requests库的安装,只需要有哪些信誉好的足球投注网站“scrapy”即可;;Scrapy是一个使用Python编写的爬虫框架(CrawlerFramework),它简单轻巧,并且使用起来非常方便。Scrapy使用Twisted异步网络库来处理网络通信。Scrapy整体架构如下图所示。
;;Scrapy是通过Scrapy命令行工具进行控制的。在介绍命令行工具和子命令前,先熟悉一下Scrapy项目的目录结构。
在提取数据之前,需要先创建一个新的Scrapy项目。在Ubuntu20.04、Python3.12.1环境中,创建Scrapy项目并运行的主要流程如下(以pysrc项目名为例)。
(1)通过命令行定位到存放项目的目录。如在/home/scrapy/路径下建立一个文件夹,命令为mkdirpysrc。
(2)创建名为pysrc的Scrapy项目。进入上一步创建的pysrc文件夹,在终端输入命令scrapystartprojectpysrc,即可创建一个名为pysrc的项目,如图8-7所示,项目创建成功。
;pysrc目录下的文件分别如下。
?scrapy.cfg:项目配置文件。
?pysrc:Python项目模块,代码将从这里导入。
?pysrc/items.py:项目文件。
?pysrc/middlewares.py:定义爬虫中间件和下载器中间件。
?pysrc/pipelines.py:项目管道文件。
?pysrc/settings.py:项目设置文件。
?pysrc/spiders:放置爬虫的目录。
当使用tree命令时,系统可能会提示tree命令不能使用,此时需要安装,aptinstalltree可安装tree命令。
(3)设置items.py、pipelines.py、settings.py文件。
(4)在spiders文件夹下创建获取网页信息的文件。
(5)运行Scrapy框架。在命令行输入命令
您可能关注的文档
- Python基础与大数据应用(第2版)(微课版) 试卷及答案1.docx
- Python基础与大数据应用(第2版)(微课版) 试卷及答案2.docx
- Python基础与大数据应用(第2版)(微课版) 试卷及答案3.docx
- Python基础与大数据应用(第2版)(微课版) 试卷及答案4.docx
- Python基础与大数据应用(第2版)(微课版) 试卷及答案5.docx
- Python基础与大数据应用(第2版)(微课版)拓展3-Python语言简介.pdf
- 第八章_图像分割.pptx
- OpenCV计算机视觉技术(Python语言描述)(微课版)课件 第九章_目标检测与识别.pptx
- OpenCV计算机视觉技术(Python语言描述)(微课版)课件 第十二章_YOLOv5检测.pptx
- OpenCV计算机视觉技术(Python语言描述)(微课版)课件 第十一章_神经网络.pptx
- 2024-2025学年湖南省湘一名校联盟高一下学期期中联考政治试题及答案.docx
- 2024-2025学年湖北省荆荆宜襄四地七校联盟高一下期中联考历史试题及答案.docx
- 2024-2025学年河南省驻马店新蔡县第一高级中学高一下学期5月月考地理试题及答案.pdf
- 2024-2025学年湖南省湘一名校联盟高一下学期期中联考历史试题及答案.docx
- 2024-2025学年湖南省湘一名校联盟高一下学期期中联考历史试题及答案.pdf
- 2024-2025学年湖南省长沙市第一中学高一下学期期中历史试题及答案.docx
- 2024-2025学年湖南省长沙市雅礼八校高一下学期期中联考政治试题及答案.docx
- 2024-2025学年湖南省湘一名校联盟高一下学期期中联考英语试题及答案.docx
- 2024-2025学年湖南省娄底市部分学校高一下学期期中政治试题及答案.docx
- 2024-2025学年河北省邯郸市高一下学期期中政治试题及答案.pdf
最近下载
- 个人简历_个人简历下载_个人简历表格模板-黑白表格款2.docx VIP
- 国家开放大学电大《养猪技术》2025期末试题及答案(试卷号:2767).docx VIP
- 江西师范大学《电磁学》2023-2024学年第一学期期末试卷.pdf VIP
- 600MW机组除氧器水位控制系统.doc VIP
- 关于雪的古诗名句1.docx VIP
- GB 50168-2018 电气装置安装工程电缆线路施工及验收标准.docx
- Keithley 2400系列中文版简易说明.pdf VIP
- 中控室设备运行记录表.docx VIP
- 关于雪的古诗名句.docx VIP
- 2025年浙江省杭州市六年级下学期期末数学试卷 .pdf VIP
文档评论(0)