《Python编程案例教程》网络爬虫.pptxVIP

下载本文档

5
0
约1.06万字
约 41页
2024-04-08 发布于浙江
举报
版权申诉

《Python编程案例教程》网络爬虫.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本章导读随着网络的迅速发展，如何有效地提取并利用信息已经成为一个巨大的挑战。为了更高效地获取指定信息，需定向抓取并分析网页资源，从而促进了网络爬虫的发展。本章将介绍使用Python编写网络爬虫的方法。学习目标理解网络爬虫的基本操作流程掌握通过requests库进行数据抓取的方法掌握通过正则表达式进行数据解析的方法掌握运用beautifulsoup4库解析和处理数据的方法概述12.1概述?网络爬虫（WebSpider）又称网络蜘蛛或网络机器人，是一段用来实现自动采集网站数据的程序。?网络爬虫不仅能够为有哪些信誉好的足球投注网站引擎采集网络信息，而且还可以作为定向信息采集器，定向采集某些网站中的特定信息。?对于定向信息的爬取，网络爬虫主要采取数据抓取、数据解析、数据入库的操作流程。概述12.1概述?（1）数据抓取：发送构造的HTTP请求，获得包含所需数据的HTTP响应；?（2）数据解析：对HTTP响应的原始数据进行分析、清洗，以提取出所需要的数据；?（3）数据入库：将数据进一步保存到数据库（或文本文件）中，用于构建知识库。爬虫客户端目标网站数据库（1）发送HTTP请求（2）获取响应内容（3）解析、清洗、入库Python提供了许多与网络爬虫相关的库。其中，在数据抓取方面requests；在数据解析方面包括re（正则表达式），beautifulsoup4。12.2.1requests库概述12.2.2使用requests库12.2.3简单应用数据抓取12.2.1requests库概述requests库提供了很多功能特性，几乎涵盖了所有Web服务的需求，包括URL获取、HTTP长连接和连接缓存、HTTP会话、浏览器式的SSL验证、身份认证、Cookie会话、文件分块上传、流下载、HTTP(S)代理功能、连接超时处理等。由于requests库是第三方库，因此，需要通过pip3指令进行安装，pip3安装命令如下：C:\pip3installrequests安装完requests库后，在Python交互模式下输入导入requests库的语句：importrequests如果没有提示错误，则说明安装成功。数据抓取12.2.2使用requests库网络爬虫工作流程的第一步是数据的抓取，也就是使用requests库实现发送HTTP请求和获取HTTP响应的内容。1．发送HTTP请求requests库提供了几乎所有的HTTP请求方法：函数描述对应于HTTP的GET方法，请求指定的页面信息，并返回实体主体；是获取网页最常用的方法，可通过timeout=n设置每次请求超时时间为n秒get(url[,timeout=n])对应于HTTP的HEAD方法，类似于get请求，只不过返回的响应head(url)中没有具体的内容，用于获取报头对应于HTTP的POST方法，向指定资源提交数据，并处理请求post(url,data={key:value})（如提交表单或者上传文件）；其中字典用于传递客户数据对应于HTTP的DELETE方法，请求服务器删除指定的页面delete(url)options(url)对应于HTTP的OPTIONS方法，允许客户端查看服务器的性能对应于HTTP的PUT方法，从客户端向服务器传送的数据取代指定put(url,data={key:value})的文档内容。其中字典用于传递客户数据数据抓取12.2.2使用requests库调用get()函数是获取网页最常用的方式，在调用requests.get()函数后，返回的网页内容会保存为一个Response对象。importrequestsr=requests.get()type(r)classrequests.models.Response#导入requests库#使用get函数打开百度链接#查看返回值r的类型数据抓取12.2.2使用requests库有时我们需要在URL中传递参数。例如：在采集百度有哪些信誉好的足球投注网站结果时，需要传递wd参数（有哪些信誉好的足球投注网站词）。requests允许使用params关键字参数，以一个字符串字典来提供这些参数。importrequestspayload={wd:Python}r=requests.get(/s,params=payload)#传入URL参数r.url/s?wd=Python#导入requests库#定义字典#输出URL的值用浏览器打开被编码的URL得到百度有哪些信誉好的足球投注网站关键字“Python”的结果。数据抓取12.2.2使用requests库2．获取HTTP响应的内容和浏览器的交互过程一样，requests.get()代表发送HTTP请求的过程，它返回的Response对象代表HTTP响应。我们可以通过Response对象的不同属性来获取不同内容，其语法格式如下：对象名.