《Python程序设计》课件—14网络爬虫.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
口令:RAPID708 第14章 项目实战:网络爬虫 爬虫简介 网络爬虫(Web Spider)也叫作网页蜘蛛、网络机器人、网络追逐者。它是一种脚本程序,可以高效准确的将网络上所需的信息进行自动提取。如果将互联网比作蜘蛛网,网络爬虫通过不同网页的链接地址实现在蜘蛛网上爬来爬去获取所需信息。 爬虫简介 网络爬虫可分为通用网络爬虫和聚焦网络爬虫。 通用网络爬虫工作原理:从互联网上采集网页信息后,这些信息主要用于为有哪些信誉好的足球投注网站引擎提供支持,它决定整个有哪些信誉好的足球投注网站引擎的信息及时性和内容的丰富程度。 聚焦网络爬虫工作原理:从互联网上采集网页信息时会对内容进行筛选处理,只爬取所需的网页信息。 本章节详细讲解聚焦网络爬虫。 项目分析 以豆瓣电影TOP250为目标,爬取目标中的中文电影名、年份、评分、评论人数和最热评论的信息,并将爬取得到的信息存入为本地文件,最后将排名前10的电影信息(评论人数、评分)可视化显示。 设计思路: 明确爬取目标及所需要的效果。 根据URL爬取网页数据信息。 根据需求进行数据清洗。 数据可视化分析。 爬取网页 URL(统一资源定位符):从互联网上得到的资源的位置和访问方法的表示,是互联网上标准资源的地址。通俗来讲URL就是网址。 URL格式:protocol :// hostname[:port] / path / [;parameters][?query]#fragment 说明: protocol(协议):传输协议(HTTP、FTP等)。 hostname(主机名):指存放资源的服务器的域名系统(DNS) 主机名或 IP 地址。 port(端口号):整数,省略时使用协议默认的端口(可选项)。 path(路径):表示主机上的一个目录或文件地址。 parameters(参数):指定特殊参数(可选项)。 query(查询):给动态网页传递参数,用“”符号隔开,每个参数的名和值用“=”符号隔开(可选项)。 fragment(信息片断):字符串,指定网络资源中的片断。 举例说明: /downloads/ 协议:HTTP。 域名:。 请求目录:downloads。 爬取网页 from urllib import request url = #I360 SE 的 User-Agent,包含在 ua_header里 ua_header = {User-Agent : Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; 360SE)} # url 连同 headers,一起构造Request请求,这个请求将附带 IE9.0 浏览器的User-Agent url_buf = request.Request(url, headers = ua_header) # 向服务器发送这个请求 response = request.urlopen(url_buf) html = response.read() print(html) 爬取网页 为了爬取豆瓣电影TOP250中的中文电影名、评分、评论人数和最热评论的信息,必须要确定目标网址。 经过查找豆瓣网URL为:/top250?start=0filter= 然后分析豆瓣网URL的规律: 豆瓣电影TOP250网址第一页:/top250?start=0filter= 豆瓣电影TOP250网址第二页:/top250?start=25filter= 豆瓣电影TOP250网址第三页:/top250?start=50filter= 一直到第十页:/top250?start=225filter= 分析后可以发现规律,豆瓣电影TOP250网址中的每页URL中“start=”后面的数值是不一样的,并且是在上次的基础上累加数值25,根据这个规律可以爬取豆瓣电影TOP250网址中所有数据信息。 爬取网页 为了爬取豆瓣电影TOP250中的中文电影名、评分、评论人数和最热评论的信息,必须要确定目标网址。 经过查找豆瓣网URL为:/top250?start=0filter= 然后分析豆瓣网URL的规律: 豆瓣电影TOP250网址第一页:/top250?start=0filter= 豆瓣电影TOP250网址第二页:/top250?start=25filter= 豆瓣电影TOP250网址第三页:/top250?start=50filter= 一直到第十页:/top250?start=225filter= 分析后可以发现规律,豆瓣电影TOP250网址中的每页URL中“start=”后面的数值是不一样的,并且是在上次的基础上累加数值25,根据这个规律可以爬取豆瓣电影TOP250网址中所有数据信息。 爬取网页 爬取豆瓣TOP

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

从事职业教育近20年,高级职称。

领域认证 该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档