- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;;目录;3.1;在了解了网页结构的基础上,我们接下来将介绍几种工具,分别是正则表达式(及Python的正则表达式库——re模块)、XPath、BeautifulSoup模块以及lxml模块。 在展开讨论之前,需要说明的是,在解析速度上正则和lxml是比较突出的,lxml是基于C语言的,而BeautifulSoup使用Python编写,因此Beautiful在性能上略逊一筹也不奇怪。BeautifulSoup使用起来更方便一些,且支持CSS选择器,这也能够弥补其性能上的缺憾,另外必威体育精装版版的bs4也已经支持lxml作为解析器。在使用lxml时我们主要是根据XPath来解析,如果熟悉XPath的语法,那么lxml和BeautifulSoup都是很好的选择。;不过,由于正则表达式本身并非特地为网页解析设计,加上语法也比较复杂,因此一般不会经常使用纯粹的正则表达式解析HTML内容,在爬虫编写中,正则表达式主要作为字符串处理(包括识别URL、关键词有哪些信誉好的足球投注网站等)的工具,解析网页内容则主要使用BeautifulSoup和lxml两个模块,正则表达式可以配合这些工具一起使用。 【提示】严格地说,正则表达式、XPath、BeautifulSoup和lxml并不是平行的四个概念。正则表达式和XPath是“规则”或者叫“模式”,而BeautifulSoup和lxml是两个Python模块,但后面我们会发现,在爬虫编写中往往不会只使用一种网页元素抓取方法,因此这里将这四者暂且放在一起介绍。;3.2;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.1 什么是正则表达式;3.3.2 正则表达式的简单使用;在爬虫编写时,我们也可以用正则来解析网页。比如对于百度,我们想要获得其title信息,先观察一下网页源代码,下面是百度首页的部分源代码: ;显然,只要能匹配到一个左边是“title”,右边是“/title”(这些都是所谓的HTML标签)的字符串,我们就能够“挖掘”到百度首页的标题文字: 输出为:百度一下,你就知道。 ;如果厌烦了那么多的转义符“\”,在Python3中还可以使用字符串前的r来提高效率: 同样能够得到正确的结果。 当然,我们一般不会这样单凭正则来解析网页,一般总??将它与其他工具配合使用,比如BeautifulSoup中的find()方法就可以配合正则表达式使用。 ;假设我们的目标网页是百度百科的一条关于广东省的页面: /item/%E5%B9%BF%E4%B8%9C/207811?fromtitle=%E5%B9%BF%E4%B8%9C%E7%9C%81fromid=132473fr=aladdin,可以看到,这个页面上有一些我们会感兴趣的图片,它们的网页源代码如下: ;; ;我们使用一个比较简单的正则表达式去寻找想要的图片:pile(x-bce-process) 这个规则将帮助我们过滤掉一些网页中的装饰性图片和与词条内容无关的图片,比如: /203510d04e22d3ebee02ec27f3369e8a.jpeg,这是一个网站中使用的小logo图片的地址,最终的图片地址输出见图2-1。 ;3.3.2 正则表达式的简单使用;最后要说明的是,在比较新的BeautifulSoup版本上,运行上面的代码可能会出现一个系统提示: UserWarning: No parser was explicitly specified, so Im using the best available HTML parser for this system (html5lib). 这实际上是说我们没有明确地为BeautifulSoup指定一个HTML\XML解析器。指定之后便不会出现这个警告:BeautifulSoup( ..., html.parser ),除了html.parser还可以指定为lxml,html5lib等等。 【提示】Python中处理正则表达式的模块不止re一个,非内置模块的regex是更为强大的正则工具(可以使用pip安装来体验)。;3.3; 由于BeautifulSoup并不是Python内置的,因此我们仍需要使用pip来安装。这里我们来安装必威体育精装版的版本(BeautifulSoup 4版本,也叫bs4): pip install beautifulsoup4 另外,你也可以这样安装: pip install bs4 Linux用户也可以使用apt-get工具来进行安装: apt-get?install?Python-bs4 注意,如果电脑上
您可能关注的文档
- 第1、2章 计算机视觉概述、 Python与OpenCV运行环境.pptx
- 计算机视觉 课件 第3、4章 图像预处理、 图像特征提取.pptx
- 计算机视觉 课件 第5、6章 图像分类、 神经网络基础.pptx
- Python网络爬虫技术与实践 课件全套 第1--10章 Python基础及网络爬虫---爬虫框架SCRAPY与反爬虫.pptx
- Python网络爬虫技术与实践 课件 第1、2章 Python基础及网络爬虫、数据采集与预处理.pptx
- Python网络爬虫技术与实践 课件 第5--7章.JavaScript与动态内容、 模拟登录与验证码、 爬虫数据的分析与处理.pptx
- 计算机视觉 课件 第7、8章 卷积神经网络的基本概念、 目标检测.pptx
- 计算机视觉 课件全套 第1--10章 计算机视觉概述---人脸表情识别研究.pptx
- 《渗透测试技术》课件全套 第1--8章-渗透测试基础--- 渗透测试综合实践.pptx
- 渗透测试技术 课件 第2章 Kali Linux.pptx
最近下载
- 肉制品生产企业名录83家.docx VIP
- 抖音小店运营实操手册(精华版).pdf
- 创伤弧菌脓毒症临床诊治急诊专家共识(2025)解读PPT课件.pptx VIP
- 幼儿园二十四节气活动――大暑《制作好喝的饮料和水果》防暑小知识 【幼儿教案】.docx VIP
- 风电场应急物资物资管理台账 (2).docx
- 食管胃底静脉曲张及其破裂出血护理业务学习.pptx VIP
- smc-9021cems烟气分析系统说明书ii_11_30.doc VIP
- 小学课间活动对小学生团队合作精神培养的实证研究与实践报告教学研究课题报告.docx
- 浙江大学《园艺植物栽培学》习题库及期末考试真题解析(名词解释、填空、选择、改错、简答、论述题).pdf VIP
- 信息管理学基础7信息服务.pptx VIP
有哪些信誉好的足球投注网站
文档评论(0)