- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
********第9章文件*第9章文件第6章Python网络爬虫《Python数据分析与应用》网络爬虫网络爬虫(WebSpider),又被称为网页蜘蛛或网络机器人,通过一定的规则自动地抓取网络信息。网络爬虫就是根据网址获取网页信息。例如,当输入网址:/,浏览器向DNS服务器发出请求,经过解析,将发送给浏览器的HTML、JS、CSS等文件解析出来,便成了百度内容。爬虫流程爬取Python提供了requests等库实现HTTP请求操作,获取网页的源代码。Requests方法解释requests.get()获取html的主要方法requests.head()获取html头部信息的主要方法requests.post()向html网页提交post请求的方法requests.put()向html网页提交put请求的方法requests.patch()向html提交局部修改的请求requests.delete()向html提交删除请求Requestsimportrequestsr=requests.get(url=http://www……)#GET请求print(r.status_code)#获取返回状态print(r.url)print(r.text)#打印解码后的返回数据解析从网页源代码中提取有用的信息。方法1:采用正则表达式提取,但是在构造正则表达式时比较复杂且容易出错。方法2:由于网页的结构有一定的规则,可以利用BeautifulSoup、pyquery、lxml等库提取网页节点属性、CSS选择器等网页信息。存储将提取到的数据保存到某处以便后续处理和分析,可以保存为TXT文本或JSON文本,也可以保存到MySQL和MongoDB等数据库。正则表达式正则表达式,又称正规表示法、常规表示法,是指通过事先定义好的特定字符(“元字符”)组成的“规则字符串”,对字符串进行过滤逻辑。凡是符合规则的字符串,认为“匹配”,否则,不“匹配”。正则表达式采用正则表达式判断一个字符串是否包含合法的Email,需要创建一个匹配Email的正则表达式,然后通过该正则表达式去判断。正则表达式元字符含义输入输出.匹配任意字符?a.cAbc^匹配开始位置^abcAbc$匹配结束位置abc$Abc*?匹配前一个元字符0到多次abc*ab;abccc+匹配前一个元字符1到多次abc+abc;abccc?匹配前一个元字符0到1次abc?ab;abcre模块fIndall()compile()match()search()replace()split()Python中的re模块提供了一个正则表达式引擎接口,允许将正则表达式编译成模式对象,通过这些模式对象执行模式匹配有哪些信誉好的足球投注网站和字符串分割、子串替换等操作。Findall()importrep=pile(r\d+)print(p.findall(o1n2m3k4))[1,2,3,4]search()importrea=123abc456print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(0))123abc456print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(1))123print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(2))abcprint(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(3))456Match()importreprint(re.match(www,).span())#在起始位置匹配(0,3)print(re.match(com,))#不在起始位置匹配Nonesplit()1)只传一个参数,默认分割整个字符串str=a,b,c,d,e;str.sp
您可能关注的文档
- 《Python数据分析与应用》(周元哲)教学大纲.doc
- Python数据分析与应用 课件全套 (周元哲) 第1--13章 Python编程概述--- Sklearn.pptx
- Python数据分析与应用 课件 第1章 Python编程概述.ppt
- Python数据分析与应用 课件 第3.1章 序列 .ppt
- Python数据分析与应用 课件 第4.1章 顺序程序设计.ppt
- Python数据分析与应用 课件 第5章 函数和模块.ppt
- Python数据分析与应用 课件 第7章 python与数据分析 .ppt
- Python数据分析与应用 课件 第8章 numpy.ppt
- Python数据分析与应用 课件 第9章 matplotlib.ppt
- Python数据分析与应用 课件 第11章 scipy.ppt
- DB42T 1395-2018 虾莲藕共作技术规程.pdf
- DB42T 1409-2018 水稻工厂化基质育秧技术规程.pdf
- DB42T 1420-2018 稻田地表径流氮磷流失防控技术规程.pdf
- DB42T 1430-2018 种猪精细化饲养技术规程.pdf
- DB42T 1435-2018 麦麸膳食纤维生产技术规程.pdf
- DB42T 1436-2018 虾蟹鳜池塘生态养殖技术规程.pdf
- DB42T 1284-2017 棉花马铃薯连作轻简化栽培技术规程.pdf
- DB42T 1285-2017 有机果品 蓝莓种植技术规程.pdf
- DB42T 1294-2017 乡镇(村)级物流综合服务站点建设规范.pdf
- DB42T 1443-2018 大宗工业品(钢卷)公路运输服务规范.pdf
最近下载
- 34 银行业金融机构冠字号码查询检查工作指引(试行).doc VIP
- 药物警戒体系主文件(2022必威体育精装版版).pdf
- 管道气压试验和泄漏试验记录报告.pdf VIP
- 公司管理制度公司管理制度.docx VIP
- GB50236-2011 现场设备、工业管道焊接工程施工规范.docx VIP
- 必威体育精装版ISO22301:2019业务连续性管理体系一整套程序文件.pdf
- 房屋维修加固监理细则.pdf VIP
- 2020年公司等级薪酬体系职等职级表(制造业).pdf VIP
- 内蒙古呼和浩特市2023-2024学年八年级下学期期末考试英语试题(含答案,无听力音频及原文).pdf VIP
- 2025年湖北省三支一扶考试真题 .pdf VIP
文档评论(0)