Python爬虫大数据采集与挖掘-2.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

n=大数据#unicodeg=n.encode(gbk)#gbku=n.encode(utf-8)#utf-8g2=n.encode(gb2312)#gb2312g2u=g.decode(gbk).encode(utf-8)#gbk转成utf-8Python对编码转换的支持网页中的编码和Python处理不同的网站的编码并不完全相同,使用爬虫解析文本信息的时候需要考虑网页的编码方式,否则获得的结果可能是乱码。可以从网页的charset属性中看到其编码,例如查看网页源代码,检查网页编码如metacharset=utf-8指定了网页的编码为utf-8。用于解析文本的Python库主要有BeautifulSoup。BeautifulSoup使用编码自动检测字库(unicodeDammit、chardet等)来识别输入文档的编码,并将其转换成unicode编码;同时,BeautifulSoup将输出文档自动转换成utf-8编码。自动检测一个页面编码方式,可以通过chardet包来进行,需要事先安装。具体方法如下。?importchardetimportrequestsres=requests.get()cs=chardet.detect(res.content)#通过响应信息的content属性来判断页面的编码方式chardet.detect的检测结果是一个字典,如下所示,字典的关键字包含encoding和confidence等,其中前者的值就是页面编码,后者表示自动检测时对结果的确信度[0,1]。{encoding:UTF-8-SIG,confidence:1.0,language:}因此,可以通过cs[encoding]来得到页面编码。URL中的汉字编码/s?ie=utf-8f=8rsv_bp=1rsv_idx=1tn=baiduwd=%E5%A4%A7%E6%95%B0%E6%8D%AEfenlei=256rsv_pq=d8be03rsv_t=b509eYYh8nGUeDFm46I8gUisdHT1AVO2rSeArcfJvACEO64YYJLpzyb%2FhEIrqlang=cnrsv_enter=1rsv_dl=tbrsv_sug3=11rsv_sug1=14rsv_sug7=101rsv_sug2=0rsv_btype=iinputT=4506rsv_sug4=4506提纲HTML语言规范编码体系与规范在Web页面处理中使用正则表达式爬虫与大数据分析中相关Python基础网络爬虫的一个基本功能是根据URL进行页面采集,因此,从页面中提取URL是爬虫的共性技术问题。由于超链接的表示通常具有固定的模式,因此在具体实现页面链接提取时,采用正则表达式匹配方法是比较简易的方法。Python中,re模块提供了正则表达式匹配所需要的功能。匹配和有哪些信誉好的足球投注网站分割字符串匹配和替换最常用的函数是findall,其函数原型为:findall(pattern,string[,flags])其中,string为输入的字符串,pattern是指定的匹配模式,flags是一个可选参数,用于表示匹配过程中的一些选项。函数返回结果一个列表。.通配符:代表任意字符,除\n以外,一个点一个字符ret=re.findall(m...e,catandmouse)#[‘mouse’]*重复匹配允许*之前的一个字符重复多次ret=re.findall(ca*t,caaaaatandmouse)#[‘caaaaat’]‘?也是重复匹配,但是?之前的字符只能重复0次或者1次ret=re.findall(ca?t,catandmouse)#[cat]ret=re.findall(ca?t,caaaaatandmouse)#[],无匹配+也是重复匹配但是至少重复1次,不能是0次ret=re.findall(ca+t,caaaaatandmouse)#[‘caaaaat’]{}也是重复匹配,但是匹配次数可以自行设置,次数可以是一个数,或者范围ret=re.findall(ca{5}t,caaaaatandmouse)#5次,[‘caaaaat’]ret=re.findall(ca{1,5}t,caaaatcatdmouse)#1到5次,[c

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档