python爬取网页表格.docVIP

下载本文档

1074
0
约1.47万字
约 26页
2016-12-19 发布于贵州
举报
版权申诉

python爬取网页表格.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

python爬取网页表格篇一：python抓取网页数据用python抓取页面并进行处理 2009-02-19 15:09:50| 分类： Python | 标签：无 |字号订阅主要目的：抓取某个网页的源代码，把里面需要的数据进行处理，并保存到数据库中。已经实现了抓取页面并读取数据。步骤一、抓取页面，这一步很简单，引入urllib，用urlopen打开网址，并用read()方法读取数据。为了方便测试，用本地文本文件代替抓取网页步骤二、处理数据，如果页面代码比较规范标准，可以用HTMLParser进行简单处理，只是具体情况需要具体分析，感觉还是用正则比较好一些，顺便练习一下刚学习的正则表达式。其实正则也是一种比较简单的语言，其中符号比较多，有点晦涩难懂，只能是多加练习，多加实践了。步骤三、把处理的数据保存到数据库中，用pymssql就可以处理，这里只是简单的保存到文本文件中。扩展下去，利用这个功能还可以实现抓取整个网站的图片、自动声称sitemap文件等功能。下一个任务，研究python的socket功能 # -*- coding:gbk -*- import urllib import re #pager=urllib.urlopen(/index.html) #data=pager.read() #pager.close() f=open(rD:\2.txt) data=f.read() f.close() #处理数据 p=pile(#39;(?lt;=class=one.).+?(?=lt;/divlt;/div)#39;,re.I|re.S) m=p.findall(data) s= for datan in m: #继续处理数据，取出标题、简介、图片和链接地址 p_title=pile(#39;(?lt;=lt;h2.).+?(?=lt;/h2)#39;,re.I|re.S) p_url=pile(#39;(?lt;=href=.).+?(?=\)#39;,re.I|re.S) p_summar=pile(#39;(?lt;=lt;p.).+?(?=lt;/p)#39;,re.I|re.S) p_image=pile(#39;/eshop/images/.+?(?=\)#39;,re.I|re.S) s=s+标题：+p_title.search(datan).group()+\r\n+简 +p_summar.search(datan).group()+\r\n+图片 +p_image.search(datan).group()+\r\n+ +p_url.search(datan).group()+\r\n f=open(rD:\2.txt,#39;w#39;) f.write(s) f.close() 链接地址介：：：用Python脚本获取实时股市信息 2006-12-15 13:47 IE查看股市信息太过招摇，决定写个Python脚本抓取相关信息，小巧便捷。 1. 先写段Python脚本抓取股票行情查询页面。这个很简单。发现个股实时行情数据都是写在javascript文件当中。 2. 提取该javascript文件URL，写Python脚本抓取该文件。读取其内容，做字符串处理，提取股价，涨幅等信息。搞定。 3. 针对部分需要设置HTTP代理才可访问网络的需求，通过urllib.open(#39;***#39;, proxies=#39;***#39;)设置代理，非常方便。 4. 通过对javascript文件URL的分析，其文件名形式是股票代码.js。建立一个配置文件，提供所关注的股票代码。用Python脚本实现读取配置信息，定时读取所需实时信息。 5. 定义每日行情格式，以XML形式存储。 6. 日后可以Python脚本实现读取存储的行情信息生成报表，K线等图形信息。篇二：python完成网页抓取的工作 python完成网页抓取的工作 python 语言是自省的,就是说他的语言机制能保证他可以充分的自己描述自己,下面我就借助自省,用程序自身的说明来解释程序的逻辑结构,版本历史,以及设计时的想法. # -*- encoding:UTF-8 -*- #39;#39;#39; This is geturl. Wirtten by yuzebin : yuzebin AT Important:this script is running in cygwin or linux,if you run at windows you need the curl and wget for win