(【scrapy】使用方法概要.docxVIP

下载本文档

9
0
约 17页
2017-01-23 发布于北京
举报
版权申诉

(【scrapy】使用方法概要.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(【scrapy】使用方法概要

请参考：【scrapy】使用方法概要【请初学者作为参考，不建议高手看这个浪费时间】?工作中经常会有这种需求，需要抓取互联网上的数据。笔者就经常遇到这种需求，一般情况下会临时写个抓取程序，但是每次遇到这种需求的时候，都几乎要重头写，特别是面临需要抓取大数量网页，并且被抓取网站有放抓取机制的时候，处理起来就会很麻烦。无意中接触到了一个开源的抓取框架scrapy，按照introduction做了第一个dirbot爬虫，觉得很方便，就小小研究了一下，并在工作中用到过几次。scrapy的文档是英文的，网上相关的说明很少，使用的过程中也遇到过很多问题，大部分都是在?stack overflow?上找到的解答，看来这个工具国外的同行们用的会更多些。鉴于国内关于scrapy的文章甚少，笔者希望能用自己的一些浅显的经验希望帮助大家更快对scrapy入门，作为笔者的第一篇分享文章，很难一气呵成完成，本文将分为几个部分，按照我自己的学习曲线作为组织，如果有错误，希望大家指正。?首先简要终结一下我认为scrapy最便利的几个地方：1. 代码分工明确，一个抓取任务只需要在几个位置固定的地方增加代码，很容易就能写出基本的抓取功能。2. 框架隐藏了很多抓取细节，如任务调度，重试机制，但并不是说框架不够灵活，例如框架支持以添加中间件的方式更改隐藏的细节，满足特殊需要，如使用代理ip池进行抓取，防止服务器封掉ip。?好啦，下面正式开始，从安装开始笔者的运行环境是：linux python2.5包管理使用的是：apt-get?安装流程：1. 首先去官方网站下载源码/scrapy/scrapy/tarball/0.142. 安装scrapy以来的python库sudo apt-get install python-twisted python-libxml2 python-pyopenssl python-simplejson3. 安装?tar zxf Scrapy-X.X.X.tar.gzcd Scrapy-X.X.Xsudo python setup.py install4. 执行scrapy 如果出现恭喜你，安装成功。【未完待续~~~~~】【请初学者作为参考，不建议高手看这个浪费时间】?上一篇文章里介绍了scrapy的主要优点及linux下的安装方式，此篇文章将简要介绍scrapy的爬取过程，本文大部分内容源于scrapy文档，翻译并加上了笔者自己的理解。?忘记scrapy，一般所说的爬虫工作分为两个部分，downoader 和 parser：downloader输入是url列表，输出抓取到的rawdata，可能时候是html源代码，也可能是json，xml格式的数据。parser输入是第一部分输出的rawdata，根据已知的规则提取所需的info图1. 简单爬虫?图1所示的是最简单的爬虫，不考虑解析url，并把rawdata中的url提取做进一步提取，并假设预先知道抓取的所有的url，而且抓到的网页的parser（提取规则）是相同的。?---------------------------------------------------------------------------------------------------------------------------重新回到主角scrapy下面是摘取的scrapy文档中的抓取流程图官方文档中对图中的每个components如下：scrapy engine 【scrapy引擎】引擎控制系统中的数据流，当某些情况发生时，触发事件。scheduler 【调度器】调度器接受引擎发送过来的request对象【可简单理解成抓取任务】并把他们入队列，等待的引擎在适当时刻提取出这些request并把它们通过下载中间件交给downloader去做下载。Downloader【下载器】Downloader根据request对象中的地址获取网页内容告知引擎下载结果，并把网页内容传送给spider组件Spiders【解析器】Spiders是开发人员主要接触的组件，开发人员通过在这里coding，从raw网页中提取出所需的数据并存入item【数据原单元，一个item代表一项数据对象，使用者自己定义item包含的数据项】或者提取出新的抓取request对象【新的抓取任务】一个爬虫负责一个指定domain列表下的网页ItemPipeline【item管道】item管道负责处理爬虫吐出的item，包括数据清理，验证，保存DownloaderMiddleware【下载中间件】【工作原理很像一般mvc框架中的拦截器或者behavior，开发者可以在某些步骤之间插入自己的处理逻辑】有了中间件，开发这可以在engine向downlo