《开源爬虫的比较.docxVIP

下载本文档

5
0
约5.54千字
约 7页
2017-01-13 发布于北京
举报
版权申诉

《开源爬虫的比较.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《开源爬虫的比较

开源爬虫Labin，Nutch，Neritrix介绍和对比2 6 从网上找了一些开源spider的相关资料，整理在下面：Larbin开发语言：C++/index-eng.htmllarbin是个基于C++的web爬虫工具，拥有易于操作的界面，不过只能跑在LINUX下，在一台普通PC下larbin每天可以爬5百万个页面(当然啦，需要拥有良好的网络)简介Larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为有哪些信誉好的足球投注网站引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情larbin也不提供。Latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取５００万的网页，非常高效。????? 功能????? 1. larbin获取单个、确定网站的所有联结，甚至可以镜像一个网站。????? 2. larbin建立url列表群，例如针对所有的网页进行urlretrive后，进行xml的联结的获取。或者是 mp3 。????? 3. larbin定制后可以作为有哪些信誉好的足球投注网站引擎的信息的来源（例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面）。问题Labin的主要问题是，：仅提供保存网页保存功能，没有进行进一步的网页解析；不支持分布式系统；功能相对简单，提供的配置项也不够多；不支持网页自动重访，更新功能；从2003年底以后，Labin已经放弃更新，目前处于荒芜长草的状态Nutch开发语言：Java/nutch/?简介：Apache的子项目之一，属于Lucene项目下的子项目。Nutch是一个基于Lucene，类似Google的完整网络有哪些信誉好的足球投注网站引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。?总体上Nutch可以分为2个部分：抓取部分和有哪些信誉好的足球投注网站部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，有哪些信誉好的足球投注网站程序则对反向索引有哪些信誉好的足球投注网站回答用户的请求。抓取程序和有哪些信誉好的足球投注网站程序的接口是索引，两者都使用索引中的字段。抓取程序和有哪些信誉好的足球投注网站程序可以分别位于不同的机器上。下面详细介绍一下抓取部分。抓取部分：? 抓取程序是被Nutch的抓取工具驱动的。这是一组工具，用来建立和维护几个不同的数据结构： web database， a set of segments， and the index。下面逐个解释这三个不同的数据结构：??? 1、The web database，或者WebDB。这是一个特殊存储数据结构，用来映像被抓取网站数据的结构和属性的集合。WebDB用来存储从抓取开始（包括重新抓取）的所有网站结构数据和属性。WebDB只是被抓取程序使用，有哪些信誉好的足球投注网站程序并不使用它。WebDB存储2种实体：页面和链接。页面表示网络上的一个网页，这个网页的Url作为标示被索引，同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储，包括：页面中的链接数量（外链接），页面抓取信息（在页面被重复抓取的情况下），还有表示页面级别的分数 score。链接表示从一个网页的链接到其它网页的链接。因此WebDB可以说是一个网络图，节点是页面，链接是边。??? 2、Segment。这是网页的集合，并且它被索引。Segment的Fetchlist是抓取程序使用的url列表，它是从WebDB中生成的。Fetcher 的输出数据是从fetchlist中抓取的网页。Fetcher的输出数据先被反向索引，然后索引后的结果被存储在segment 中。Segment的生命周期是有限制的，当下一轮抓取开始后它就没有用了。默认的重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是日期加时间，因此很直观的可以看出他们的存活周期。??? 3、The index。索引库是反向索引所有系统中被抓取的页面，它并不直接从页面反向索引产生，而是合并很多小的segment的索引产生的。Nutch使用Lucene来建立索引，因此所有Lucene相关的工具 API 都用来建立索引库。需要说明的是Lucene的segment 的概念和Nutch的segment概念是完全不同的，不要混淆。简单来说Lucene的 segment 是Lucene索引库的一部分，而Nutch的Segment是WebDB中被抓取和索引的一部分。抓取过程详解：????? 抓取是一个循环的过程：抓取工具从WebDB中生成了一个fetch