- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络爬虫软件评测集新搜客与八爪鱼采集器
浅析通用爬虫软件—— 集搜客与八爪鱼采集器
最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键
词查询,找到了两款软件:“集搜客”和“八爪鱼”,两款软件都有可视化界面,
对于编程思维比较薄弱的用户来说,这两款软件上手容易,操作简单易懂。今天
就带大家来了解对比一下这两款通用的网络爬虫软件。
1. 软件安装
八爪鱼:八爪鱼安装跟其他独立软件一样,从官网下载,直接点击
setup.exe 安装。
集搜客:集搜客网站上下载的软件也是一个自解压 exe 程序,双击启动
安装,看到的是火狐浏览器安装过程,原来集搜客软件是作为火狐插件发布
的。
2. 软件界面布局
八爪鱼:八爪鱼的界面布局可以归为指引型界面,用户进入软件界面可
以看到软件使用提示信息,如图一所示,包括向导模式与高级模式,同时列
出了学习资源,采集规则,数据下载等等。对于初次使用的用户来说,起到
了很好的指引作用。
图 1:八爪鱼操作界面展示
集搜客:集搜客软件分成两个操作界面,MS 谋数台(图 2)和 DS 打数机
(图 3),谋数台负责制定规则(网页标注),打数机负责采集数据(网络爬虫),
一个谋、一个打,听起来还是比较符合其特征。集搜客启动后的界面没有显
示使用帮助资源,而是位于“帮助”菜单中。
图 2:集搜客谋数台界面
图 3:集搜客打数机界面
3. 操作流程
八爪鱼:八爪鱼的操作流程主要分为 4 个步骤(如图 4 所示),分别为:
设置基本信息、设计工作流程、设置采集选项、完成。
图 4:八爪鱼操作流程
1) 设置基本信息:建立任务名,分配任务组。其实就是给要做的规则起
名。
2) 设计工作流程:这个步骤是八爪鱼制定规则的关键一环,包括输入网
址、构建循环,所有关于翻页、循环等一些操作都在此进行。其实八
爪鱼此工作流程已经为用户构建了一个既定的框架,用户只需往里面
补充元素就可以了。如图 4 所示,构建了一个大的循环框架,用来翻
页,里面又包含循环,又来做列表采集以及层级抓取。
图 5:八爪鱼设计流程
3) 设置采集选项:这个理解起来很简单,就是选择需要采集的数据,如
图 5 右边方框所示,一次抓取了整条数据,需要进一步确定需要哪些
字段,并整理。
4) 完成:规则制定完成,采集数据。
集搜客:集搜客的操作没有流程的概念,似乎定义采集规则可以不遵守既定
操作顺序,而是有一个要领“建立一个箱子,把你要的内容摘进去”。所以我们
称之为 4“块”操作(如图 6 所示):包括命名主题、创建整理箱、规划爬虫路线
和定义连续动作。
1) 命名主题:为规则起个名字。
2) 创建整理箱:集搜客提出了“箱子”概念,即建立一个箱子,需要什么
数据,就从网页中摘取信息丢进这个箱子,这个丢的过程,集搜客有
个专用词“映射”,就是把网页上的内容指定给整理箱中的一个字段。
3) 爬虫路线:为采集任务设置翻页和层级,通俗来说,爬虫路线就是告
诉爬虫要按着哪条路线来爬数据。
4) 连续点击:这个属于集搜客的高级功能了,通过模拟用户的点击和其
他行为,来实现自动采集,主要针对那些需要不断点击但网址不发生
变化的网页。
图 6:集搜客的 4 块功能
综上所述,八爪鱼的工作流程特征十分明显,用户决定软件怎样动
作,什么时候动作,动作施加给哪里,从哪里采集内容等。而集搜客想让
用户专注于
文档评论(0)