小猪采集器规则制作.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
小猪采集器规则制作

1.何时才需要做小猪采集规则 小猪内置了数百种采集规则(内置规则无法修改),方便了用户使用,不过网页(模板)是千变万化的,当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候,就需要制作采集规则了。 注意点:小猪采集规则主要功能是提取字符、网址; ? ?? ?? ?? ???采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制,并且这些是运行均是自动化的。 2.小猪采集规则的作用 采集规则,顾名思义,就是采集用的,将网页上的内容提取整理成适合的形式,以便于发布到网站或者存储到CSV数据表格里面。 补充:? ?小猪采集规则实际包含了 采集规则+发布规则 ,这么设计的好处,可以处理交互式的网页,实现自动登录、回复、购买等互动采集,普通采集器很难实现这些互动处理,比如在论坛的帖子页,可以采集这个帖子,也可以对这个帖子进行回复后再采集,当然,大部分情况下是不需要做发布规则的,请按需选择。 3.小猪采集规则的兼容性 小猪的采集规则处理的对象是“网页模板”,普通的网站一般只用一套模板,这种网页就有规律可循,比如相同模板的列表页只需要制作一条列表采集规则。 小结 :? ?网站的发布内容展示在网页上,通过“网页模板”展示出来,软件则是通过对应的“采集规则”来解密出网页的内容,小猪规则相当于是“钥匙”,不同的钥匙打开不同的“网页模板”。 4.小猪采集规则的独立性与调用 小猪软件采集规则,是互相独立,又互相配合的,并且规则和任务也是独立的。小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等,所以制作好规则后,就可以测试采集了,任务会自动调用,无需手工再次选择。 5.采集页面深度 小猪理论上支持采集支持无限深度,原理是通过不同的规则识别不同的网页模板,也就是抓取不同的页面深度。 对于更复杂的需求,还可以通过p语言来实现,比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。第四节 实战编写小猪规则 有些用户可能比较心急,这一节讲解如何操作,不过我们建议大家有空的话还是看全 五节教程的文字部分,这样能基本掌握小猪规则的制作方法。 小猪规则编写速查表.rar (0 Bytes, 下载次数: 862) 2011-12-19 13:03:56 上传 下载次数: 862 ,新手可以参考此表来编写小猪规则。 建议按顺序看以下视频教程: 序号 视频教程说明 视频下载地址 本地下载 教程规则下载 1 编辑规则相关界面介绍 点击进入下载 本地下载 2 正文采集规则制作方法 点击进入下载 本地下载 新闻__正文_11111.rar (428 Bytes, 下载次数: 641) 2011-12-19 14:44:17 上传 下载次数: 641 3 列表采集规则制作方法 点击进入下载 本地下载 新闻__列表.rar (481 Bytes, 下载次数: 607) 2011-12-19 14:44:30 上传 下载次数: 607 4 论坛帖子采集规则制作 点击进入下载 本地下载 5 视频采集规则制作(包含采集视频评论) 点击进入下载 本地下载 以下为文字说明和相关注意点: 正文规则制作教程 正文规则是为了采集到 标题、内容(包括图片、附件网址),以及获取正确的翻页网址,便于实时发布。 一、在文章页面,CTRL+B 测试获取内容不正确,就需要做正文规则 二、右键点“本地规则库”--制作当前网页采集规则 编辑正文规则方法如下: 操作顺序 配置名 操作方法和注意点 1 全局区 设置规则名称和规则类型,一般是选择源代码,正文页类型 2 标题 鼠标框选网页上标题区域,右键菜单--内容采集--此处取标题,其他配置名均可以如此操作 3 正文 注意:只有在要采集回复、评论,才需要设置“首帖区域”“单元区域”? ? 4 正文下一页网址 如果有翻页,设置翻页地址,便于软件自动采集文章分页 注意:如果是论坛帖子的翻页,需要设置为“下一页网址” 5 识别区 回过头来,用正文的 class属性,设置 识别区—内容必包含 保存规则,打开其他正文页面测试是否获取正常,是否调用到了此正文采集规则。 小结:? ? 制作文章类型的正文规则,主要设置“配置名”中的识别区、标题、正文、正文下一页。 注意点:识别区务必要设置,识别区的重要性在第二节中有相关说明。 列表规则的制作教程 列表规则起到导航的作用,便于软件抓取到正文网址,采集正文内容。 一、打开版块列表页,CTRL+B 测试获取内容不正确,就需要做列表规则 此教程中,内置规则能正常识别到列表,只是演示制作方法 二、右键点“本地规则库”--制作当前网页采集规

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档