- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
小猪采集器规则制作
1.何时才需要做小猪采集规则小猪内置了数百种采集规则(内置规则无法修改),方便了用户使用,不过网页(模板)是千变万化的,当Ctrl+b预览不到内容、或者预览到的内容不符合您要求的时候,就需要制作采集规则了。注意点:小猪采集规则主要功能是提取字符、网址;? ?? ?? ?? ???采集回复数量、关键词SEO、伪原创、图片/附件下载、发布切换用户、发布时间间隔等是通过“采集方案”来控制,并且这些是运行均是自动化的。2.小猪采集规则的作用采集规则,顾名思义,就是采集用的,将网页上的内容提取整理成适合的形式,以便于发布到网站或者存储到CSV数据表格里面。补充:? ?小猪采集规则实际包含了 采集规则+发布规则 ,这么设计的好处,可以处理交互式的网页,实现自动登录、回复、购买等互动采集,普通采集器很难实现这些互动处理,比如在论坛的帖子页,可以采集这个帖子,也可以对这个帖子进行回复后再采集,当然,大部分情况下是不需要做发布规则的,请按需选择。3.小猪采集规则的兼容性小猪的采集规则处理的对象是“网页模板”,普通的网站一般只用一套模板,这种网页就有规律可循,比如相同模板的列表页只需要制作一条列表采集规则。小结 :? ?网站的发布内容展示在网页上,通过“网页模板”展示出来,软件则是通过对应的“采集规则”来解密出网页的内容,小猪规则相当于是“钥匙”,不同的钥匙打开不同的“网页模板”。4.小猪采集规则的独立性与调用小猪软件采集规则,是互相独立,又互相配合的,并且规则和任务也是独立的。小猪的各个任务会自动调用“已经打钩”的本地规则、内置规则、云规则等,所以制作好规则后,就可以测试采集了,任务会自动调用,无需手工再次选择。5.采集页面深度小猪理论上支持采集支持无限深度,原理是通过不同的规则识别不同的网页模板,也就是抓取不同的页面深度。对于更复杂的需求,还可以通过p语言来实现,比如通过p语言抓取相关的网页页面字符和当前页面字符进行拼接组合。第四节 实战编写小猪规则
有些用户可能比较心急,这一节讲解如何操作,不过我们建议大家有空的话还是看全 五节教程的文字部分,这样能基本掌握小猪规则的制作方法。
小猪规则编写速查表.rar (0 Bytes, 下载次数: 862)
2011-12-19 13:03:56 上传
下载次数: 862
,新手可以参考此表来编写小猪规则。建议按顺序看以下视频教程:
序号 视频教程说明 视频下载地址 本地下载 教程规则下载 1 编辑规则相关界面介绍 点击进入下载 本地下载 2 正文采集规则制作方法 点击进入下载 本地下载 新闻__正文_11111.rar (428 Bytes, 下载次数: 641)
2011-12-19 14:44:17 上传
下载次数: 641 3 列表采集规则制作方法 点击进入下载 本地下载 新闻__列表.rar (481 Bytes, 下载次数: 607)
2011-12-19 14:44:30 上传
下载次数: 607 4 论坛帖子采集规则制作 点击进入下载 本地下载 5 视频采集规则制作(包含采集视频评论) 点击进入下载 本地下载 以下为文字说明和相关注意点:
正文规则制作教程
正文规则是为了采集到 标题、内容(包括图片、附件网址),以及获取正确的翻页网址,便于实时发布。一、在文章页面,CTRL+B 测试获取内容不正确,就需要做正文规则二、右键点“本地规则库”--制作当前网页采集规则编辑正文规则方法如下:
操作顺序 配置名 操作方法和注意点 1 全局区 设置规则名称和规则类型,一般是选择源代码,正文页类型 2 标题 鼠标框选网页上标题区域,右键菜单--内容采集--此处取标题,其他配置名均可以如此操作 3 正文 注意:只有在要采集回复、评论,才需要设置“首帖区域”“单元区域”? ? 4 正文下一页网址 如果有翻页,设置翻页地址,便于软件自动采集文章分页注意:如果是论坛帖子的翻页,需要设置为“下一页网址” 5 识别区 回过头来,用正文的 class属性,设置 识别区—内容必包含 保存规则,打开其他正文页面测试是否获取正常,是否调用到了此正文采集规则。小结:? ? 制作文章类型的正文规则,主要设置“配置名”中的识别区、标题、正文、正文下一页。注意点:识别区务必要设置,识别区的重要性在第二节中有相关说明。
列表规则的制作教程
列表规则起到导航的作用,便于软件抓取到正文网址,采集正文内容。一、打开版块列表页,CTRL+B 测试获取内容不正确,就需要做列表规则此教程中,内置规则能正常识别到列表,只是演示制作方法二、右键点“本地规则库”--制作当前网页采集规
文档评论(0)