分析Robots.txt规则误区百度和Googlerobots工具使用.docVIP

分析Robots.txt规则误区百度和Googlerobots工具使用.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分析Robots.txt规则误区百度和Googlerobots工具使用

街舞论坛网 九江论坛网   前段时间写了篇robots.txt文件怎么写,但是通过实际观察,有些朋友对于robots.txt文件的规则还是有一定的误区。   比如有很多人这样写: User-agent: * Allow: / Disallow: /mulu/   不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。   表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。   但是有哪些信誉好的足球投注网站引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。   正确的规则应该是: User-agent: * Disallow: /mulu/ Allow: /   也就是先执行禁止命令,再执行允许命令,这样就不会失效了。   另外对于百度蜘蛛来说,还有一个容易犯的错误,那就是Disallow命令和Allow命令之后要以斜杠/开头,所以有些人???样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。   有时候我们写这些规则可能会有一些没有注意到的问题,现在可以通过百度站长工具()和Google站长工具来测试。   相对来说百度站长工具robots工具相对简陋一些: 百度Robots工具只能检测每一行命令是否符合语法规则,但是不检测实际效果和抓取逻辑规则。   相对来说Google的Robots工具好用很多,如图:  在谷歌站长工具里的名称是抓取工具的权限,并报告Google抓取网站页面的时候被拦截了多少个网址。 还可以在线测试Robots修改后的效果,当然这里的修改只是测试用,如果没有问题了,可以生成robots.txt文件,或者把命令代码复制到robots.txt文本文档中,上传到网站根目录。   Google的测试跟百度有很大的区别, HYPERLINK 乐行仕它可以让你输入某一个或者某些网址,测试Google蜘蛛是否抓取这些网址。   测试结果是这些网址被Google蜘蛛抓取的情况,这个测试对于Robots文件对某些特定url的规则是否有效。   而两个工具结合起来当然更好了,这下应该彻底明白robots应该怎么写了吧。   转载请注明来自乐行仕皮鞋,本文地址:   除非注明,逍遥博客文章均为原创,转载请注明出处和链接!

文档评论(0)

haocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档