Robots协议:友好沟通工具而不是竞争武器.docVIP

Robots协议:友好沟通工具而不是竞争武器.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Robots协议:友好沟通工具而不是竞争武器   Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过Robots协议告诉有哪些信誉好的足球投注网站引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和有哪些信誉好的足球投注网站引擎爬虫的沟通方式,用来指导有哪些信誉好的足球投注网站引擎更好地抓取网站内容,而不是作为有哪些信誉好的足球投注网站引擎之间互相限制和不正当竞争的工具。   在2012年由中国互联网协会举行的《互联网有哪些信誉好的足球投注网站引擎服务自律公约》签约仪式上,百度、即刻有哪些信誉好的足球投注网站、奇虎360、搜狗等12家有哪些信誉好的足球投注网站引擎服务企业签署公约,共同承诺:互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制有哪些信誉好的足球投注网站引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。   Robots协议初衷:保护网站内部信息,保护服务器流量平衡   在互联网发展早期,有哪些信誉好的足球投注网站引擎还没有为网站带来明显的商业价值,有哪些信誉好的足球投注网站引擎爬虫也没有受到网站的普遍欢迎,主要有如下原因:   一、快速抓取导致网站过载,影响网站正常运行;   二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;   三、抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;   四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。   Robots协议正是针对有哪些信誉好的足球投注网站引擎爬虫的这些弊端而设计的约束措施。1994年,Robots协议由荷兰籍网络工程师Martijn Koster首次提出,Martijn Koster也因此被誉为Robots之父。之后直到2008年6月,Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准,各大有哪些信誉好的足球投注网站引擎公司开始对Robots协议进行商业研究,各种公司标准的Robots协议开始产生。   对于网站来说,设置Robots协议主要有三个目的,首先是保护网站内部信息不被有哪些信誉好的足球投注网站引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。   但通常来说,用户在利用有哪些信誉好的足球投注网站引擎检索到内容网站时,对内容网站并不构成伤害,反而会为内容网站带来更多用户。绝大多数网站非但不会使用Robots协议禁止有哪些信誉好的足球投注网站引擎抓取,反而希望自己的网站内容能够更快、更全面地被有哪些信誉好的足球投注网站引擎收录,并展现在有哪些信誉好的足球投注网站结果的前列,由此也催生出有哪些信誉好的足球投注网站引擎竞价排名、SEO(有哪些信誉好的足球投注网站结果优化)等商业模式。   Robots协议使用现状:绝大多数网站对有哪些信誉好的足球投注网站引擎一视同仁   Robots协议也就是robots.txt文本文件,当一个有哪些信誉好的足球投注网站蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,有哪些信誉好的足球投注网站爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,有哪些信誉好的足球投注网站爬虫将会抓取网站上所有没有被口令保护的页面。   商业网站大多会在robots.txt中提供SiteMap文件链接地址,为搜素引擎指路,方便爬虫更好地抓取网站内容。此外,网站也可以使用robots.txt屏蔽网站中一些比较大的文件,如:视频、图片等,节省服务器带宽,也可以屏蔽网站的一些死链接。   Robots协议的写法包括两类:   一类是对所有的网络爬虫一视同仁,使用UserAgent * 这样的写法,明确写明不允许抓取的目录,这也是国际上商业网站Robots协议的主流用法,在Alexa的网站排行榜上选取前100个有Robots协议文件的国外网站,其中有85个站点使用了Original Robots协议规范,即不设置任何黑白名单,对所有爬虫一视同仁,或只针对部分爬虫做细微的规则指导,但是不禁止任何爬虫抓取;   另一类是如Facebook、LinkedIn、Twitter这种采用黑白名单机制写robots.txt的网站,在robots.txt中针对每种网络爬虫规定哪些目录不能抓取,LinkedIn在robots.txt文件中还列出了申请将网络爬虫加入白名单中的联系方法。Alexa上有Robots协议文件的TOP100网站中,有15个网站在robots.txt中设置了黑白名单,但只有一个是对通用有哪些信誉好的足球投注网站引擎的爬虫进行了黑名单设置,其他都是针对一些非通用有哪些信誉好的足球投注网站引擎的特殊爬虫设置黑名单。   Robots协议的误区:并非真正意义的协议   Robots协议虽然名为协议,但只是行业惯用的说法,它并非真正意义上的协议,也不受任何机构保护。   Robots之父Martijn Koster对Robots协议的性质进行了如下阐述:Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,

文档评论(0)

3va3x66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档