自己动手写网络爬虫01章.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 你知道百度、Google是如何获取数以亿计的网页并且实时更新的吗?你知道在有哪些信誉好的足球投注网站引擎领域人们常说的Spider是什么吗?本章将全面介绍网络爬虫的方方面面。读完之后,你将完全有能力自己写一个网络爬虫,随意抓取互联网上任何感兴趣的东西。 既然百度、Google这些有哪些信誉好的足球投注网站引擎巨头已经帮我们抓取了互联网上的大部分信息,为什么还要自己写爬虫呢?因为深入整合信息的需求是广泛存在的。在企业中,爬虫抓取下来的信息可以作为数据仓库多维展现的数据源,也可以作为数据挖掘的来源。甚至有人为了炒股,专门抓取股票信息。既然从美国中情局到普通老百姓都需要,那还等什么,让我们快开始吧。 1.1 抓 取 网 页 网络爬虫的基本操作是抓取网页。那么如何才能随心所欲地获得自己想要的页面?这一节将从URL开始讲起,然后告诉大家如何抓取网页,并给出一个使用Java语言抓取网页的例子。最后,要讲一讲抓取过程中的一个重要问题:如何处理HTTP状态码。 1.1.1 深入理解URL 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如,你打开一个浏览器,输入猎兔有哪些信誉好的足球投注网站网站的地址,如图1.1所示。 图1.1 使用浏览器浏览网页 “打开”网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。更进一步,可以通过浏览器端查看“抓取”过来的文件源代码。选择“查看”|“源文件”命令,就会出现从服务器上“抓取”下来的文件的源代码,如图1.2所示。 在上面的例子中,我们在浏览器的地址栏中输入的字符串叫做URL。那么,什么是URL呢?直观地讲,URL就是在浏览器端输入的这个字符串。下面我们深入介绍有关URL的知识。 在理解URL之前,首先要理解URI的概念。什么是URI?Web上每种资源 HTML文档、图像、视频片段、程序等由一个通用资源标志符(Universal Resource IdentifierURI)进行定位。URI通常由三部分组成:访问资源的命名机制存放资源的主机名资源自身的名称,由路径表示。/html/html40/ 图1.2 浏览器端源代码 我们可以这样解释它:这是一个可通过HTTP协议访问的资源,位于主机上,通过路径/html/html40”访问。是Uniform Resource Loca的缩写,译为统一资源定位符通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组成: 第一部分是协议(或称为服务方式) 第二部分是存有该资源的主机IP地址(有时也包括端口号) 第三部分是主机资源的具体地址如目录和文件名等。第一部分和第二部分用符号隔开,第二部分和第三部分用/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。HTTP协议的URL示例 使用超级文本传输协议HTTP,提供超级文本信息服务的资源例:cn/channel/welcome.htm 其计算机域名为。超级文本文件(文件类型为html)是在目录/channel下的welcome.htm。这是中国人民日报的一台计算机。例:/talk/talk1.htm 其计算机域名为。超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但/”符号不能省略。 例:file:///pub/files/foobar.txt 代表存放主机上的pub/files/目录下的一个文件,文件名是foobar.txt。 例:file:///pub 代表主机上的目录/pub。 例:file:///代表主机的根目录。.URL类有一个默认的构造函数,使用URL地址作为参数,构造URL对象: URL pageURL = new URL(path); 接着,可以通过获得的URL对象来取得网络流,进而像操作本地文件一样来操作网络资源: InputStream stream = pageURL.openStream(); 在实际的项目中,网络环境比较复杂,因此,只用包中的API来模拟IE客户端的工作,代码量非常大。需要处理HTTP返回的状态码,设置HTTP代理,处理HTTPS协议等工作。为了便于应用程序的开发,实际开发时常常使用Apache的HTTP客户端开源项

文档评论(0)

精品天地 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档