網络爬虫课程设计文档.docVIP

下载本文档

44
0
约4.82千字
约 6页
2017-01-16 发布于重庆
举报
版权申诉

網络爬虫课程设计文档.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

網络爬虫课程设计文档

网络爬虫网络爬虫是一个自动提取网页的程序，它为有哪些信誉好的足球投注网站引擎从万维网上下载网页，是有哪些信誉好的足球投注网站引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。简单来说，网络爬虫的基本工作流程可以分为如下几步： 1.首先选取一部分精心挑选的种子URL； 2.将这些URL放入待抓取URL队列； 3.从待抓取URL队列中取出待抓取URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。 4.分析已抓取URL队列中的URL，并且将URL放入待抓取URL队列，从而进入下一个循环。对URL的认识爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。因此，准确地理解URL对理解网络爬虫至关重要。 URL：统一资源定位符，是Internet 上描述信息资源的字符串。URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL 的格式由三部分组成：第一部分是协议(或称为服务方式)。第二部分是存有该资源的主机IP地址(有时也包括端口号)。第三部分是主机资源的具体地址，如目录和文件名等。第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。 1.HTTP 协议的URL 示例使用超级文本传输协议HTTP，提供超级文本信息服务的资源。例：/channel/welcome.htm。其计算机域名为。超级文本文件(文件类型为.html)是在目录/channel 下的welcome.htm。这是中国人民日报的一台计算机。例：/talk/talk1.htm。其计算机域名为。超级文本文件(文件类型为.html)是在目录/talk 下的talk1.htm。 2．文件的URL 用URL表示文件时，服务器方式用file表示，后面要有主机IP 地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。例：file:///pub/files/foobar.txt。代表存放在主机上的pub/files/目录下的一个文件，文件名是foobar.txt。例：file:///pub。代表主机上的目录/pub。例：file:///。代表主机的根目录。通过URL抓取网页 1.抓取单个网页所谓网页抓取，就是把URL 地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE 浏览器的功能，把URL 作为HTTP 请求的内容发送到服务器端，然后读取服务器端的响应资源。 Java网页抓取 Java 语言把网络资源看成是一种文件，它对网络资源的访问和对本地文件的访问一样方便。它把请求和响应封装为流。因此我们可以根据相应内容，获得响应流，之后从流中按字节读取数据。例如，.URL 类可以对相应的Web服务器发出请求并且获得响应文档。.URL 类有一个默认的构造函数，使用URL 地址作为参数，构造URL 对象：URL pageURL = new URL(path);接着，可以通过获得的URL对象来取得网络流，进而像操作本地文件一样来操作网络资源：InputStream stream = pageURL.openStream()。 HttpClient Get方法在实际的项目中，网络环境比较复杂。因此，只用包中的API来模拟IE客户端的工作，会产生很大的代码量。需要处理HTTP返回的状态码，设置HTTP代理，处理HTTPS 协议等工作。为了便于应用程序的开发，实际开发时常常使用Apache 的HTTP客户端开源项目——HttpClient。它完全能够处理HTTP 连接中的各种问题，使用起来非常方便。只需在项目中引入HttpClient.jar 包，就可以模拟IE 来获取网页内容。例如： //创建一个客户端，类似于打开一个浏览器 HttpClient httpclient=new HttpClient(); //创建一个get 方法，类似于在浏览器地址栏中输入一个地址 GetMethod getMethod=new GetMethod(); /