网络爬虫的设计与实现本科毕业论文.doc

下载文档 降价啦

5
0
约13.72万字
约 148页
2019-05-17 发布于河南
举报
版权申诉
保障服务

网络爬虫的设计与实现本科毕业论文.doc

1、本文档共148页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ABSTRACT 摘要 Ⅱ Ⅰ 摘要网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为有哪些信誉好的足球投注网站引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站下的特定信息，如招聘信息，租房信息等。本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题：为何使用广度优先的爬行策略，以及如何实现广度优先爬行；为何要使用多线程，以及如何实现多线程；系统实现过程中的数据存储；网页信息解析等。通过实现这一爬虫程序，可以搜集某一站点的URLs，并将搜集到的URLs存入数据库。【关键字】网络爬虫；JAVA；广度优先；多线程。 ABSTRACT PAGE II ABSTRACT SPIDER is a program which can auto collect informations from internet. SPIDER can collect data for search engines, also can be a Directional information collector, collects specifically informations from some web sites, such as HR informations, house rent informations. In this paper, use JAVA implements a breadth-first algorithm multi-thread SPDIER. This paper expatiates some major problems of SPIDER: why to use breadth-first crawling strategy, and how to implement breadth-first crawling; why to use multi-threading, and how to implement multi-thread; data structure; HTML code parse. etc. This SPIDER can collect URLs from one web site, and store URLs into database. 【KEY WORD】SPIDER; JAVA; Breadth First Search; multi-threads. 毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：　　　　　日　期：　　　　　指导教师签名：　　　　　日　　期：　　　　　使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：　　　　　日　期：　　　　　目录 TOC \o 1-3 \h \z \u 第一章引言 h 1 第二章相关技术介绍 h 2 2.1 JAVA线程 h 2 2.1.1 线程概述 h 2 2.1.2 JAVA线程模型 h 2 2.1.3 创建线程 h 3 2.1.4 JAVA中的线程的生命周期 h 4 2.1.5 JAVA线程的结束方式 h 4 2.1.6 多线程同步 h 5 2.2 URL消重 h 5 2.2.1 URL消重的意义 h 5 2.2.2 网络爬虫URL去重储存库设计 h 5 2.2.3 LRU算法实现URL消重 h 7 2.3 URL类访问网络 h 8 2.4　爬行策略浅析 h 8 2.4.1宽度或深度优先有哪些信誉好的足球投注网站策略 h 8 2.4.2 聚焦有哪些信誉好的足球投注网站策略 h 9 2.4.3基于内容评价的有哪些信誉好的足球投注网站策略 h 9 2.4.4 基于链接结构评价的有哪些信誉好的足球投注网站策略 h 10 2.4.5 基于巩固学习的聚焦