毕业设计（论文）-网络爬虫设计精选.doc

下载文档 降价啦

113
0
约2.53万字
约 43页
2018-03-06 发布于贵州
举报
版权申诉
保障服务

毕业设计（论文）-网络爬虫设计精选.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

毕业设计（论文）-网络爬虫设计精选

摘要近年来，随着互联网的发展，如何高效地从互联网上获取所需的信息，成为无数个互联网公司竞相研究的新方向。在这个大数据，谁能获取更多有用的数据，谁就有机会获取更大的利益，而从互联网上获取数据最常用的手段就是网爬虫。网络爬虫又被称为做网络蜘蛛、网络机器人，它是一种能够根据给定按照一定的规则，自动搜集互联网数据信息的程序。本课题实现一个基于Python的网络爬虫程序系统。在本论文中，主要阐述了，实现网络爬虫的过程中的一些主要问题，例如：如何用Python模拟登录，如何使用正则表达式匹配字符串获取信息，如何使用MySQL存储数据等。通过这个爬虫程序可以搜集豆瓣网站的一些数据信息，例如：网站首页的各种类型的动态消息，当前用户所关注的用户的信息等。关键字：网络爬虫；Python；MySQL；正则表达式 ABSTRACT In recent years, with the development of the Internet, how to efficiently get the information you need from the Internet has been the new directions in research for numerous Internet companies. Web crawler is also known as spiders, web robots. It is a program which can automatically collect Web data information according to some given rules and URL. This paper implements a Python-based web crawler system. In this paper, the main part elaborated some issues during the progress of implementing the web crawler, such as how to simulate login by Python, how to match information by Regular Expressions and how to storage data to MySQL database. You can collect some useful data from the site of douban, such as various types of dynamic information of douban home page, user information of concern to the current user and so on. Keywords: Web crawler; Python; MySQL; Regular Expressions 目录 1 1.1 课题背景 1 1.2 网络爬虫的概述 1 1.2.1 网络爬虫的由来 1 1.2.2 网络爬虫的原理 2 1.2.3 网络爬虫的分类 2 1.2.4 网络爬虫的发展趋势 2 第二章相关技术介绍 4 2.1 Python 4 2.2 模拟登录 4 2.3 正则表达式 5 2.4 MySQL 5 第三章系统分析 7 3.1 需求分析 7 3.2 可行性分析 8 第四章详细设计 10 4.1 开发环境与组织结构 10 4.2 系统流程设计 11 4.3 数据库设计 12 4.3.1 数据库概念设计 12 4.3.2 创建数据库表 13 第五章系统实现 14 5.1 系统入口及出口模块 14 5.1.1 系统入口 14 5.1.2 系统出口 14 5.2 公共工具模块 14 5.2.1 代码处理工具 14 5.2.2 标签处理工具 15 5.2.3 正则匹配工具 15 5.2.4 文件写入工具 16 5.3 模拟登录模块 16 5.3.1 登录模拟 16 5.3.2 验证码验证 17 5.4 页面抓取模块 18 5.4.1 首页及翻页抓取 18 5.4.2 用户信息页面抓取 19 5.5 数据爬取模块 20 5.5.1 动态（Dynamic）爬取 20 5.5.2 关注信息爬取 20 5.6 数据存储模块 21 5.6.1 写入文件 21 5.6.2 下载图片 21 5.6.3 存入数据库 21 第六章系统测试 23 6.1 模拟登录测试 23 6.2 页面抓取测试 24 6.3 数据爬取存储测试 25 6.4 图片下载相关测试 29 6.4.1 图片下载测试 29 6.4.2 描述存储测试 31 6.5 返回Change测试 32 6.6 退出