- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
成绩:
成绩:
总 结 报 告
课程名称: Python 程序设计
任课教师:
姓 名:
专 业: 计算机科学与技术
班 级:
学 号:
计算机科学与技术学院
2018 年 6 月 22 日
目录
绪论 3
功能要求 3
系统架构 3
完成目标 3
研究意义 3
网络爬虫 scrapy 的工作原理 4
网络爬虫 4
工作原理 4
工作流程及数据抓取过程分析 4
关于 Scrapy 框架 5
Scrapy 分析与使用 5
Scrapy 爬虫的运行过程 6
整体流程 6
界面设计 7
登录操作 7
管理员界面 7
用户管理 8
基于 Scrapy 框架的爬虫的具体实现 17
界面开发方法 17
开发环境的安装 17
Scrapy 的运行环境 17
安装 webDriver 环境 17
功能分析 18
登录操作 18
分类标签 19
有哪些信誉好的足球投注网站功能 21
工程结构 22
工程整体结构 22
3.4.1 工程文件作用 23
4.总结 25
功能要求:
1.绪论
爬取豆瓣的不同标签:爬虫爬取,剧情、喜剧、动作、爱情、科幻、悬疑、惊悚、恐怖、犯罪、同性的标签下,电影的名字,上映时间,评分,导演等信息对数据进行统计分析,并得到对应统计分析结论。
分析爬取的数据中悬疑类、剧情类、恐怖类的电影所占比例是多少,并将结果用条形图展示;或看过某个电影的人还会看哪些其他电影。可利用 pandas 库处理分析数据。用 matplotlib 绘制分析结果图形
系统架构:
设置不同身份的用户,分为管理员和普通用户
管理员:查看系统的日志
普通用户:分类查看电影数据,进行数据的可视化
数据库中存储用户的登录表,以及用户有哪些信誉好的足球投注网站的信息
系统日志记录用户的操作,如时间,用户名以及相应的操作
爬虫后台采用 scrapy 框架实现,增加爬虫的可扩展性
完成目标:
数据库编程:
创建数据库:存储爬取的数据;
创建表,根据以上需求描述创建表及约束、索引、视图;
创建用户,管理员、普通用户,不同人员有不同的访问权限。
网络编程:开发相应的后台爬取程序,如爬取数据、储存数据等。
GUI 编程:开发前台 GUI 界面,便于用户操作。
文件操作:在系统的开发中,在合适的功能实现的时候,对文件进行写和读
多线程:在爬虫中,利用多线程优化
研究意义
深入学习 Python 和 Scrapy 开源框架,自己动手实现有良好扩展性的网络爬虫,提高学习新技术的能力。
利用软件工程学的思想,探索简单易扩展的设计方案,让我们的爬虫系统做到功能完善,扩展性
2.网络爬虫 scrapy 的工作原理
网络爬虫
工作原理
网络爬虫是一段爬取网页内容的程序或者脚本。首先,爬虫将请求访间某一站
点或者网页,若能鯧访闻则自动下载保存其中的内容。然后通过爬虫的解斬模块, 解析得到已爬取页面中的其他网页链接,并将这些链接作为之后爬取的目标。得益
于 HTML 页面的结构化设计,爬虫在分析网贝结构时可以完全不依赖于用户手动干预就可以安现自动运行一。
工作流程及数据抓取过程分析
与普通用户使用网页润览器时浏览器的工作原理类似,爬虫工作抓取网贝的过程也是在于对 Request 和 Response 的处理。以湖览器治榮网页贝的过程为例,当用户
打开某个网页时,调览器將发起对目标网址所在服务器的请求 Request 服务器则响
应该请求,将网贝以特定格式 Response 返回给浏览器,湖览器解析 Response 井把网页显示到贝国上四。
通用爬虫框架如下图 1 所示。爬虫设计者在开发爬虫时,往往根景爬取目标
的特性,选取革点中一些具有价值的网页 URL 作为开始运行时的初始目标赋予爬虫
的待爬取以列。爬虫开始运行之后將调度这些 URL,解析并通过 DNS 服务器获得对应的 P
地址”。
图 1. 通用爬虫框架
关于 Scrapy 框架
Scrapy 分析与使用
下图 2 概括了 Scrapy 的整体架构,一共由 8 个部分组成,主要包括了以下组件:
ScrapyEngine: 为爬虫的引擎驱动部分,负责处理数据流以及触发事务。
Scheduler: 接收 Engine 发送过来的 Request,调度至处理队列,并在 Engine 再次请求时返回。可以类比为以 URL 为元素的优先队列,决定了爬虫下一个将要抓取的目标或者网页是什么,同时该部分还要负责 URL 去重。
Downloader:当爬虫爬取某个网页时,该部分将此网页内容下载至本机,并返回给爬虫。该部分以异步方式工作,所以在多线程模型中将发挥很大的作用。
Spiders: 整个爬虫项目中的核心部分,用于从特定的网页结构中提取日标
信息,即所谓的实体(Item)
您可能关注的文档
- 百度产品图谱.pdf
- 部编版七年级语文下册《木兰诗》PPT课件(共43张).pptx
- 煤矿综采工艺.ppt-有哪些信誉好的足球投注网站.pptx
- 颈椎病临床诊疗指南.docx
- 桩基础课程设计作业.docx
- 家庭医生签约服务手册.docx
- SCR反应器设计毕业设计(常州大学2015).docx
- 《激光原理》全套教学课件.pdf
- 幸福广东指标体系.docx
- 《酶学方法》丛书概览.pptx
- 中医内科学概论.pptx
- 基于区块链的高中英语教育平台数据共享与激励机制探索教学研究课题报告.docx
- 基于职业认知的高中生生涯规划指导课程设计与实施教学研究课题报告.docx
- 小学生字迷课件.pptx
- 高中劳动教育智慧云平台应用研究:以跨学科融合为切入点教学研究课题报告.docx
- 基于AR人工智能的初中历史知识建构教学策略研究教学研究课题报告.docx
- 高中物理教学中学生实验探究能力与科学素养的培养研究教学研究课题报告.docx
- 5 《湿地生态修复对生物多样性保护的生态修复技术市场研究创新》教学研究课题报告.docx
- 乡土历史资源在初中历史教学中的教学设计优化研究教学研究课题报告.docx
- 《数字艺术展览互动体验设计中的沉浸式体验策略研究》教学研究课题报告.docx
文档评论(0)