Python课程设计报告(豆瓣电影数据可视化).docxVIP

Python课程设计报告(豆瓣电影数据可视化).docx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
成绩: 成绩: 总 结 报 告 课程名称: Python 程序设计 任课教师: 姓 名: 专 业: 计算机科学与技术 班 级: 学 号: 计算机科学与技术学院 2018 年 6 月 22 日 目录 绪论 3 功能要求 3 系统架构 3 完成目标 3 研究意义 3 网络爬虫 scrapy 的工作原理 4 网络爬虫 4 工作原理 4 工作流程及数据抓取过程分析 4 关于 Scrapy 框架 5 Scrapy 分析与使用 5 Scrapy 爬虫的运行过程 6 整体流程 6 界面设计 7 登录操作 7 管理员界面 7 用户管理 8 基于 Scrapy 框架的爬虫的具体实现 17 界面开发方法 17 开发环境的安装 17 Scrapy 的运行环境 17 安装 webDriver 环境 17 功能分析 18 登录操作 18 分类标签 19 有哪些信誉好的足球投注网站功能 21 工程结构 22 工程整体结构 22 3.4.1 工程文件作用 23 4.总结 25 功能要求: 1.绪论 爬取豆瓣的不同标签:爬虫爬取,剧情、喜剧、动作、爱情、科幻、悬疑、惊悚、恐怖、犯罪、同性的标签下,电影的名字,上映时间,评分,导演等信息对数据进行统计分析,并得到对应统计分析结论。 分析爬取的数据中悬疑类、剧情类、恐怖类的电影所占比例是多少,并将结果用条形图展示;或看过某个电影的人还会看哪些其他电影。可利用 pandas 库处理分析数据。用 matplotlib 绘制分析结果图形 系统架构: 设置不同身份的用户,分为管理员和普通用户 管理员:查看系统的日志 普通用户:分类查看电影数据,进行数据的可视化 数据库中存储用户的登录表,以及用户有哪些信誉好的足球投注网站的信息 系统日志记录用户的操作,如时间,用户名以及相应的操作 爬虫后台采用 scrapy 框架实现,增加爬虫的可扩展性 完成目标: 数据库编程: 创建数据库:存储爬取的数据; 创建表,根据以上需求描述创建表及约束、索引、视图; 创建用户,管理员、普通用户,不同人员有不同的访问权限。 网络编程:开发相应的后台爬取程序,如爬取数据、储存数据等。 GUI 编程:开发前台 GUI 界面,便于用户操作。 文件操作:在系统的开发中,在合适的功能实现的时候,对文件进行写和读 多线程:在爬虫中,利用多线程优化 研究意义 深入学习 Python 和 Scrapy 开源框架,自己动手实现有良好扩展性的网络爬虫,提高学习新技术的能力。 利用软件工程学的思想,探索简单易扩展的设计方案,让我们的爬虫系统做到功能完善,扩展性 2.网络爬虫 scrapy 的工作原理 网络爬虫 工作原理 网络爬虫是一段爬取网页内容的程序或者脚本。首先,爬虫将请求访间某一站 点或者网页,若能鯧访闻则自动下载保存其中的内容。然后通过爬虫的解斬模块, 解析得到已爬取页面中的其他网页链接,并将这些链接作为之后爬取的目标。得益 于 HTML 页面的结构化设计,爬虫在分析网贝结构时可以完全不依赖于用户手动干预就可以安现自动运行一。 工作流程及数据抓取过程分析 与普通用户使用网页润览器时浏览器的工作原理类似,爬虫工作抓取网贝的过程也是在于对 Request 和 Response 的处理。以湖览器治榮网页贝的过程为例,当用户 打开某个网页时,调览器將发起对目标网址所在服务器的请求 Request 服务器则响 应该请求,将网贝以特定格式 Response 返回给浏览器,湖览器解析 Response 井把网页显示到贝国上四。 通用爬虫框架如下图 1 所示。爬虫设计者在开发爬虫时,往往根景爬取目标 的特性,选取革点中一些具有价值的网页 URL 作为开始运行时的初始目标赋予爬虫 的待爬取以列。爬虫开始运行之后將调度这些 URL,解析并通过 DNS 服务器获得对应的 P 地址”。 图 1. 通用爬虫框架 关于 Scrapy 框架 Scrapy 分析与使用 下图 2 概括了 Scrapy 的整体架构,一共由 8 个部分组成,主要包括了以下组件: ScrapyEngine: 为爬虫的引擎驱动部分,负责处理数据流以及触发事务。 Scheduler: 接收 Engine 发送过来的 Request,调度至处理队列,并在 Engine 再次请求时返回。可以类比为以 URL 为元素的优先队列,决定了爬虫下一个将要抓取的目标或者网页是什么,同时该部分还要负责 URL 去重。 Downloader:当爬虫爬取某个网页时,该部分将此网页内容下载至本机,并返回给爬虫。该部分以异步方式工作,所以在多线程模型中将发挥很大的作用。 Spiders: 整个爬虫项目中的核心部分,用于从特定的网页结构中提取日标 信息,即所谓的实体(Item)

文档评论(0)

文档爱好者 + 关注
实名认证
文档贡献者

文档爱好者~

1亿VIP精品文档

相关文档