爬虫开题报告.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、 国内外发展形势 随着数据科学的迅速发展,诸如机器学习,人工智能等新兴技术极大地方便了人 们的生活。 来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多 样性等等都是呈现了大数据不断增长的复杂性。从而,大数据的获取和分析在大数据 领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。 万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时 候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价 值的内容,但是纵然是进化到 21 世纪的人类,依然只有两只手,一双眼,不可能去每 一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以 按照指定规则提取相应内容的程序,这就是爬虫。爬虫本身不区分到底是运行在 windows 还是 Linux ,又或是 OSX,但从业务角度讲,我们把运行在服务端 ( 后台 ) 的, 称之为后台爬虫。而现在,几乎所有的爬虫都是后台爬虫。 而爬虫数据获取的基础, 经过这么多年的发展, 除了面对 surfaceweb(即表层 Web, 由网页沟通,网页之间通过超链接关联)的常用爬虫,各种面对垂直领域和特定主题 的爬虫( focusedcrawler) 成为热点。 二、 项目解决了什么问题及创新点 本项目解决了数据科学所依赖的数据来源的问题,帮助数据科学工作者获取更多 更有价值的数据。同时,本项目聚焦于新浪微博、拉勾网、房天下等各项极有价值的 数据,利用现有技术在项目中实现了免登陆、多目标爬取数据,同时针对爬取的数据 进行了初步的筛选过滤,去掉多余信息,除了可以节省本地空间之外还方便数据科学 工作者对数据进行二次清洗、提炼,从而得到更有价值的信息。本项目还针对爬虫的 作用机制以及设计模式进行了优化, 采用多线程的技术可以明显提高 I/O 操作的速度, 同时因为采用了合适的设计模式,可以及时地将内存中的数据导入到数据库中,极大 地减少了内存资源的占用,使爬虫程序在运行期间,尽可能少地占用计算机资源。 三、 技术路线及执行计划 理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关 系不大,但是,总有相对顺手、简单的。目前来说,大多数爬虫是用后台脚本类语言 写的,其中 python 无疑是用的最多最广的,并且页诞生了很多优秀的库和框架,如 scrapy 、 BeautifulSoup 、 pyquery 、 Mechanize 等。但是一般来说,有哪些信誉好的足球投注网站引擎的爬虫 对爬虫的效率要求更高, 会选用 C#、C++、Java 、Go(适合高并发 ) 。本项目将采用 Python 作为爬虫实现语言对爬虫进行编写,同时辅以相关的功能包以及 C#编写的图形界面。 爬虫的工作流程较为复杂, 需要根据一定的网页分析算法过滤与主题无关的链接, 保留有用的链接并将其放入等待抓取的 URL队列。然后,它将根据一定的有哪些信誉好的足球投注网站策略从 队列中选择下一步要抓取的网页 URL,并重复上述过程, 直到达到系统的某一条件时停 止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立 索引,以便之后的查询和检索;如果有网站不愿本站数据流出,则会针对爬虫特性进 行识别,将爬虫拒之门外;所以一个完整的爬虫一般会包含如下几个模块:网络请求 模块、爬取流程控制模块、内容分析提取模块、反爬虫对策模块(如果需要) 。同时辅 以 C#编写的图形界面,让爬虫变得更加易用,对用户更加友好。

文档评论(0)

q96tcntzow + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档