开题报告-基于图数据库的电力大数据平台设计与实现.doc

开题报告-基于图数据库的电力大数据平台设计与实现.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
杭州电子科技大学 毕业设计(论文)开题报告 题 目 基于图数据库的电力大数据平台设计与实现 学 院 计算机学院 专 业 软件工程(卓越工程师计划) 姓 名 班 级 学 号 指导教师 一、综述本课题国内外研究动态,说明选题的依据和意义 (一)国内外基于图数据库对电力大数据的研究现状 (1)对于图数据库的研究现状 在之前,传统关系型数据库RDBMS—直占据着数据管理技术的核心地位,但是随着大数据时代的来临,传统关系型数据库RDBMS却暴露出越来越多难以克服的性能问题,包括海量规模数据的高效存储和访问、更高的并发读写以及高可用性和高扩展性等。因此如何组织大数据、处理大数据以及分析大数据间深层次的关系,己成为一个不可忽视的问题。与此同时,NoSQL运动迅速兴起[1]。NoSQL即“Not only SQL”,代表了一类非关系型数据库解决方案,包括对象数据库[2]、文档数据库、键值数据库[3]和图形数据库[4]。同以往数据库管理方案相比,NoSQL非关系型数据库具有得天独厚的优势,包括高性价比、高扩展以及提供相应的容灾能力等[5],更有利于存储和分析大规模的海量数据,吸引了工业界和学术研究领域的广泛关注。 图形数据库是非关系型数据库NoSQL按照数据模型分类中的一个分支体系,通过应用图形存储实体以及实体间的关系信息,为某一图模型问题提供了良好的数据库存储与数据处理解决方案。以最常见的社交网络中人与人的关系信息为例,使用传统关系型数据库RDBMS存储社交网络数据的效果并不理想,难以查询及深度遍历大量复杂且互连接的数据,响应时间缓慢超出预期,而图形数据库的特点恰到好处的填补了这一短板[6]。作为NoSQL的一种,图形数据库很长一段时间都局限于学术与实验室,它利用图的顶点和边来表示要素和要素之间的关系。随着社交网络Facebook、电子商务以及资源检索等领域的发展,急需一种可以处理复杂关联的存储技术,而采用图形数据库组织存储、计算分析挖掘低结构化且互连接的数据则更为有效[7],因此图形数据库得以逐渐从实验室走出,同时反过来也极大地推动了图形数据库的飞速发展。图数据库依托图论为理论基础,描述并存储了图中节点与其之间的关系。目前,国内外基于图论数据挖掘展开的工作分为图的匹配、关键字查询、图的分类、图的聚类和频繁子图挖掘问题等五个方面。 图的匹配即通过研究图与图之间的拓扑结构,从而分析图之间的相似度大小,Conte等在图匹配方面有着突出的贡献;在图形数据库关键字检索方面,一方面是通过研究网络关系图的拓扑关系从而分析检索子图[8],包括双向查询算法和BANKS算法,另一方面则基于索引指导图挖掘,著名的有BLINKS算法;图分类包括有监督分类和无监督分类两种,Boser等基于core进行分类,Horvath等[9]则提出一种基于支持向量机分类的方法;图的聚类算法包括节点和对象两种不同的范围,Aggarwal[10]等则使用文档结构进行聚类;频繁子图挖掘是指在图集合中挖掘公共子结构,常见的频繁子图挖掘算法包括 FSG(Frequent Subgraph Discovery)、FFSM(Fast Frequent Subgraph Minning)和Splat等。同时,为改善图形数据库的性能,相关学者进行了广泛的研究,取得了一些研究成果:N.Mar提出了一种性能优良的存储结构DEX,其利用位图的设计思想,对检索进行优化处理后,能够准确卨效的检索高达10亿级别的数据;Prima针对阁数据库访问节点延迟较大这--问题,设计了一类线上数据隔离模型;Yiping等则基于皮尔森相关系数(Pearson correlation coefficient)方法设计了 CGS(Correelated Graph Search)算法,其优点是提高了图的遍历速度以及稳定性,同时大大减少了检索过程中的服务器压力,减少系统开销。 (2)对于大数据的研究现状 “大数据”这个概念早在上个世纪的1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,就将“大数据”热情地赞颂为“第三次浪潮的华彩乐章” [11]。2008年9月《科学》(Science)杂志发表了一篇文章“BigData: Science in the Petabyte Era”。“大数据”这个词开始被广泛传播。目前国内外的专家学者对大数据只是在数据规模上达成共识:“超大规模”表示的是GB级别的数据,“海量”表示的是TB级的数据,而“大数据”则是PB级别及其以上的数据。但对其的准确定义给出的结论不一[12]。国外除在大数据的概念上的研究外,重点放在技术研究。美国政府六个部门启动的大数据研究计划中,除了国家科学基金会的研究内容提到要“形成一个包括数学、统计基础和计算机算法的独特学科

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档