面向领域的大数据分析流程模型转换方法.docxVIP

面向领域的大数据分析流程模型转换方法.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? 面向领域的大数据分析流程模型转换方法* ? ? 文必龙 李艳春 (东北石油大学计算机与信息技术学院 大庆 163318) 1 引言 现阶段科学研究发展到被广泛称为“第四范式”的科学大数据阶段[1],科学大数据具有数据密集型范式的特点,它具有数据的不可重复性、数据的高度不确定性、数据的高维特性、数据分析的高度计算复杂性等特征[2]。从数据内容来讲,科学大数据一般表征自然客观对象和变化过程;从数据体量来讲,科学大数据在不同学科中存在较大的差异;从数据增长速率来讲,科学大数据依学科不同其数据增长速率也变化较大;从数据获取手段来讲,科学大数据一般来自观测和实验的记录以及后续加工;从数据分析手段来讲,科学大数据的知识发现一般需要借助科学原理模型。因此,当前大数据分析还面临几方面挑战。 1)分析流程复用性差 同一领域内同类问题反复出现,大数据分析建模过程中要依靠领域知识与专家经验反复迭代试错,但是这类模型却很难被重用,加大了开发成本。 2)分析流程设计复杂 面对不同领域在大数据全生命周期处理的多样化需求,完全依赖数据分析,抛开科学原理模型和领域方法指导很难实现。 3)分析流程执行低效 科学大数据本身固有海量高纬度数据特征,使得通用处理器和单一体系结构的传统分析过程执行效率低下,限制了大数据分析对数据价值的快速获取。 随着大数据分析技术成为当今许多领域进行价值获取的主流方法,如何为大数据分析快捷构建和高效运行提供方法,以及如何建立面向领域的可复用性、结构良好、易于用户使用的大数据分析模型,这己成为当前实现大数据分析方法重用和易用的关键问题。 2 相关工作 传统的数据分析是围绕关系数据库管理系统,衍生出了相关数据分析工具[3]。例如,SPSS Modeler[4]、Matlab Spider[5]、SQL Server Analysis Services[6]、weka[7]和R等都提供了此类工具。它们以关系数据库作为核心数据引擎,提供了计算框架与算法库,但是这类传统的数据分析无法满足科学大数据固有的高维数据特征。首先,面对海量、非结构化或半结构化数据,关系数据库无法高效地存储管理;其次,数据分析工具与数据存储位置的分离使得数据噪声增多,以及数据迁移会消耗过多的时间;最后,传统的数据分析工具在进行大数据分析时,往往采用数据抽样的方式缩减数据体量,数据的抽样通常会导致数据信息量的丢失。 以互联网为媒介的云计算模式和分布式高性能数据处理模式的出现,解决了以数据库为中心的数据分析系统存在的问题。Google提出的分布式文件系统GFS[8]和MapReduce[9]框架为大规模并行数据计算与分析提供了重要的参考。Hadoop通过MapReduce框架和HDFS分布式文件系统使得在成本可控的情况下海量数据分析成为可能。随着Hadoop的出现一系列工具也随之在业界涌现,如文献[10~13]等开展研究的工具扩展了Hadoop的运用场景和应用领域。但是其对数据分析、数据挖掘算法以及可视化支持方面缺乏,使用户在进行大数据分析过程中出现效率低下、大部分时间都花费在重复开发等问题。并且,科学大数据除了数据体量增大带来的分析效率要求的提高外,更重要的是与科学数据分析相伴随的原理模型的复杂性,它导致了科学数据处理分析的计算复杂性,甚至对大数据分析能否提供量化、合理、可行、有价值的信息至关重要[14]。这使得完全依赖数据分析,抛开科学原理与领域方法进行大数据分析是不可行的。 综上所述,大数据分析中除考虑用户构建易用性与执行高效性外,其应用领域是不可忽视的,但目前尚未有行之有效的面向领域的科学大数据分析方法。因此,本文提出一种大数据分析流程建模及实施方法,设计并构建以领域业务为中心、多模型协同的面向领域分析框架,遵循层级建模与模型驱动的思想,降低大数据分析技术在各行各业应用普及的门槛,为面向领域的大数据应用系统的快捷开发和高效运行提供方法支撑。 3 领域业务驱动的大数据分析流程构建 基于大数据分析的解决领域复杂性和执行高效性的需求,提出领域业务驱动的大数据分析流程建模,将大数据分析流程划分为面向领域和面向平台的双层模型,其中面向领域的分析模型是一个逻辑模型,从领域业务角度进行定义,与实现平台无关;面向平台的分析模型是一个物理模型,从计算和执行的角度来定义,与具体实现平台、适合应用的算法和计算模型相关。逻辑模型只有在转变为物理模型后才能执行。 基于面向领域和面向平台的双层模型,大数据分析流程的可结合采用自上而下目标分解的建立方式,分析业务问题的交互与组合关系建立面向领域的分析模型,根据模型映射自动转换为依靠分析模块库和数据资源的面向平台的分析流程实例,大数据分析流程处理框架如图1所示,整体过程以面向用户的角度来讲分为三个阶段,用户层、处理层和执行层,分别对应

文档评论(0)

科技之佳文库 + 关注
官方认证
文档贡献者

科技赋能未来,创新改变生活!

版权声明书
用户编号:8131073104000017
认证主体 重庆有云时代科技有限公司
IP属地上海
统一社会信用代码/组织机构代码
9150010832176858X3

1亿VIP精品文档

相关文档