大数据分析技术框架.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

5.3大数据分析

5.3.1大数据分析目标

数据成为一种资源,这种观点已经渗透到社会各行业和政府职能部门。以政府主导的各种数据资源共享平台逐步开放,针对数据资源的分析,抢占数据背后的价值正成为新的制高点。这种新型资源被当作“未来的新石油”正被深度挖掘与分析,其挖掘与分析的主要目标有以下几种情况:

①知识获取和趋势预测,即利用大数据分析挖掘出事物发展规律或隐藏的知识,准确地对某些事物发展进行预测或进行决策,如Google公司的流感暴发趋势预测股票行情等。

②个性化特征挖掘,即通过长时间观察、多维度的数据聚集,深度分析出用户行为规律和偏好。基于此用户可获得个性化的服务、企业能够实现精准推送,如电商平台为用户提供的产品推送等。

③信息过滤,即实现去伪存真的分析目标。网络平台接入便利化,信息传播速度极快,利用网络传播虚假信息所带来的危害是巨大的。大数据来源广泛、呈多样性特征,基于大数据分析在一定程度上可以实现信息过滤,如社交点评类网站Yelp利用大数据分析进行信息过滤、

Yahoo等进行垃圾邮件过滤。

5.3.2大数据分析技术框架

大数据环境由于分析对象的复杂性,对大数据分析技术要求更高,涉及众多技术和学科,是一个综合复杂的分析处理过程。大数据分析一般可以包括数据预处理、数据存储、数据分析等环节。

1.数据预处理

大数据时代数据以自动产生为主,数据来源呈现多样化,包括事务型数据、文本、图像、视频和网页等各种结构化、非结构化和半结构化数据类型。数据的多源性导致大数据集成时是先有数据后有模式,而传统事务型数据处理流程是先设计模式后根据模式获取数据,这可能存在多种模式来描述相同数据集,甚至是相互矛盾的模式。同时数据在产生过程中由于时间、环境、设备和传输等因素的影响,所采集数据呈现动态特点、低价值密度、数据不完整、可用性不强等问题。因此,大数据在分析之前先要进行数据预处理。

数据预处理主要目标是消除数据中存在的错误、数据项缺失、噪声和不一致等问题,提高分析数据的质量,保证数据分析效率。数据质量涉及因素较多,一般可以通过准确性、完整性、一致性、时效性和可信性等方面进行衡量。数据收集时由于设备使用问题出现故障,数据收集后需要通过传输介质进行转移和后期处理,这些因素都可能导致数据出现错误,影响数据的准确性。数据的修改和完善未及时保存更新,甚至由于人为因素出现数据缺失现象,这些会使得收集的数据呈现出非完整性。由于时间变化数据的含义和理解会出现偏差,这是导致数据出现不一致的关键因素。数据源源不断产生,数据当中的价值信息会随时间变化出现贬值现象,这对于大数据分析时要求数据具备时效性,能够完全反映出当时的实际情况。可信性是指获得的数据是可信赖的,这样数据分析结构才会真实靠。分析的数据不满足上述几个特性时,被称为脏数据(dirtydata),基于脏数据进行分析可能会陷入混乱状态,得到错误的结论。

针对脏数据的表现形式,一般数据预处理主要任务表现为填写缺失值、平滑噪声数据、识别或删除离群点等。面对缺失值问题可以采用信息忽略、人工填写缺失值、全局常量填充、用属性的均值或者中位数、用相同类的属性均值或中位数代替和使用最可能的值填充等方法,这些方法各有优缺点。在大数据环境中数据收集具有连续性和无限性,上述方法在大数据环境下进行缺失值处理面临较多挑战。噪声是由测量变量的随机误差或方差引起的,是一个无法避免的问题。噪声是无法完全消失的,一般情况只能是采用技术手段对噪声信息进行平滑,降低噪声对数据分析的影响。目前,针对噪声处理常用方法有分箱(binning)、回归及聚类等。分箱是通过考察数据的“近邻”来平滑有序数据,这些有序数据被分到相同箱中,然后用箱的均值、中位数和箱边界值来代替原来值。回归是通过函数拟合数据的方法来光滑数据,常见的线性回归方法其本质是通过拟合两属性之间的“最优”直线,使用一个属性可以预测另外盘值,聚类是迎过“護”的概念,利用族中心来替换属性,实现光滑处理。同时聚类也可以用子离群点的分析,其实现原理是基于“物以类聚,人以群居”的哲学观点。

大数据预处理是大数据分析的第一步,直接决定后续大数据分析结果的质量和可靠性。自于大数据所处环境的复杂性,大数据预处理技术仍有许多待解决的问题。

2.数据存储

完成数据预处理后所得数据一般是较干净的数据资源。对于实时性要求较高的场合,如智能监控,适合用流式处理模型直接在干净的数据上进行分析。为便于多次使用,支持后继深度分析挖掘,干净的数据资源需要保存。大数据量大、多源、类型复杂,传统关系数据库存储不再有效。为提高数据吞吐量、降低存储成本,增强数据分析效率,目前大数据分析系统均采用分布式存储架构来存储大数据对象。一个完整的数据存储系统通常包括3个方面:文件系统数据库系统、查询优化。

(1)文件系统

文件系统作为存储

您可能关注的文档

文档评论(0)

vermonth134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档