单元4 数据采集与清洗_2.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

单元4数据采集与清洗

数据采集

教学目标

(1)学习数据采集等相关知识内容;

(2)熟悉大数据的定义、大数据的基本特征;

(3)数据采集的相关技术、工具或产品;

(4)熟悉数据采集的来源和采集方法。

重点、难点

(1)了解数据采集的来源和采集的方法;

(2)学会数据采集平台的搭建。

复习回顾

大数据(BigData):指无法在一定时间范围内用常规软件工

具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更

强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化

的信息资产。

知识准备

ETL工具负责将分布的、异构数据源中的不同种类和结构的数据如

文本数据、关系数据以及图片、视频等非结构化数据等抽取到临时中间层

后进行清洗、转换、分类、集成,最后加载到对应的数据存储系统如数据

仓库中,成为联机分析处理、数据挖掘的基础。

根据MapReduce产生数据的应用系统分类,大数据的采集主要有四种来源:

(1)管理信息系统

管理信息系统是指企业、机关内部的信息系统,如事务处理系统、办公自动化

系统,主要用于经营和管理,为特定用户的工作和业务提供支持。

(2)Web信息系统

web信息系统包括互联网上的各种信息系统,如社交网站、社会媒体、系

统引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服

务。

(3)物理信息系统

物理信息系统是指关于各种物理对象和物理过程的信息系统,如实时监

控、实时检测,主要用于生产调度、过程控制、现场指挥、环境保护等。

(4)科学实验系统

科学实验系统实际上也属于物理信息系统,但其实验环境是预先设定

的,主要用于研究和学术,数据是有选择的、可控的,有时可能是人工模

拟生成的仿真数据。数据往往表现为具有不同形式的数据。

(1)系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,

如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等这些工

具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

(2)网络数据采集方法:对非结构化数据

的采集

网络数据采集是指通过网络爬虫或网

站公开API等方式从网站上获取数据信息,

该方法可以将非结构化数据从网页中抽取

出来,将其存储为统一的本地数据文件,

并以结构化的方式存储。它支持图片、音

频、视频等文件或附件的采集,附件与正

文可以自动关联。

(3)其他数据采集方法

对于企业生产经营数据或学科研究数

据等必威体育官网网址性要求较高的数据,可以通过与

企业、研究机构合作或授权的方式,使用

特定系统接口等相关方式采集数据。

THANKS!

数据预处理技术

教学目标

(1)学习数据预处理技术等相关知识内容,

(2)学会数据清洗的主要任务和常用方法;

(3)数据集成的主要任务和常用方法;

(4)数据变换的主要任务和常用方法;

(5)数据规约的主要任务和常用方法。

重点、难点

(1)了解原始数据存在的主要问题。

(2)明白数据预处理的作用和工作任务。

(3)学会数据处理工具平台的搭建。

知识准备

数据预处理是指在对数据进行数据挖掘的主要处理以前,先对原

始数据进行必要的清理、集成、转换、离散、归约、特征选择和提

取等一系列处理工作,达到挖掘算法进行知识获取研究所要求的最低

规范和标准。

(1)不完整性是指数据记录中可能会出现有些数据属性的值

丢失或不确定的情况,还有可能缺失必需的数据。

这是由于系统设计时存在的缺陷或者使用过程中一些人为因素造

成的,如有些数据缺失只是因为输入时认为是不重要的,相关数据

没有记录可能是由于理解错误,或者因为设备故障,与其他记录不

一致的数据可能已经删除,历史记录或修改的数据可能被忽略等。

(2)含噪声是指数据具有不正确的属性值,包含错误或存在偏

离期望的离群值(指与其他数值比较差异较大的值)。

产生的原因很多,例如收集数据的设备可能出故障,人或计算机

的错误可能在数

文档评论(0)

vermonth155-2娟 + 关注
实名认证
文档贡献者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档