- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
工业互联网数据分析技术蓝卓数字科技有限公司
项目二准备工业互联网数据本章概要:任务1接入工业数据任务2预处理工业数据知识课堂
任务2预处理工业数据大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或者异构的数据库、文件系统、服务接口等,容易受到噪声数据、数据值缺失、数据冲突等影响。因此,需要对先收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性、价值性。
任务2预处理工业数据大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或者异构的数据库、文件系统、服务接口等,容易受到噪声数据、数据值缺失、数据冲突等影响。因此,需要对先收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性、价值性。任务2-1任务描述本任务要求能够了解数据清洗能够了解数据集成;能够了解数据规约;能够了解数据转换通过知识课堂加深了解管理工业数据平台
任务2预处理工业数据任务2-2任务实施大数据预处理环节主要包括:数据清理数据集成数据转换数据归约该环节可以大大提高大数据的总体质量,是大数据过程质量的体现。
任务2预处理工业数据通过数据预处理方法,可以使缺失的数据完整,将错误的数据纠正、多余的数据去除,进而将所需的数据挑选出来,并进行数据集成。数据预处理方法主要包括:数据清洗、数据集成、数据变换和数据规约。
任务2预处理工业数据数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与目的无关的数据,处理缺失值、异常值等。
任务2预处理工业数据数据清洗01缺失值处理的方法一般有三种:删除记录、数据插补、不处理。02直接删除会浪费和丢弃大量隐藏的信息,可能会影响到分析结果的客观性和正确性。
任务2预处理工业数据数据清洗常用的数据插补方法有:均值、中位数、众数插补;用固定值,如官方出具的一些标准数据;最近邻插补;回归插补,如建立模型来拟合已有数据;插值法,如拉格朗日插值法、牛顿插值法、分段插值法等,其中拉格朗日法在python的Scipy库中有现成的函数可以调用,顿插值法需要自己编写代码。
任务2预处理工业数据数据清洗异常值处理的方法主要有:①删除记录;②将其视为缺失值,这样可以利用已有的信息来填补;③用平均值修正;④不处理,直接在有异常值的数据集上建模。
感谢聆听,敬请指正
文档评论(0)