电子商务数据分析 课件070.数据处理与加工清洗.pptx

电子商务数据分析 课件070.数据处理与加工清洗.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据处理与加工清洗

数据处理数据处理是根据数据分析目的,将收集到的数据,用适当的处理方法进行加工、整理,形成适合数据分析的要求样式,它是数据分析前必不可少的工作,并且在整个数据分析工作量中占据了大部分比例。数据处理包括数据清洗、数据抽取、数据合并、数据计算、数据分组等加工操作。

数据清洗数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序,包括检查数据一致性,处理重复值、无效值和缺失值、错误值等。数据清洗还涉及数据脱敏处理,对涉及隐私及敏感信息的数据,要先行将隐私及敏感数据删除或模糊转化,再交付使用,如客户隐私数据、生意参谋中将订单数转换为订单交易指数等

数据一致性处理通过统计调查收集上来的数据,经常会出现同一字段的数据格式不一致的问题,这会直接影响后续的数据分析,所以必须对数据的格式做出一致性处理

数据脱敏处理

重复值查找排序、筛选条件格式比较函数等方式

缺失值处理缺失值是指数据集中数据不完整或某些属性缺失,缺失值最常见的表现形式就是空值或错误标识符(N/A)缺失值产生主要有机械原因和人为原因,机械原因是由于数据收集或保存失败造成的数据缺失,人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失

缺失值处理

数据错误数据错误的两种常见方式:被调查者输入的选项不符合要求录入错误

数据加工由于现有的数据字段不能满足我们的数据分析要求,所以要对现有字段进行抽取、计算或转换,形成需要的一系列新数据字段数据加工类型:数据抽取、数据计算、数据分组、数据转换等

数据抽取

数据抽取数据抽取是指利用原数据清单中某些字段的部分信息得到一个新字段。常用的数据抽取函数有left()、right()、mid()、year()、month()、day()、weekday()。

数据抽取

数据抽取-字段匹配字段匹配就是将原数据清单中没有但其他数据清单中有的字段匹配过来。例如,全校名单工作表是某校2015级全体学生的基本信息,四级名单工作表是2015级学生中报考了英语四级的学生名单,先需要将身份证信息匹配到四级名单学生中全校名单工作表四级名单工作表

数据抽取-字段匹配vlookup函数的参数设置匹配结果应用vlookup函数进行数据匹配处理

数据计算

数据计算

数据转换转置对数据进行类型转换,如小数取整,文本转换成数值等转换数据表行列转置处理

QA

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档