- 1、本文档共21页,其中可免费阅读13页,需付费50金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据清洗和预处理方法
1.数据清洗
采集到的数据通常包含噪声和错误,称为“脏数据”,需要进行数据清洗。经过数据清洗,将存在错误的、缺失的,处理为正确、完整的可分析数据。数据清洗方法主要包括去除重复数据、填补缺失数据、处理异常数据等。见表2-9。
表2-9数据清洗的方法
清洗
内容说明
去除重复数据
通过比较数据集内的记录,识别并删除重复的记录,确保每条记录的唯一性
处理缺失值
对于数据集中的缺失值,可以选择多种处理方式。常见的包括删除含有缺失值的记录,或使用均值、中位数、众数等统计值进行填充,也可以使用基于模型(如回归模型)预测的值进行填补
错误数据修正
识别并修正数据中的错误,如拼写错误、逻
您可能关注的文档
最近下载
- (正式版)D-L∕T 860.74-2014 电力自动化通信网络和系统 第7-4部分:基本通信结构 兼容逻辑节点类和数据类.docx VIP
- 钢格栅板及配套件国家标准.pdf
- 防火墙运维.docx VIP
- T_BPMA 0010—2021_现制现售净水机卫生管理规范.pdf VIP
- 有害物质识别与评估控制程序.doc VIP
- 胃脘痛•胃痞病(胃息肉)中医临床路径标准住院表单.docx VIP
- JAVA应用系统开发规范概要1.doc VIP
- 临床诊疗指南(肿瘤科分册).doc
- 剑桥少儿英语一级上unit15_a_happy_new_year.ppt VIP
- 2024年05月广东惠州市生态环境局博罗分局和博罗县污染防治攻坚战总指挥部办公室公开招聘编外人员笔试历年典型题及考点剖析附带答案含详解.docx VIP
文档评论(0)