- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo * Python语言程序设计 Company Logo 第3章 数据清洗与特征预处理 数据清洗 在实际的数据集中,通常存在着缺失值、异常值等噪声数据。数据清洗包括缺失值处理、异常数据检测与清除,重复值处理等。 缺失值 采集数据时,由于各种因素导致部分样本的数据特性缺失。缺失值通常以空白,NaN或其他占位符编码。缺失值处理一般采用如下方法:删除法和数据填充。 删除法:如果某个属性的缺失值过多,可以直接删除整个属性。 数据填充:对属性缺失的样本采用其他值,如前后值、中位数、均值进行替代。 sklearn中 Imputer 类或SimpleImputer类处理缺失值。imputer在preprocessing模块,而SimpleImputer在sklearn.impute模块中。 异常值 “异常数据”又称为离群点,具有与其他数据的显著不同。通常检测方法如下所示: 1)基于邻近度的方法 通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。 2)基于密度的方法 仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。 3)基于聚类的方法 聚类分析用于发现局部强相关的对象。 一般采用Z标准化得到的阈值作为判断标准,超过阈值则为异常。 重复值 重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的处理,可以使用Pandas中的相关方法,如下所示: duplicated() 用于判断重复数据记录 drop_duplicates() 用于删除重复记录 特征预处理 当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量级,容易影响或支配目标结果。特征预处理就是通过转换函数将这些特征数据转换成适合算法模型的过程。 方法含义 方法名 归一化 preprocessing. MinMaxScaler 标准化 preprocessing. StandardScaler 鲁棒化 Preprocessing. RobustScaler 规范化 当数据不符合正态分布、异常值较少的时候,为了让特征具有同等重要性,可以采用规范化 (normalization)将不同规格的数据转换到同一个规格,即变换到固定的最小最大值的区间。 Sklearn提供MinMaxScaler方法进行规范化,具体语法如下所示: MinMaxScaler(feature_range=(0,1)) 规范化 from sklearn.preprocessing import MinMaxScaler def Normalization(): #实例化一个转换器类 Normalization = MinMaxScaler(feature_range=(0,1)) #范围设置为0~1之间 data=[[90,2,10,40],[60,4,15,45],[75,3,13,46]] print(data) #调用fit_transform data_Normal = Normalization.fit_transform(data) print(data_Normal) return None if __name__==__main__: Normalization() 【程序运行结果】 [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]] [[1. 0. 0. 0. ] [0. 1. 1. 0 [0.5 0.5 0.6
您可能关注的文档
最近下载
- 北京市西城区2025-2026学年高一上学期期末考试 物理含答案 .pdf VIP
- 微生物发酵机制.pptx VIP
- 施工场地已具备施工条件的证明.doc VIP
- 2025年福州城市建设投资集团公司治理结构组织架构和部门职能.docx
- GM_T 0027-2014 清晰版 智能密码钥匙技术规范.docx VIP
- 2025年轮机英语问答题答案全 .pdf VIP
- 微生物代谢产物发酵.pptx VIP
- 新教材-普通高中教科书物理教师用书选择性必修1 电子版.pdf VIP
- 砖厂突发环境事件应急预案.pdf VIP
- 高中政治部编版必修四《哲学与文化》全册知识点填空练习(分单元课时编排)(附参考答案)(2023秋必威体育精装版版).pdf VIP
文档评论(0)