- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 第二章:数据预处理 本章内容 2.0 认识数据 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成和变换 2.4 数据归约 基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法 2.0 认识数据 洞察数据有助于数据预处理与挖掘 数据由什么类型的属性或字段组成 属性具有何种类型的属性值 属性是离散的还是连续的 数据分布特性 数据可视化 2.0 认识数据 – 数据对象与属性类型 数据对象:数据集由数据对象组成,一个数据对象代表一个实体 顾客、商品、患者 又称样本、实例、数据点、元组等 属性:表示数据对象的一个特征 维、特征、变量 一个给定对象的一组属性称作属性向量(特征向量) 属性的类型由该属性可能具有的值的集合决定 2.0 认识数据 – 数据对象与属性类型 枚举类型(nominal attribute):分类类型 属性值域是一个由符号、事物构成的有限集合 头发颜色、婚姻状态、职业 不具备有意义的序、不是定量的 可用众数(mode)度量中心趋势 二元属性(binary attribute):布尔属性 只有两个类别与状态:0与1, true与false 对称的:两个状态分布或重要性相同。性别 非对称的:两个状态分布或重要性不是相同的。HIV检验。 2.0 认识数据 – 数据对象与属性类型 序数类型(ordinal attribute) 属性值之间存在有意义的序,相继值之间差是定性的 大中小、职位、军衔 可通过把数值量的值域划分为有限个有序列性得到序数类型 可用众数与中位数表示中心趋势 2.0 认识数据 – 数据对象与属性类型 数值属性(numeric attribute) 可用整数或实数度量 区间标度(interval-scaled)属性:用相同的单位尺度度量。 可用众数、中位数、均值表示 比例标度(ratio-scaled)属性:可用倍数表示。 可用众数、中位数、均值表示 2.0 认识数据 – 数据对象与属性类型 离散属性:具有有限个或无限可数个值 连续属性:如果属性不是离散的,则它是连续的,用实数表示 2.0 认识数据 – 数据基本统计描述 动机:为了更好的理解数据 获得数据的总体印象 识别数据的典型特征 凸显噪声或离群点 度量数据的中心趋势 均值、中位数、众数(模) 度量数据的离散程度 四分位数、四分位数极差、方差等 2.0 认识数据 – 数据基本统计描述 算术平均值 加权算术平均 截断均值(trimmed mean):去掉高、低极端值得到的均值 e.g. 计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响 中位数:有序集的中间值或者中间两个值平均 整体度量;但是可以通过插值法计算近似值 当观测数据数量很大,中位数计算开销很大 2.0 认识数据 – 数据基本统计描述 众数(Mode,模):集合中出现频率最高的值 单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数 2.0 认识数据 – 数据基本统计描述 对称与正倾斜、负倾斜数据的中位数、均值和众数 2.0 认识数据 – 数据基本统计描述 评估数值数据散布或发散的度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差 极差(range):数据集的最大值和最小值之差 百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x 中位数就是第50个百分位数 四分位数:Q1 (25th percentile), Q3 (75th percentile) 中间四分位数极差(IQR): IQR = Q3 – Q1 孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 例子 60th Percentile I = (60/100)*51 =30.6 30.6 不是整数,选择整数31,故数值为 66.1 33th Percentile I =(33/100)*51=16.83 16.83 不是整数,选择整数17,故数值为 63.6 Q1:13th—62.9 ; Q3: 38th—67.2 Q3-Q1=4.3 (62.9-1.5*4.3, 67.2+1.5*4.3)=(56.45,73.65) The OUTLIER is 52.7 L
您可能关注的文档
- 《一元二次方程》复习课件1课程.ppt
- 《原电池》课件新人教版选修4课程.ppt
- 《张衡传》上课用课程.ppt
- 第08章原子吸收光谱法介绍.ppt
- 《走进化学世界》优教复习课件课程.ppt
- 【2015社工师培训中级综合能力】第一章社会工作(中级)课程.ppt
- 第8章TGDTGDTADSC介绍.ppt
- 【步步高】2015届高考化学二轮复习(广东专用)专题突破课件:专题一物质的组成、分类及变化课程.ppt
- 【步步高】2016版高考物理(全国通用)第2部分专题1应考策略方法五、电场课程.pptx
- 【测控设计】2015-2016学年高一化学人教版必修一课件:3.1.3物质的量在化学方程式计算中的应用课程.pptx
最近下载
- 2023年广东省普通高中学业水平第一次合格性考试物理试题(原卷版).docx VIP
- Let’s learn信息技术与学科融合教学设计.doc VIP
- 急诊急救知识试题(含答案).docx VIP
- 智慧城市生命线工程综合安全风险监测预警平台解决方案.ppt VIP
- 国家重点研发计划项目综合绩效自评价报告..docx
- 石油化工行业知识产权保护与创新研究.pptx VIP
- 电大《西方行政学说》形考任务2.4答案.pdf VIP
- 2026年咨询工程师考试题库【完整版】.docx VIP
- 2023年7月广东省普通高中学业水平合格性考试物理试题(原卷版).docx VIP
- 中国高等教育学会外国留学生教育管理分会科研课题成果.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)