模块3 探索性数据分析《R语言与统计计算》教学课件.pptxVIP

模块3 探索性数据分析《R语言与统计计算》教学课件.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《R语言与统计计算》?精品课件合集 3 探索性数据分析 3.1 数据的整理与显示3.2 数据分布的描述与分析目 录CONTENTS 013.1 数据的整 理与显示 3.1.1 分类和顺序数据的整理与显示1. 分类数据的整理与显示分类数据(categorical data)是 离散数据(discrete data),分类属 性具有有限个(也可能很多)不同值, 值之间无序,比如地理位置、工作类别 和商品类型。(1)频数(frequency),也称次数,是落在某一特定类别或组中的数据个数。(2)比例(proportion),也称为构成比,是一个总体(或样本)中各个部分的数值占全部数值的 比重,通常用于反映总体的构成或结构。(3)百分比(Percentage)。(4)比率(ration)是各不同类别的数量的比值。 3.1.1 分类和顺序数据的整理与显示例 为研究某城市广告市场的状况, 一家广告公司随机抽取200人就广告问 题做了问卷调查,其中的一个问题是: “您最关心下列哪一类广告?”商品广告;服务广告;金融广告;房地产广告;招生招聘广告;其他广告。这里的变量就是“广告类别”, 不同类型的广告就是变量值。调查数据 经分类整理后形成频数分布表,生成的 广告类型饼形图和柱形图。广告类型人数/人比例频率/%商品广告服务广告金融广告房地产广告招生招聘广告其 他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合 计2001100某城市居民关注广告类型的频数分布表某城市居民关注广告类型的频数分布表广告类型柱形图 3.1.1 分类和顺序数据的整理与显示2. 顺序数据的整理与显示顺序数据的整理和显示方法也 可采用分类数据整理与显示方法,还可以使用累积频数和累积频率。累积频数就是将各类别的频数逐级累加起来。其方法有两种:一种是从类别顺序的开始一方向类别顺 序的最后一方累加频数,称为向上累积。另一种是从 类别顺序的最后一方向类别顺序的开始一方累加频数, 称为向下累积。累积频率就是将各类别的百分比逐级累加起来, 也有向上累积和向下累积两种方法。(1)累积频数分 布或频率图根据累积频数或累积频率绘制。(2)环形 图与饼形图类似,但又有区别。 3.1.2 数值型数据的整理和显示(1)单变量值分组 是把一个变量值作为一组, 这种分组通常是适合离散 变量的,而且在变量值较 少的情况下使用。(2)在连续变量或 变量值较多的情况下,通 常采用组距分组。它是将 全部变量值依次划分为若 干区间,并将这一区间的 变量值作为一组。1. 数据的分组数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同 的组别,分组后的数据称为分组数据, 再计算出各组中数据出现的频数,就 形成了一张频数分布表。数据分组的方法有单变量值分组 和组距分组两种。 3.1.2 数值型数据的整理和显示010203(1)分组数据:直方图和折线图。① 直方图( histogram)又称柱状图、 质量分布图,是一种统计 报告图,由一系列高度不 等的纵向条纹或线段表示 频数分布的情况。② 折线 图也称为频数多边形图, 是在直方图的基础上,把 直方图顶部的中点用直线 连接起来,再把原来的直 方图抹掉就是折线图。(2)未分组数据:茎叶图和箱线图。① 茎叶图(stem-and-leaf plots) 由“茎”和“叶”两部分 构成,其图形是由数字组 成 的 。 ② 箱 线 图 ( boxplot)。(3)时间序列数据:线图。时序图就是一个平 面二维坐标图,通常横轴 表示时间,纵轴表示序列 取值。时序图是在平面坐 标上用折线表现数量变化 特征和规律的统计图,主 要用于显示时间序列数据, 以反映事物发展变化的规 律和趋势。2. 数值型数据的显示 3.1.2 数值型数据的整理和显示例1 调查100名健康大学生的血清总蛋白含量(g/L),数据文件xqzdb.txt如下:74.3 78.8 68.8 78.0 70.4 80.5 69.7 71.2 73.5 80.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72

文档评论(0)

臂老师 + 关注
实名认证
文档贡献者

教师资格证持证人

臂老师,祝您一臂之力,成功(公)上岸!

领域认证该用户于2023年09月27日上传了教师资格证

1亿VIP精品文档

相关文档