- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第一章数据的收集与抽样;《统计学》;1.1总体与样本
1.2抽样方法在大数据时代的应用;统计学的研究对象是数据,但是研究的目的绝不只是手上的数据,而是希望理解产生数据的运行规则。
现代统计学的很多理论都是基于概率论来描述产生数据的那个未知世界。
总而言之,统计学通过研究所能观察到的个体数据来达到解释总体特征的目的。;1.1.1数据
1.1.2抽样方法;1.1.1数据
这个时代深深地和数据(Data)联系在了一起,似乎每个人都在谈论数据。那么什么是数据呢?
数据可以是若干个数字、可以是一张表格、可以是一段书面文字或者语音、也可以是几张图片或者一段视频。
在这个世界里面,数据呈现出了丰富多彩的形态。在一个特定研究里面收集到的数据集合,我们又称之为数据集(Dataset)。;数据集:
在做审计的时候,审计人员可能会随机抽出一些财务报表出来审核,这些抽取出来???所有财务报表自然就是这次审计的一个数据集。
某条光伏产品的生产线上,工人不停通过观察摄像头拍摄得到的产品图片来确认光伏面板是否存在缺陷,那么这些光伏面板的图片所组成的集合就是所要分析的数据集。;数据相关的概念:
数据的采集对象在统计学里面会被称作元素(Element);
元素的某一个特征则被称为一个变量(Variable);
在一次研究中,某个元素上所采集变量的取值汇在一起被称为一个观察值(Observation)。;假设客户拿了下图的八张图片过来,并且告诉数据分析人员这些图片来自于同一个字母。客户希望搞清楚真实的字母到底是什么。
;当拿到了该数据集之后,数据分析人员掌握的实际数据是8张图片,需要分析的元素是字母,且这批观察值来自于26个字母中的某一个字母而非多个字母。
从图片上看来,所有的观察值只是某个字母同一部位的不同字体所形成的图片,因此对于数据分析人员来说,实际上数据蕴含的有用信息(Information)非常有限。
客户和数据分析人员在数据和信息上的认知显然存在着差别,然而这恰恰是现实中经常碰到的情况。越多的数据并不必然意味着会有越多的有用信息可以加以利用!;先验(Prior)知识会告诉我们,能够形成这些图片的字母有四个:B、D、P、R(这里允许8张图片只展现字母的一部分),而从这8个观察值中想要100%确定是哪个字母根本不可能。;对于数据分析人员而言,理解这一点并不困难,可是客户往往不能明白自己的数据集蕴含的信息并不能满足他的分析需求,甚至可能会质疑统计学是不是能帮助他解决问题。
因此,数据分析人员能够较早地参与到数据获取的过程中,将会有效提高数据的质量(即提高数据集中蕴含的有用信息),从而使得客户的需求得到更好的满足。
比如说,合理的抽样方法(Samplingmethod)就非常重要;1.1.2抽样方法
总体(Population):指的是我们研究中感兴趣的所有元素的集合。
比如说,我们希望了解太湖的水质污染情况,那么我们研究的总体就是整个太湖,显然把整个太湖蕴含的数据信息全部提取出来并不可行。;样本(Sample):从总体里面采集出来的部分个体形成的集合。
当总体是整个太湖时,为了分析水质而从太湖里面提取来的一定量的水就是样本,而这个提取的过程就是一种抽样。
当然如何去提取就会涉及到设计方案的问题。如果所设计的抽样方案不当,那么可能会出现取样总体(Sampledpopulation)与目标总体(Targetpopulation)不一致的情况,这样抽取的数据很有可能带来结论性的谬误。;第一章数据的收集与抽样;我们希望了解某个地区的空气污染状况,显然我们的目标总体就是自然状况下该地区的空气。
然而有些地方可能为了将公布的污染指数降低,会刻意在空气监测站附近通过洒水等方式净化附近的空气,从而使得监测站的空气样本实际上是从净化之后的空气中抽取的,而取样总体也变成了净化后的空气。
这样就使得取样总体与目标总体出现了偏差,因此结论也就可能不正确。;在做统计分析的时候,无论是进行试验设计还是观察性研究,其实都是在分析样本数据,并基于样本数据对总体的特征进行统计推断(Statisticalinference);
试验设计(Experimentaldesign):统计学家通过一些设计方案来主动从总体中抽取样本数据;
观察性研究(Observationalstudy):在已经生成的数据集中按照某种准则抽取部分或者全部样本数据进行分析。;?;我们可以使用R的sample函数来实现简单随机抽样。比如说,我们想从{1,2,…,10}中可重复地随机取出5个数,则可以使用以下代码:
##[1]10101097
;如果想不重复地随机取出5个数,则可以执行:
##[1]726104;1.1.2.2系统随机抽样
系
您可能关注的文档
- 人民大2024《人工智能与Python程序设计》课件(教材配套版)第1章-绪论.pdf
- 人民大2024《人工智能与Python程序设计》课件(教材配套版)第5章-Python面向对象编程.pdf
- 人民大2024《人工智能与Python程序设计》课件(教材配套版)第12章-PyTorch基础-1.pdf
- 外教社2024全新版大学进阶英语系列:视听说教程(第二版) 第2册 PPT课件(试用版)Unit 03.pptx
- 外教社2024全新版大学进阶英语系列:视听说教程(第二版) 第2册 PPT课件(试用版)Unit 02.pptx
- 人民大2024上海财大版《统计学》PPTChapter5 假设检验.pptx
- 人民大2024上海财大版《统计学》PPTChapter8 线性回归分析.pptx
- 人民大2024上海财大版《统计学》PPTChapter2 数据的整理与可视化.pptx
- 人民大2024上海财大版《统计学》PPTChapter4 参数估计.pptx
- 高教社2024创新创业通论(第三版)教学课件第五章.pptx
最近下载
- 再保险电子教案省公开课一等奖全国示范课微课金奖PPT课件.pptx
- 江苏省政府采购评审专家考试题库.docx VIP
- 2024届高考英语二轮专题复习与测试专题六读后续写课件(共94张PPT).pptx
- 酒店运营管理(北京联合大学)中国大学MOOC慕课章节测验答案(课程ID:1206458820).pdf
- 小塞尔采蓝莓儿童故事绘本PPT课件.ppt VIP
- 《百草枯中毒》ppt课件.pptx
- 一年级奥数教材详细版.doc
- 专题04 一次函数中的特殊平行四边形存在性问题(原卷版)-2024年常考压轴题攻略(9年级上册人教版).pdf
- 关于江苏省政府采购评审专家.doc VIP
- Unit 5 Lesson 3 At the zoo 课件 七年级英语上册冀教版(2024).pptx VIP
文档评论(0)