吴喜之统计局目前的日常工作和统计建模的区别和联系.PDFVIP

下载本文档

16
0
约2千字
约 2页
2017-07-24 发布于江苏
举报
版权申诉

吴喜之统计局目前的日常工作和统计建模的区别和联系.PDF

1、本文档共2页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

吴喜之统计局目前的日常工作和统计建模的区别和联系

吴喜之：统计局目前的日常工作和统计建模的区别和联系统计局目前的很大一部分日常工作是收集数据，其中包括抽样调查数据、各单位上报数据和各种普查数据。而对于这些数据的汇总和粗加工则是统计局另外一个主要工作，这部分工作主要是描述性的，是根据不同的需要，按照不同的变量组合得到各种总和、均值、比例等等。这一类工作可类比于微软的 Access 的功能。上述这些工作基本上没有使用任何统计模型。此外，人们还用这些汇总数据，或者各地方的汇总数据，计算一些统计量，诸如GDP、Gini 指数、CPI 等等，或者使用一些诸如线性回归等模型，做出一些描述和预测等等。这些关于数据的工作主要得到的是一些加工过的宏观信息，这些信息发布出来供上级机关及各个领域参考。显然，在原始数据得到之后，统计局对外公布的是加工过的数据。这些加工后的数据简单明了，可以满足只想大概了解经济或社会情况的各阶层的一般需要。但是，和原始数据相比，这些加工后的数据失去了绝大部分信息，而且基本上没有多少再加工的价值。再加工则有可能得到错误的结论。比如，利用国家统计局公布的31 个省市自治区的数据，许多人进行回归（比如GDP 和人口、税收和GDP 等等），并且得到一些模型，并且通过t 检验或F 检验的p 值对模型进行评价等等。但这些作法是完全没有意义的。因为这些省区市的数据本身是一些汇总，根本不是样本数据，更谈不上是独立同分布。用这些数据，可以做描述，也可以画图形，但由于说不出总体和样本，就谈不上那些检验和模型评价。难道有人会说全国数据是总体，这些省市自治区的数据是样本吗？再比如，有人可能会认为，各个县市作为独立同分布的样本点，进行诸如GDP 和人口的回归总可以了吧？但如果进行简单的最小二乘回归的话，统计上还是不合理的，因为总体可能不是一个，这些样本点可能不独立。因此，宏观数据损失了很大量的信息，利用宏观数据进行建模很容易产生误导。那么，什么样的数据是可以用来建模的呢？首先是第一手原始数据。当然，为一个目的采集的原始数据很可能不充分，这就需要利用其它数据库的数据，使得我们有尽可能充分的数据为我们的需求服务。比如，国家统计局的及各地统计局的年度数据多是以行政单位为基本的数据采集对象。大多属于人口和经济数据。这些数据是静态的、孤立的，没有描述各地之间的物资、产品、人员、货币之间的流动，而这些流动是研究经济所必需的。实际上，不知道这些流动，根本就无法较准确地算出任何一个地方的 GDP 。按理说，算人均收入应该包括所有的在当地住过的人（无论有没有户口和工作），但有多少地方是这样做的呢？统计局的数据也没有包括各地方的地理和相互交通信息（只有境内公路、铁路里程），似乎这些地方都是完全封闭的“独立王国”，和其它地方根本没有联系。数据的这种孤立性不利于建立合适的模型。因此，应该根据需要收集包括交通运输、地理、气候等各方面的数据作为统计局数据的补充。当然，原始数据的收集不在我们统计建模的范围，但能够从各个渠道找到尽可能充分的相关数据则是建模者责无旁贷的。原始的普查数据是一个很好的可利用资源。普查数据（除了个人信息之外）在发达国家一般都是完全公开的，人们可以任意使用。我不知道我们的建模者能否有使用这个数据库的权限和计算机资源，不敢妄谈。有了合适的数据之后，才谈得上建模。统计建模的主要目的是预测和描述，有大量的经典的统计模型可以使用，也有大量的数据挖掘方法可以实行。建模者可以不受约束地根据需要任意采用合适的方法。许多人是为了实施某种方法来找数据，但我们希望建模者能够根据目的来寻找数据和方法。为了一个目标，一般都有多种方法可选择，根据目的来选择模型和方法也是建模者必需学会的能力。如果自己选择建模题目的话，则应该选择最有挑战的、广大百姓关心的课题，而不是简单回答诸如“某地的人均收入比上一年增加多少百分点”一类的与“政绩”有关的问题。人们可能关心的是影响房价的根本因素和房价的趋势，各个不同阶层就业情况的预测，下一年的国家和地方税收的预测，医药花费占一个老百姓收入的多少及如何分布的，各种类型商品的物价究竟和什么有关及如何相关，如何对物价和人民币汇率做出预测，交通拥堵的根本原因和趋势等等。而统计建模就是要通过数据，令人信服地做出有意义的结论。统计局的主要功能是给各级政府和社会公众提供可靠而有用的信息。凡是人民关心的信息，统计局都有责任来提供。希望这次建模大赛，为今后各级统计局的工作从内容上和能力上都有所启发和推动。（作者单位：中国人民大学）