- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. . 一、计算题 (共4题,100分) 1、通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。 二手车抽样 - 预处理.csv 收集的数据包含: 变量名 代表含义 数据类型 备注 yuanjia 原价 连续变量 汽车原价 baojia 报价 连续变量 汽车报价 licheng 里程 连续变量 累计里程数(单位:万公里) pailiang 排量.L. 连续变量 发动机单位时间内释放的能量 mali 最大马力.Ps. 连续变量 最大动力输出 changshang 厂商 离散变量 十一分类——排名前十的厂商分别用1-10表示,以及前十以外的其他水平 cheshen_type 车身结构-车类型 离散变量 四分类——“SUV”、“两厢”、“三厢”、“MPV” pengzhuang 排除重大碰撞 离散变量 排除重大碰撞(0)存在重大碰撞(1) waiguan_xiufu 外观修复检查 离散变量 排除外观修复(0)存在外观修复(1) waiguan_quexian 外观缺陷检查 离散变量 排除外观缺陷(0)存在外观缺陷(1) neishi_quexian 内饰缺陷检查 离散变量 排除内饰缺陷(0)存在内饰缺陷(1) shangpaishijian 上牌时间 连续变量 与2017年2月之间的时间差(单位:月) 对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。 答案解析: 因变量采用车辆报价数据,自变量选择除车辆报价数据之外的其他变量,进行线性回归分析可以看到删除了三个变量,R方和调整R方都接近1,模型拟合度很好。由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验,因此需要将这三个变量删除后再做线性回归分析,可得:? ? ? Y=1.1036-0.0646shangpaishijian-0.1064licheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuang1+0.7581tianchuan2+0.3974daocheyingxiang-0.5061GPS-0.2864waiguan_xiufu+0.5156yuanjia+0.1665paifang-0.0199changshang 模型拟合效果很好,且通过了F检验和t检验,(常数项的t检验可以不通过)可以根据此模型对二手车进行价格评估 2、利用Apriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为2,置信度为0.7) 若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。 答案解析: 先将给定的数据整理成datahoop关联分析可识别的格式,导入datahoop平台,对变量牛肉、鸡肉、牛奶、奶酪、靴子、衣服进行关联分析。设置最小支持度为2/7=0.286,最小置信度为0,可以得到频繁项集(删除重复)。设置最小支持数为2/7=0.286、最小置信度=0.7,可以得到提升度1的有效强关联规则(删除单项) 解答:首先对原数据进行预处理至 然后再处理至 导入datahoop平台,设置支持度为0.286,置信度为0 删除重复项 一项频繁项集: (e)、(a)、(d)、(b)、(c) 二项频繁项集: (a,e)、(d,e)、(b,e) 再将支持度和置信度的值分别设置成0.286和0.7,导入datahoop平台 二项的有效强关联规则: ae e a d e b e 三项的强关联规则: (a,d) e (d,e) a (a,b) e 从上面数据可以看出牛肉和鸡肉等肉食产品可以放在一起,方便客户选择,牛奶和奶酪则要放在附近的走道旁,让需要的顾客更方便拿取 3、以下数据是31个省市各行业的工资情况,各行业工资难免相关,因此,请先进行降维处理再进行聚类分析。 降维、聚类.xls 答案解析: 分析数据发现无缺失值,且不需要进行其他处理。本案例采用k-means算法进行聚类,因此还需考虑异常值和共线性。由于数据量太少,单独一个数据也可能是一个特殊的类,因此这里不做异常值处理。由相关系数矩阵分析发现变量之间存在共线性,所以不能直接进行聚类,接下来用主成分分析对变量进行降维处理。 设置主成分个数为2时发现累计贡献率为0.9557,效果很好,可以用PC1和PC2进行聚类分析。(这里PC1和PC2是由标准化后的变量求得的,很小,且没有量纲差距,所以聚类分析时不再进行标准化)。接下来用k-means算法对PC1和PC2进行聚类分析,分别选3,4,5个类别进行聚类,发现聚成三类时效果最好。
您可能关注的文档
最近下载
- “一带一路”倡议在国际制度层面的支撑与基础.docx VIP
- 上海新天地调研报告.pptx VIP
- 必威体育精装版统编版一年级语文上册《口耳目手足》精品教学课件.pptx VIP
- 2024年05月黑龙江省齐齐哈尔市自然资源局所属事业单位2024年公开选调4名工作人员笔试笔试历年典型考题及考点研判与答案解析.docx VIP
- 降压启动教学课件.pptx VIP
- 城市轨道交通信号基础课件 -计轴+应答器.ppt VIP
- 212页-【低空经济】低空应急防灾体系建设方案.pdf
- 基于PLC的机械臂控制系统设计与实现.doc VIP
- 日本“都市再生”的发展沿革、主体制度与实践模式研究_张朝辉.doc VIP
- 感统训练手册(3-13岁儿童适用).docx VIP
有哪些信誉好的足球投注网站
文档评论(0)