- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SPSS的聚类分析应用_吕卫平.pdf
福 建 电 脑
UJIAN COMPUTER
F
基于SPSS的聚类分析应用
吕卫平,张晓梅
(龙岩学院数 学与计算机科学学院 福建 龙岩 364000)
【摘 要】:利用 SPSS 的聚类分析功能对全 国 31 个省市的交通事故情况进行分类 ,选取其 中的发
生数 、死亡数 、受伤人数 、直接财产损失四个指标进行分析研究,比较分析后根据所给 出数据对各地 区
交通情况进行分类,以便给交通管理部门制定政策措施给 出参考意见。
【关键字】:聚类分析;K-Means 聚类;交通情况
1绪论 该命令,也可对聚类过程设置各种参数进行人为的干
[5]
聚类分析是直接比较各事物之间的性质,将性质 预 。
相近的归位一类,将事物差别较大的归于不同类的分 进行快速样本聚类首先要选择用于聚类分析的
析技术,它是数据分析中的一种重要技术,它的应用 变量和类数。参与聚类分析的变量必须是数值型变
[1-3]
极为广泛 。许多领域中都会涉及聚类分析方法的应 量,且至少要有一个。为了清楚地表明各观测量最后
用与研究工作。例如:在科学数据探测、信息检索、文 聚到哪一类,还应该指定一个表明观测量特征的变量
本挖掘、空间数据库分析、Web 数据分析、医学诊断、 作为标识变量,例如编号、姓名之类的变量。聚类数必
[4]
生物学等 方面的数据挖掘应用软件中,聚类分析技 须大于等于2 ,但聚类数不能大于数据文件中的观测
术都起着重要作用。在商业领域,聚类可以帮助市场 量数。如果选择了n 个数值型变量参与聚类分析,最
分析人员从消费者数据库中分出不同的消费群体来, 后要求聚类数为k。那么可以由系统首先选择个观测
并且概括出每一类消费者的消费模式或者说习惯,发 量(也可以由用户指定)作为聚类的种子,n 个变量组
现不同类型的客户群。聚类还可以用来从地理数据库 成n 维空间。每个观测量在n 维空间中是个点。k 个事
中识别出具有相似土地用途的区域;可以从保险公司 先指定的观测量就是k 个聚类中心点,也称为初始类
的数据库中发现汽车保险中具有较高索赔概率的群 中心。按照距这几个类中心的距离最小原则把观测量
体;还可以从一个城市的房地产信息数据库中,根据 分派到各类中心所在的类中;形成第一次迭代形成的
户型、房价及地理位置将房地产分成不同的类等。而 k 类。根据组成每一类的观测量计算各变量均值,每一
对于大样本的聚类分析,传统的各种聚类分析方法虽 类中的n 个均值在n 维空间中又形成k 个点,这就是
然能够得到多个分类解,但执行效率并不十分理想, 第二次迭代的类中心,按照这种方法依次迭代下去,
本文要介绍的K-Means 聚类方法则能有效地解决该 直到达到指定的迭代次数或中止迭代的判据要求时,
问题,它能快速的把各观测量分到各类中去。K-Means 迭代停止,聚类结束。
聚类(也称快速聚类),它仍将数据看成k 维维空间上 3基于SPSS的聚类分析在我国交通事故问题
的点,仍以距离作为测度个体“亲疏程度”的指标,并 中的应用
通过牺牲多个解为代价换得高的执行效率。 3.1、基本数据
本文主要应用SPSS (即社会科学统计软件包)的 本文以2009 年全国各地区交通事故的数据为
聚类分析功能,用K-Means 聚类讨论基于SPSS 的聚 例,利用SPSS 的聚类分析功能对全国31 个省市的交
类分析在我国交通事故中的应用。 通事故情况进行分类。首先建立数据文件,定义变量
2基本理论 名:发生数、死亡数、受伤人数、直接财产损失的变量
K-Means 聚类执行快速样本聚类,使用k 均值分 名分
文档评论(0)