项目四银行业务大数据分析59课件.pptxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;;;;;;;;;;下面以鸢尾花的前3个特征为例,先用手肘法确定聚类个数,然后根据获取的聚类个数进行K-Means建模。

确定类簇个数。

先剥离出鸢尾花数据的前3个特征,然后按类簇个数为1~110依次进行聚类,并将每次聚类所得到的误差平方和SSE记录下来,并存储为一个数列。代码如下:

python.

importnumpyasnp#线性运算包。

fromsklearn.clusterimportKMeans#构建K-Means的包。

X3=df[[0,1,2]].values#.values表示转换成array格式。

inertia=[]#构造变量inertia用来存放每次结果的误差平方和。

forninrange(1,11):#n从1取值到11,依次进行聚类计算。

algorithm=(KMeans(n_clusters=n,init=K-means++,random_state=111,algorithm=elkan))#K-means聚类。

algorithm.fit(X3)#按样本数据X3拟合聚类函数。

inertia.append(algorithm.inertia_)#通过.append添加每次得到的误差项到预先设定的变量inertia中。

此时聚类个数为1~10的模型SSE均存储在了变量inertia中,下面制作变量inertia的变化折线图,寻找到SSE降低速度减缓的点,该处对应的n值就是类个数。代码如下:

python.

importmatplotlib.pyplotasplt#绘图包。

importseabornassns#绘图包。

plt.figure(1,figsize=(15,6))#确定作图工作区并通过figsize对面幅进行限制。

plt.plot(np.arange(1,11),inertia,o)#x轴是1到11的自然数,y轴SSE,以o点的形式打印。

plt.plot(np.arange(1,11),inertia,-,alpha=0.5)#将SSE散点和以’-线连接打印。

plt.xlabel(NumberofClusters)#设置横轴、纵轴的名字。

plt.ylabel(lnertia)

plt.show()

输出结果如图1所示。通过观察可以看到聚类个数大于3之后,SSE下降趋势趋于平缓,故选定聚类个数为3。

K-Means模型构建。

下面以类簇个数为3,构建K-Means模型,代码如下:

python.

algorithm=(KMeans(n_clusters=3,init=k-means++,random_state=111,algorithm=elkan))#构建K-Meams模型。

algorithm.fit(X3)#用样本数据对K-Meam模型进行拟合。

labels3=algorithm.labels_#获得每个样本所在的类别。

centroids3=algorithm.cluster_centers_#获得每个类别的中心点。

df[label3]=labels3#将数据归属的类簇标签加入原数据df中。

print(df.head())#展示前5行。

此时,每个数据对象所归属的类簇标签被确定下来,并存储在了df新列label3中。如下所示:

|0|1|2|3|label3|.

|---|---|---|---|---|.

|5.1|3.5|1.4|0.2|0|.

|4.9|3.0|1.4|0.2|0|.

|4.7|3.2|1.3|0.2|0|.

|4.6|3.1|1.5|0.2|0|.

|5.0|3.6|1.4|0.2|0|.;;通过聚类算法,可以将客户按照其特征进行细分,例如按照年龄、性别、收入、风险承受能力等进行划分。这样可以帮助银行更好地了解不同客户群体的需求,制定更有针对性的营销策略。;;;;;;;;;;;聚类算法需要能够自动化地进行聚类,以减少人工干预。例如,可以使用自动选择聚类个数的方法,如轮廓系数法,来自动选择聚类个数。;聚类算法需要具有可解释性,以便更好地理解聚类结果。例如,可以使用可视化技术,如热力图,来可视化聚类结果,以便更好地理解聚类结果。;

文档评论(0)

vermonth134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档