基干混合高斯模型上市企业聚类研究.docVIP

下载本文档

2
0
约3.48千字
约 7页
2017-06-02 发布于福建
举报
版权申诉

基干混合高斯模型上市企业聚类研究.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基干混合高斯模型上市企业聚类研究

基于混合高斯模型的上市企业聚类研究　　摘要：已有的基于上市企业财务指标的聚类研究往往无法反映出聚类过程的不确定性，其聚类结果也欠缺可解释性。在核主成分的基础上，引入了混合高斯模型聚类算法，不仅能较好地实现样本聚类，更能提高聚类结果的可解释性。实验证明以上方法的可行性及有效性关键词：财务指标；核主成分；混合高斯模型；聚类中图分类号：F23 文献标识码：A doi：10.19311/j.cnki.1672-3198.2016.07.046 1 研究背景上市企业定期公布的财务报表对投资者选股、持股有一定的参考价值，但大量数据背后的信息往往难以被发掘。聚类分析是一种以数据特征为基础的分类技术，通过对上市企业财务数据的聚类分析，能基于财务指标的相似性实现对上市企业的有效分类，对投资者有重要的指导意义原思聪（1995）首次探讨了模糊数学方法在股票选择方面的应用，通过综合隶属函数与模糊函数构建了股票选择的评价体系，然而模糊聚类的主观性较强。沈周翔、钟键（2005）则采用主成分（PCA）的方法，通过提取累计方差贡献率大于95%的两个主要成分，将股票财务数据投影到二维平面上，并根据平面象限区分聚类类别，但传统的PCA算法是基于线性组合构造主成分的，并不能处理具有非线性结构的财务数据，因此学者提出了以核主成分（KPCA）技术替代PCA技术进行特征提取。余乐安、汪寿阳（2009）先用KPCA算法对股票的财务数据进行降维处理，再对降维后的数据采用K-Means聚类，这种处理方法能得到准确率更高的聚类结果。但K-Means聚类为硬聚类技术，无法反映KPCA降维及聚类过程中的不确定性，更无法对聚类结果提供有效的解释。针对此问题，在KPCA降维数据的基础上，本文引入一种基于混合高斯模型的聚类算法，能有效地提高聚类结果的可解释性 2 混合高斯模型软聚类算法已有研究所采用的聚类算法都是一类优化目标函数的硬聚类算法，其特点是能清晰地对事物进行划分，不允许模棱两可的结果。然而，上市企业的财务指标具有多样性及复杂性等特点，硬聚类算法显然很难基于复杂多样的财务指标将上市企业清晰地加以区分。一种基于混合高斯模型的软聚类算法能有效地解决该类问题 2.1 混合高斯模型的基本概念混合高斯模型（Gaussian Mixture Model，GMM）是一种以高斯分布为基础的混合模型，其概率密度函数可表示为多个高斯分布概率密度函数的线性组合。Wilson（1999）已证明，由有限多个高斯分布构成的混合高斯模型能以任意精度逼近任何的多元分布，这种良好的性质使得其在降维或聚类中有良好的应用前景 2.2 混合高斯模型算法混合高斯模型是由多个独立的单高斯分布模型（Singal Gaussian Model）的线性组合而成，每一个单高斯分布可称为混合高斯模型的成分（Component）。考虑多元的情况，假设1×d的多维变量x服从单高斯分布，其概率密度函数f（x；μ，∑）为：（1）其中，μ是1×d的均值向量，∑是d×d的协方差矩阵。而GMM的概率密度函数g（x）则可表示为：（2） K为成分的数目，在聚类应用中同时代表类簇的数目；αi（i=1，2，…，K）是权值因子，是第i个单高斯分布在混合模型中所占的权重；μi，∑i分别是第i个单高斯分布的均值向量及协方差矩阵 2.3 混合高斯模型参数估计由于聚类是一种无监督学习的方法，其结果具有较强的目的导向性，因此在聚类应用中，聚类类簇数据K，即混合高斯模型的成分个数往往是外生的，而需要估计的参数有αi、μi及∑i（i=1，2，…，K）。假设N×d的数据集，服从概率密度函数为g（x；θ）的混合高斯分布，θ表示所有参数的集合，其似然函数L的形式如下：（3）由于单个混合高斯概率密度函数值一般都很小，随着数据点个数N的增大，连乘的结果会变得非常小，容易造成浮点数下溢，因此采用自然对数形式改写目标似然函数：（4）一般的参数求解方法是通过对对数似然函数求偏导以求得各参数的极值，然而（4）式中在对数函数里面存在大型求和符号，不能用求偏导解方程的发法直接求得参数极值。Bilmes（1998）提出的期望最大化算法（EM），能通过多次迭代的方法简化参数估计过程，进而求取模型参数首先初始化混合高斯模型的所有参数，设为θ0=（α0，μk0，∑k0），k=1，2，…，K，其中K个多元高斯分布的均值向量μk、协方差矩阵∑k可通过统计方法进行计算权值αi初步设定为1/K。在迭代的过程中，对于第j个样本点xj，其由第k个多元高斯模型生成的概率定义为：（5）然后，在第一次更新参数的步骤中，计算可得ωj1（k），对于任意一个样本点xj，其值的ωj1（k）*xj部分