- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第6章数据建模:无监督学习Python金融数据分析与应用(微课版)
目录CONTENTS无监督学习概述6.1主成分分析6.2因子分析6.3K均值聚类6.4
6.1无监督学习概述
6.1无监督学习概述无监督学习的特点【案例6-1】上市公司IPO首日表现分析上市公司IPO首日表现可以通过首日开盘价、首日收盘价、首日交易股数、首日交易金额等数据来反映从横向看,希望对7个指标反映的信息进行归纳和概括,挖掘其中具有共性的东西(目标1)从纵向看,希望按照IPO首日表现,对上市公司进行分类(目标2),为后续的投资决策提供参考为达成以上两个目标,有监督学习算法已经不再适用无监督学习不需要人工标注的训练数据来指导模型进行学习在无监督学习中,模型需要从数据中习得隐藏的模式、结构或规律
6.1无监督学习概述常用算法降维分析用于将数据点划分为不同的组或簇,通常要求组内或簇内差异尽可能小而组间或簇间差异尽可能大常用的聚类算法包括K均值聚类、层次聚类和密度聚类等不同于分类问题,聚类问题没有现成的类别标签,通常需要探索数据的潜在结构聚类算法在图像压缩、市场细分上有广泛的应用用于减少数据的维度,保留数据中重要的信息常用的降维分析包括主成分分析(PrincipalComponentAnalysis,PCA)和t分布随机邻域嵌入(t-DistributedStochasticNeighborEmbedding,t-SNE)等数据降维一方面有利于实现高维数据的可视化,另一方面也能提取数据的重要特征,减少冗余信息降维后的数据用于机器学习模型构建时,也有利于提升模型训练效率。用于识别数据集中的异常值或离群点常用的异常检测算法包括孤立森林和LOF(LocalOutlierFactor,局部离群因子)等可以用于检测网络攻击、信用卡欺诈等异常行为聚类分析异常检测关联规则用于从大规模数据集中发现行为之间(如购买商品A与购买商品B)的相关性通过分析数据集中的交易记录或者事件序列,关联规则挖掘可以揭示行为的频繁出现模式,为决策提供支持
6.2主成分分析
6.2.1主成分分析算法思想6.2主成分分析?主成分分析算法的思想是构造如下线性变换:推广到多维??
6.2.1主成分分析算法思想6.2主成分分析主成分个数的确定??当累计贡献率达到70%时,主成分已经可以覆盖大部分数据的信息;当累计贡献率达到80%时,主成分已经可以保留较多的关键信息;当累计贡献率达到90%时,主成分已经可以较为完整地保留数据的信息实践中可以结合具体情况,依据累计贡献率来确定需要保留的主成分数量?
6.2.2主成分分析案例实践6.2主成分分析基于主成分回归的IPO首日成交量预测实践目标对上市公司IPO相关数据进行主成分分析,提取合适数量的主成分以提取的主成分为输入变量建立IPO首日成交量的线性回归模型(即主成分回归模型)评价模型的性能并与线性回归模型进行对比fromsklearn.decompositionimportPCA#主成分分析pca=PCA()pca_result=pca.fit_transform(X_train)vr=pca.explained_variance_ratio_#获取主成分贡献率print(主成分贡献率:)print(np.around(vr,decimals=3))#输出贡献率cvr=np.cumsum(vr)#计算累计贡献率print(主成分累计贡献率:)print(np.around(cvr,decimals=3))#输出累计贡献率必要的库主成分分析#绘制散点图plt.scatter(pca_result[:,0],pca_result[:,1],edgecolor=black,facecolor=grey)plt.xlabel(第一主成分)plt.ylabel(第二主成分)plt.show()绘制散点图#主成分回归pca=PCA(n_components=2)#提取两个主成分X_pca=pca.fit_transform(X_train)reg=LinearRegression()reg.fit(X_pca,y_train)#以主成分为输入变量建立线性回归模型coef_pca=reg.coef_coef_original=np.dot(ponents_.T,coef_pca)#还原回归系数feature_names=data_cleaned.iloc[:,1:].columnsfori,(coef,name)inenumerate(zip(coef_original,feature_names)):print(f{name}:{coef:.3f})#
您可能关注的文档
最近下载
- 小学英语自然拼读 77页.pdf
- 2025贵州盐业(集团)黔东南有限责任公司招聘考试备考试题及答案解析.docx VIP
- 《小学阶段传统文化融入语文教学的有效路径探究》教学研究课题报告.docx
- 2024届高三复习备考工作计划暨备考策略.pdf VIP
- 入党积极分子入党答辩1.pptx VIP
- SEMI-F047-000-0706-en电压暂升暂降标准.pdf VIP
- 2025年成人高考政治考试大纲.docx VIP
- 2025年中国聚氨酯混炼胶数据监测研究报告.docx
- 在excel中绘制水位~库容~面积的图表.xls VIP
- 2025年成人高考高起本(历史地理综合)新版真题卷(附详细解析).pdf VIP
文档评论(0)