Python数据分析报告PPT课件.pptVIP

Python数据分析报告PPT课件.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. * 聚类分析 在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。 常用聚类方法 类别 包括的主要算法 划分方法 K-Means算法、K-MEDOIDS算法、CLARANS算法 层次分析法 BIRCH算法、CURE算法、CHAMELEON算法 基于密度的方法 DBCSCAN算法、DENCLUE算法、OPTICS算法 基于网格的方法 STING算法、CLIOUE算法、WAVE——CLUSTER算法 基于模型的方法 统计学方法、神经网络方法 Python数据分析报告PPT课件全文共85页,当前为第64页。 . * 常用聚类分析算法 算法名称 算法描述 K-Means K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据 K-中心点 K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心 系统聚类 系统聚类也称为多层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适用在小数据量的时候使用,数据量大的时候速度会非常慢 Python数据分析报告PPT课件全文共85页,当前为第65页。 . * K-Means聚类算法 算法过程 从N个样本数据中随机选取K个对象作为初始的聚类中心 分别计算每个样本到各个聚类中心的距离,将对象分配到距离不最近的聚类中 所有对象分配完成后,重新计算K个聚类的中心 与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化,转第二步,否则转下一步 当质心不发生变化时停止并输出聚类不结果 Python数据分析报告PPT课件全文共85页,当前为第66页。 . * 应用举例二 找出下列谁是学霸? 高数 英语 C++ 音乐 小明 88 64 96 85 大明 92 99 95 94 小鹏 91 87 99 95 大鹏 78 99 97 81 小萌 88 78 98 84 大萌 100 95 100 92 Python数据分析报告PPT课件全文共85页,当前为第67页。 . * 使用Kmeans对学生成绩进行聚类 运行结果 结论 大明、小鹏、大鹏、大萌是学霸 Python数据分析报告PPT课件全文共85页,当前为第68页。 . * 5.1 Titanic数据集分析 前期准备 数据下载/topher/2016/December/584bcec3_titanic-data/titanic-data.csv 软件准备 python3.6+ anaconda 或 使用集成开发环境 pycharm 数据格式 PassengerId = 乘客ID Survived = 是否生还 Pclass = 乘客等级(1/2/3等舱位) Name = 乘客姓名 Sex = 性别 Age = 年龄 SibSp = 堂兄弟/妹个数 Parch = 父母与小孩个数 Ticket = 船票信息 Fare = 票价 Cabin = 客舱 Embarked = 登船港口 Python数据分析报告PPT课件全文共85页,当前为第69页。 . * 1、导入数据查看基本信息 运行结果 从数据集的基本信息可以看出,Age \ Cabin \ Embarked 是存在缺失值的,其中Cabin字段缺失值过多。 常用的方法是去除和补齐,数值型的数据是可以根据统计学的方法或者机器学习的方法将其进行补齐的 Python数据分析报告PPT课件全文共85页,当前为第70页。 . * 2、分析乘客存活率与各单变量之间的关系 查看总存活率 输出结果 survived_rate = float(df[Survived].sum()) / df[Survived].count() Print(‘survived_rate: ,survived_rate) survived_rate: 0.383838383838 Python数据分析报告PPT课件全文共85页,当前为第71页。 . * 舱位与存活率关系 运行结果 Python数据分析报告PPT课件全文共85页,当前为第72页。 . * 性别与存活率关系 运行结果 Python数据分析报告PPT课件全文共85页,当前为第73页。 . * 年龄与存活率关系 运行结果 Python数据分析报告PPT课件全文共85页,当前为第74页。 . * 3、分析乘客存活率与复合变量之间的关系 根据上述变量分析,舱位和性别对存活率影响都很大,但哪一个占的比重更大呢? 将舱位

文档评论(0)

扈三娘 + 关注
实名认证
文档贡献者

专注教育文档

1亿VIP精品文档

相关文档