人工智能基础与应用(第2版)(微课版)课件 5-3 项目1—探究企鹅物种的分类.pptx

人工智能基础与应用(第2版)(微课版)课件 5-3 项目1—探究企鹅物种的分类.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

5-3项目1—探究企鹅物种的分类模块?物以类聚:发现新簇群

目录CONTENTS提出问题01预备知识03解决方案02任务1—样本数据的预处理04任务3—绘制企鹅聚类后的散点图06任务2—确定企鹅物种数量k的最佳值05

一.提出问题问题描述由于全球气候变暖和人类活动的影响,企鹅的生存状况并不乐观。因此,我们应该采取行动来保护这些迷人的生物,以确保它们能够正常繁衍、继续生存。为此,一项必要的工作就是研究如何区分企鹅的种类、哪些特征决定了它们的差异。一眼看企鹅都很相似,如何区分不用物种的企鹅呢?弄清这些问题就能更好地保护不同的企鹅,使它们成为人类永远的朋友。

二.解决方案1.选择聚类法k均值算法解决问题基本思想:基于企鹅的一些形态特征(如嘴的大小、体重等)反映了企鹅的独特之处和一些重要信息,然后用聚类算法K-Means对样本进行聚类,最后得到各样本的类别。聚类0类1类0类

二.解决方案2.具体方案

三.预备知识1.企鹅常识已知地球上现存的企鹅共有20余种,它们的头部颜色、个体大小、体型等不尽相同。其中喙的长度、深度,鳍肢的长度和重量等特征对企鹅的生存影响较大。这些特征之间是否存在强相关关系,这样的关系是否会对企鹅的分类造成影响?可以通过后期的数据分析找到该问题的答案。

三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根什么是降维?为什么要降维?前文已经谈到,在衡量采用什么方法来分析数据之前最好能对数据的全貌有一个可视化的了解,能从中发现一些内在规律或启示,以便更好地指导人们选择相对合理的方法来解决问题。通常只在二维或三维的空间可视化数据,但原始数据的实际维度可能是四维甚至更高维度。采用数据降维的方法将原始数据的维度降为二维或三维,以便进行可视化处理,从而直观了解数据的分布。除此之外,数据降维还有提高计算速度、提高模型拟合度等好处。

三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根【引例5-1】分析企鹅数据集中可能存在的强相关特征,选取合适的特征集,采用PCA对企鹅数据集penguins进行降维,并绘制降维后的数据散点图。(1)绘制出热力图,了解各特征之间的相关度。

三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根【引例5-1】分析企鹅数据集中可能存在的强相关特征,选取合适的特征集,采用PCA对企鹅数据集penguins进行降维,并绘制降维后的数据散点图。(1)绘制出热力图,了解各特征之间的相关度。运行结果

三.预备知识2.数据降维(2)绘制散点图,观察数据样本在三维空间中的分布情况。运行结果

三.预备知识2.数据降维(2)绘制散点图,观察数据样本在三维空间中的分布情况。运行结果企鹅是否划分为4个物种比较合适

三.预备知识3.认识k均值聚类点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根

四.任务1——样本数据的预处理1.查看数据的异常情况(1)观察数据空值情况数据集空值分布统计:

四.任务1——样本数据的预处理1.查看数据的异常情况(2)异常值的统计

四.任务1——样本数据的预处理2.对数据进行预处理对数据进行空值删除、异常值剔除和数据的标准化处理

四.任务2——确定企鹅物种数量k的最佳值1.导入相关的第三方库及模块要对企鹅样本数据进行聚类,在读取样本数据的基础上,除进行聚类操作外,还要计算轮廓系数和惯性值,所以要通过以下代码导入相关的第三方库及模块。

四.任务2——构建及训练KNN模型2.绘制k值与轮廓系数、惯性值的变化关系图

四.任务2——构建及训练KNN模型2.绘制k值与轮廓系数、惯性值的变化关系图代码的运行结果

四.任务3——绘制企鹅聚类后的散点图1.按k=4对企鹅样本数据进行聚类(1)算法训练(2)观察标签值及质心

四.任务3——绘制企鹅聚类后的散点图1.按k=4对企鹅样本数据进行聚类(1)算法训练(2)观察标签值及质心四组质心

四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图(1)实现代码:

四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图运行结果

四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图(2)分析结论:企鹅分为4类比较合适,同时不难看出:企鹅的喙深度、重量和性别3个指标可能是区分企鹅物种的主要因素。

人工智能基础与应用Thankyouverymuch!

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档