FAFU机器学习 04-1eaturextractionndreprocessing中文.pptxVIP

FAFU机器学习 04-1eaturextractionndreprocessing中文.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习基础特征提取与预处理2020/12/3特征提取与预处理第4-1课 特征提取与预处理在线性回归中讨论的例子使用了简单的数字解释变量,例如比萨饼的直径。许多机器学习问题需要从分类变量,文本或图像的观察中学习。在本课中,您将学习预处理数据和创建这些观察的特征表示的基本技术。这些技术可以用于回归模型,线性回归,以及我们将在下一课讨论的模型2020/12/3特征提取与预处理第4-2课 特征提取与预处理从分类变量中提取特征从文本中提取特征从图像中提取特征数据规范化2020/12/3特征提取与预处理第4-3课 从分类变量中提取特征变量的类型numinal(定类):类别,状态或“事物的名称”Hair_color={auburn,black,blond,brown,grey,red,white}婚姻状况,职业,身份证号码,邮政编码2020/12/3特征提取与预处理第4-4课 从分类变量中提取特征变量的类型numinal(定类):类别,状态或“事物的名称”Hair_color={auburn,black,blond,brown,grey,red,white}婚姻状况,职业,身份证号码,邮政编码Binary(二类)只有2个状态(0和1)的标称属性对称二元:两种结果同等重要,例如性别非对称二元:结果不同等重要,例如医学检验(阳性与阴性)公约:最重要的结果(如HIV阳性)为12020/12/3特征提取与预处理第4-5课 从分类变量中提取特征变量的类型名义上二进制Ordinal (定序)值有一个有意义的顺序(排名),但连续值之间的大小是未知的。大小={小,中,大},等级,军队排名2020/12/3特征提取与预处理第4-6课 从分类变量中提取特征变量的类型NominalBinary Ordinal Interval (定距)以等大小单位为尺度测量的价值观是有秩序的例如温度(C度或F度),日历日期没有真正的零点2020/12/3特征提取与预处理第4-7课 从分类变量中提取特征变量的类型NominalBinary Ordinal Interval Ratio (定比)固有零点我们可以说值比测量单位大一个数量级(10K度是5K度的两倍)。例如开尔文温度,长度,计数,货币数量2020/12/3特征提取与预处理第4-8课 范畴变量一个K或一个热(独热)分类变量通常使用一个K或一个热编码进行编码,其中解释变量使用每个变量可能值的一个二进制特征进行编码。例如,假设我们的模型有一个城市解释变量,可以取三个值之一:纽约、旧金山或教堂山。一个热编码使用三个可能的城市中的每一个使用一个二进制特征来表示这个解释变量。2023/11/4Feature Extraction and PreprocessingLesson 4- 9 sklearn.feature_extraction: Feature Extraction特征提取2023/11/4Feature Extraction and PreprocessingLesson 4- 10 sklearn.feature_extraction.DictVectorizer将特征值映射列表转换为向量。这个转换器将特性名到特性值的映射(dict-like对象)列表转换成Numpy数组或稀疏稀疏使用SCIS矩阵学习工具。当特征值是字符串时,这个转换器将执行二进制one hot(aka-one-of-K)编码:为特性可以接受的每个可能的字符串值构造一个布尔值特征。例如,一个特性“f”可以采用值“ham”和“spam”,它将在输出中变成两个特性,一个表示“f=ham”,另一个表示“f=spam”。样本(映射)中没有出现的特征在结果数组/矩阵中的值为零。2023/11/4Feature Extraction and PreprocessingLesson 4- 11 Example use of DictVectorizer:它是用于对特征进行抽取和向量化2023/11/4Feature Extraction and PreprocessingLesson 4- 12 from sklearn.feature_extraction import DictVectorizer v = DictVectorizer(sparse=False) D = [{foo: 1, bar: 2}, {foo: 3, baz: 1}] X = v.fit_transform(D) X array([[2., 0., 1.], [0., 1., 3.]]) v.inverse_transform(X) == [{bar: 2.0, foo: 1.0}, {baz: 1.0, foo: 3.0}] True v.tran

文档评论(0)

暗伤 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档