- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 第8章 函数与模块 * 第8章 函数与模块 * 第8章 函数与模块 第5章 特征降维与特征选择 特征降维 当特征本身存在问题或者特征之间相关性较强,对于算法预测影响较大。特征降维是指在某些限定条件下,通过选取具有代表性的特征,降低特征个数,得到一组“不相关”主变量的过程。特征降维具有线性判别分析(Linear Discriminant Analysis,缩写LDA)和主成分分析(Principal Component Analysis,缩写PCA)两种方式。 线性判别分析就是寻找这样的一条线: ,使得“投影后类内方差最小,类间方差最大” 线性判别分析 * Sklearn 提供discriminant_analysis.LinearDiscriminantAnalysis用于线性判别分析,具体语法如下所示: LinearDiscriminantAnalysis (n_components=n) 主成分分析 在多变量的问题中,变量之间往往存在信息重叠,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA将重复的变量或关系紧密的变量删去。 PCA算法的主要优点如下所示: 1)仅仅需要以方差衡量信息量,不受数据集以外的因素影响。 2)各主成分之间正交,可消除原始数据成分间的相互影响的因素。 3)计算方法简单,主要运算是特征值分解,易于实现 Sklearn 提供decomposition.PCA用于主成分分析,具体语法如下所示: PCA(n_components=n) 特征选择 特征选择,又称变量选择、属性选择或变量子集选择,是选择相关特征子集用于模型构造的过程。简要地说,通过检测相关特征,摒弃冗余特征,获得特征子集,从而以最小的性能损失更好地描述给出的问题。特征选择不创建新特征,注重删除无用特征。 方法 说明 VarianceThreshold 删除方差小的特征 SelectKBest 返回K个最佳特征,移除那些除了评分最高的 K 个特征之外的所有特征 SelectPerentile 返回表现最佳的前 r%个特征 特征选择 包装法(Wrapper):根据目标函数进行选择或排除若干特征。 过滤式(Filter):分析特征和目标值之间关联,给每一维的特征赋予权重,代表着该维特征的重要性,依据权重排序。 嵌入式(Embedded):先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。 包装法 包装法具有递归特征消除和交叉验证递归消除方法 递归特征消除 递归消除特征法(Recursive Feature Elimination ,缩写RFE)是使用基模型进行多轮训练。每轮训练,移除若干特征,再基于新的特征进行下一轮训练。Sklearn提供了RFE实现递归消除特征法,如下所示: RFE(estimator=svc, n_features_to_select= no_features, step= 1) 参数解释如下: estimator=svc :估计器为SVC支持向量机 n_features_to_select= no_features:只保留no_features个最重要的特征 step= 1:控制每次迭代过程中删去的特征个数 交叉验证递归消除 Sklearn提供了RFECV实现交叉验证递归消除,如下所示: RFECV(estimator=svc, step= 1, cv=StratifiedKFold( 2)) 参数解释如下: estimator=svc :用于递归构建模型的有监督型基学习器 step= 1:控制每次迭代过程中删去的特征个数 cv=StratifiedKFold( 2):交叉验证次数 过滤法 过滤式具有移除低方差特征法和单变量特征选择。其中,单变量特征选择根据问题类型不同,其消除的指标不同。对于分类问题,可采用卡方检验、f_classif等。对于回归问题(y连续),可采用皮尔森相关系。 移除低方差特征 移除低方差特征又称为方差选择法,用于过滤特征的值比较相近的低方差特征。Sklearn提供VarianceThreshold函数实现此功能,其基本语法如下所示: sklearn.feature_selection.VarianceThreshold(threshold)
您可能关注的文档
最近下载
- 2024年中国中式养生水行业发展趋势洞察报告.pdf VIP
- 湘科版科学五年级上册全册教学设计教案.pdf
- 大家的日语 1-9课测试试卷1.doc VIP
- 政府采购评审专家考试题库含答案.docx VIP
- JJF 1593-2016 国家检定校准 规范.docx VIP
- Service invoice 服务发票模板.doc VIP
- 浅谈危险化学品企业安全管理当中存在的问题与建议对策.docx VIP
- 甘肃省兰州市第五十八中学教育集团2024-2025学年高三上学期建档考试物理试题(无答案).docx VIP
- 幼儿园小班妈妈在哪儿课件..pptx VIP
- 建筑工程冬季施工防冻保温实施方案.doc VIP
文档评论(0)