(11)--第11章 特征选择与稀疏学习机器学习模型与算法.pptVIP

(11)--第11章 特征选择与稀疏学习机器学习模型与算法.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

特征选择与稀疏学习

概述?2

概述?3

特征特征描述物体的属性特征的分类相关特征:对当前学习任务有用的属性无关特征:与当前学习任务无关的属性冗余特征*:其所包含信息能由其他特征推演出来*为简化讨论,本章暂不涉及冗余特征

例子:西瓜的特征西瓜的特征颜色纹理触感根蒂声音相关特征无关特征好瓜坏瓜当前任务:西瓜是否是好瓜

特征选择特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因减轻维度灾难:在少量属性上构建模型降低学习难度:留下关键信息

例子:判断是否好瓜时的特征选择西瓜的特征颜色纹理触感根蒂声音相关特征无关特征好瓜坏瓜当前任务:西瓜是否是好瓜特征选择:选择当前任务相关特征

特征选择的一般方法遍历所有可能的子集计算上遭遇组合爆炸,不可行可行方法产生初始候选子集评价候选子集的好坏基于评价结果产生下一个候选子集两个关键环节:子集有哪些信誉好的足球投注网站和子集评价

子集有哪些信誉好的足球投注网站前向有哪些信誉好的足球投注网站:逐渐增加相关特征后向有哪些信誉好的足球投注网站:从完整的特征集合开始,逐渐减少特征双向有哪些信誉好的足球投注网站:每一轮逐渐增加相关特征,同时减少无关特征用贪心策略选择包含重要信息的特征子集

特征集合当前最优子集优于上一轮最优子集?YN前向有哪些信誉好的足球投注网站最优子集初始为空集,特征集合初始时包括所有给定特征结束最优子集???

子集评价特征子集确定了对数据集的一个划分每个划分区域对应着特征子集的某种取值样本标记对应着对数据集的真实划分通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好

用信息熵进行子集评价?

常见的特征选择方法常见的特征选择方法大致分为如下三类:过滤式包裹式嵌入式将特征子集有哪些信誉好的足球投注网站机制与子集评价机制相结合,即可得到特征选择方法

概述?14

过滤式选择Relief(RelevantFeatures)方法[KiraandRendell,1992]为每个初始特征赋予一个“相关统计量”,度量特征的重要性特征子集的重要性由子集中每个特征所对应的相关统计量之和决定设计一个阈值,然后选择比阈值大的相关统计量分量所对应的特征或者指定欲选取的特征个数,然后选择相关统计量分量最大的指定个数特征如何确定相关统计量?先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型;特征选择过程与后续学习器无关

Relief方法中相关统计量的确定?

Relief方法的多类拓展?

概述?18

包裹式选择包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集包裹式选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤式特征选择大得多包裹式选择直接把最终将要使用的学习器的性能作为特征子集的评价准则

LVW包裹式特征选择方法基本步骤在循环的每一轮随机产生一个特征子集在随机产生的特征子集上通过交叉验证推断当前特征子集的误差进行多次循环,在多个随机产生的特征子集中选择误差最小的特征子集作为最终解**若有运行时间限制,则该算法有可能给不出解LVW(LasVegasWrapper)[LiuandSetiono,1996]在拉斯维加斯方法框架下使用随机策略来进行子集有哪些信誉好的足球投注网站,并以最终分类器的误差作为特征子集评价准则

LVW包裹式特征选择方法LVW算法计算开销很大

概述?22

嵌入式选择?嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,在学习器训练过程中自动地进行特征选择

??

??

??

概述?27

稀疏表示将数据集考虑成一个矩阵,每行对应一个样本,每列对应一个特征矩阵中有很多零元素,且非整行整列出现稀疏表达的优势:文本数据线性可分存储高效能否将稠密表示的数据集转化为“稀疏表示”,使其享受稀疏表达的优势?

字典学习给定数据集:学习目标是:;样本稀疏表示:;k为字典词汇量,由用户指定,字典优化形式为:为普通稠密表达的样本找到合适的字典,将样本转化为稀疏表示,这一过程称为字典学习

字典学习的解法??

概述?31

压缩感知数据传输中,能否利用接收到的压缩、丢包后的数字信号,精确重构出原信号?压缩感知(compressivesensing)[Cándesetal.,2006,Donoho,2006]为解决此类问题提供了新的思路.能否利用部分数据恢复全部数据?

压缩感知?如傅里叶变换,余弦变换,小波变换等

限定等距性?

压缩感知的优化目标和解法?

矩阵补全客户对书籍的喜好程度的评分“矩阵补全”技术解决此类问题能否将表中已经通过读者评价得到的数据当作部分信号,基于压缩感知的思想恢复出完整信号从而进行书籍推

文档评论(0)

185****8578 + 关注
实名认证
文档贡献者

热爱教育,专注于教育领域创作与分享。

1亿VIP精品文档

相关文档