EM算法及其在半监督学习中的运用.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
半监督学习 (Semi-supervised?Learning );有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。 无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记,准确性差。 半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。;半监督学习的过程; 传统的训练学习算法需要利用大量有标记的样本进行学习。 随着信息技术的飞速发展,收集大量未标记的(unlabeled)样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。 如何利用大量的未标记样本来改善学习性能成为当前模式识别研究中备受关注的问题。 优点:半监督学习(Semi-supervised?Learning)能够充分利用大量的未标记样本来改善分类器的性能,是目前利用未标记样本进行学习的主流技术。;在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web上存在着无数的网页,它们都可作为未标记示例来使用。 这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病例都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分? ;半监督学习的主要方法;生成模型(Generative Model);EM算法描述;极大似然估计(MLE);极大似然估计(MLE);EM问题描述;EM问题描述;EM问题描述;EM算法原理;EM算法原理;对上式使用拉格朗日乘数法可得 求偏导并令值为零分别得:;其中, 可由下式求得。 ;抛硬币实例;抛硬币实例;EM—Expectation;EM—Maximization;EM的收敛性;EM算法缺点;生成模型中的EM算法;*;2. 图基方法;特点:不同的图基方法大体上都差不多,只不过是损失函数和正规则器的选择不同而已,其关键是要构建一个好的图。 优点:物理原理能够很好的解释。 缺点:目前对于图的构建研究还不是很深入。 ;背景:TSVM是为了改进SVM???文本分类中本已出色的表现而做的更一步改进.使用SVM 进行文本分类一个问题是难于建造出那么多的标记文档,要么是可用的训练数据本身就少,或者是用人工方法把无标记的文档分类为有标记的文档所花费的功夫无法承受。这样就引出了TSVM。 定义:是标准SVM在半监督学习当中的拓展,是通过加入约束项使得未标记数据落在Margin之外,即使得分类的超平面避开数据密度高的区域 。这里的未标记样本的特点就是使得决策面避开样本的密集区。 优点:考虑无标签样本对分类器的影响,并且结合SVM算法实现的一种高效的分类算法。 适用:能够用SVM的地方,自然想到用转导支持向量机能够获得更好的效果 缺点:时间复杂度比较高,需要预先设置正负比例等的不足。 ;半监督学习的不足;谢谢!

文档评论(0)

糖糖 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档