半监督学习研究进展.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山西大学学报 (自然科学版) 32 (4) :528~534 ,2009 Journal of Shanxi University(Nat. Sci. Ed. ) 文章编号 :025322395 (2009) 0420528207 半监督学习研究进展 梁吉业1 ,2 ,高嘉伟1 ,2 ,常 瑜1 ,2 (1. 山西大学 计算智能与中文信息处理教育部重点实验室 ,山西 太原 030006 ; 2. 山西大学 计算机与信息技术学院 ,山西 太原 030006) 摘 要 :半监督学习问题广泛存在于现实世界中 ,已经成为目前机器学习和模式识别领域中的一个研究热点. 文章 综述了半监督学习问题的基本思想 、研究现状 、常用算法及其一些应用领域 ,分析了目前存在的主要困难 ,并指出 需进一步研究的几个问题. 关键词 :半监督学习 ;标签 ;协同训练 ;算法 中图分类号 : TP181 文献标识码 :A 0 引言 按照传统的机器学习理论框架 ,机器学习可以分为有监督学习和无监督学习两类. 在有监督学习中 ,学 习器利用的是已标签样例 ,而无监督学习中只关注未标签样例[ 1 ] . 随着数据采集技术和存储技术的发展 ,获 取大量未标签样例已经比较容易 ,而由于需要耗费一定的人力和物力 ,获取大量已标签样例则相对比较困 难. 因而在很多实际数据集中 ,未标签样例的数量远大于已标签样例的数量. 如果只使用少量已标签样例 ,那 么有监督学习训练得到的学习模型不具有很好的泛化能力 ,同时造成大量未标签样例的浪费 ;如果只使用大 量未标签样例 ,那么无监督学习将会忽略已标签样例的价值. 因此 ,研究如何综合利用少量已标签样例和大 量的未标签样例来提高学习性能的半监督学习 ( Semi2supervised Learning) 成为当前机器学习和模式识别的 重要研究领域之一[ 1 ,2 ] . 近几年随着机器学习理论在实际问题中的广泛应用 ,半监督学习获得了长足的发展. 半监督学习研究主 要关注当训练数据的部分信息缺失 (包括数据的类别标签缺失 、数据的部分特征维缺失 、噪声等) 的情况下 , 如何获得具有良好性能和泛化能力的学习机器[ 1 ,2 ] . 目前 ,其研究成果已经广泛应用于自然语言处理[ 3 ,4 ] 、数 字图像处理[ 528 ] 、视频标签[ 9211 ] 、生物特征识别[ 12 ] 等领域中. 1 半监督学习的基本思想和研究现状 虽然未标签样例的价值实际上早在 20 世纪 80 年代末就已经被一些研究者注意到了 ,但是一般认为 ,半 监督学习的研究始于 Shahshahani 和 Landgrebe1994 年的工作[ 2 ,13 ] . 随着统计学习技术的不断发展以及利 用未标签样例日渐强烈的需求 ,半监督学习在近年来逐渐成为一个研究热点. 目前 ,半监督学习研究涵盖范围非常广泛. 一方面不断修改或者扩展各种传统有监督 、无监督学习算法 以提高它们在半监督情况下学习的能力 ;另一方面 ,不断有新的数学方法引入到半监督学习中来. 同时 ,半监 督学习的研究对象已经由单纯的半监督数据的训练扩展到半监督数据的流形分析 、半监督数据和图模型的 关系等. 半监督学习的基本思想是利用数据分布上的模型假设 ,建立学习器对未标签样例进行标签. 它的形式化 3收稿日期 :2009208205 基金项目 : 国家 863 计划项目 ( 2007AA01Z165 ) ; 国家自然科学基金 (;) ; 山西省自然科学基金 (2008011038) 作者简介 :梁吉业 (19622) ,男 ,山西晋城人 ,教授 ,博士生导师 ,研究方向 :机器学习 、数据挖掘等. E2mail :ljy @sxu. edu. cn 梁吉业等 :半监督学习研究进展 529 描述是给定一个来自某未知分布的样例集 S = L U , 其中 L 是已标签样例集 L = { ( x1 , y1 ) , ( x2 , y2 ) , , ( x| L| , y| L| ) } , U 是一个未标签样例集 U = { x′1 , x′2 , , x′| U| } , 希望得到函数 f : X →Y 可以准确地对样例 x 预测其标签 y . 其中 xi , x′1 均为 d 维向量 , yt ∈Y 为样例 x i 的标签 , | L | 和| U| 分别为 L 和 U 的大小 , 即所包 含的样例数. 半监督学习就是在样例集 S 上寻找最优的学习器. 如果 S = L , 那么问题就转化为传统的有监 督学习 ;反之 , 如果 S = U , 那么问题是转化为传统的无监督学习. 如何综合利用已标签样例和未

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档