- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习中的基本问题 ——从概率空间看学习问题 中科院计算所 晏小辉 yanxiaohui@software.ict.ac.cn 2010-09-26 大纲 概率建模 密度估计 聚类 回归 分类 产生式与判别式 从线性到非线性 非iid问题 非线性特征变换 核函数 概率建模 密度估计 聚类 回归 分类 产生式与判别式 (引子)学习问题的一般表示——Vapnik 设有定义在空间Z上的概率测度F(z),考虑函数的集合Q(z,α), α∈Λ(参数集合)。学习的目标是最小化风险泛函: 其中概率测度F(z)未知,但给定了一定的独立同分步样本z1,...,zl。其中,z代表了数据对(x,y),Q(z, α)就是特定的损失函数。 关于学习问题,每个人有每个人的看法。下文中从空间中概率点的分布角度阐述,和Vapnik的说法稍有不同。 密度估计问题 定义:给定有限个观察样本x1,...,xN,估计一个最合适的概率分布 p(x)来预测任意一个输入变量x取值的概率。 x=(x1,...,xD)T p(x)=p(x1=a1,...,xD=aD) ai为给定数值 密度估计问题的建模 反问题(从样本的生成角度看):从概率分布p(x)中生成N个样本x1,...,xN.(这里假设了样本iid) 概率建模:构造一个足够灵活概率分布族p(x|θ)逼近x的真实分布 θ为该概率分布族的参数 选择适当的概率分布族(model selection) 与问题相关 与样本相关 灵活度较差,将导致欠拟合 灵活度过高,将导致过拟合 常用的模型是Bernoulli(0-1分布),Mulitnomial(多个离散值分布),Gauss,mixture Gauss 密度估计问题的Gauss模型 p(x|θ)~N(x|μ, ∑), 此时θ为μ, ∑ 假设样本分布为iid 概率空间的几何解释: 用一个随机点来描述数据 密度估计模型的参数估计 参数估计:p(x|θ)有无穷多个,都可以来拟合样本数据。如何确定最优的一个? 估计θ的两种方法 MLE(最大似然估计):最大化p(x1,...,xN |θ)。 MLE的评价标准:p(x|θ)和当前样本的分布最匹配 MAP(最大化后验概率):对θ引入一个先验概率分布p(θ),然后最大化p(θ|x1,...,xN )∝p(x1,...,xN |θ)p(θ)。 MAP的评价标准: p(x|θ)既要和当前样本的分布相匹配; 同时p(x|θ)也要和其先验概率分布p(θ)相匹配。 样本分布非iid 聚类问题 定义:给定有限个观察样本x1,...,xN,和聚类数目K,将样本划分成K个子集,使得子集内样本尽可能相似。 聚类问题的特点 聚类数目已知 聚类中心由样本确定 结果与相似度度量相关 欧几里得距离 曼哈顿距离等 概率测度 聚类问题的概率建模(假设采用概率测度) 反问题:已有K个类(类中心未知),随机选择一个类,再从中随机抽取一个样本。依次得到x1,...,xN 。(这里假设了同一类中的点服从iid) 概率建模(Mixture Gaussian model): p(C)~multi(C|π) p(x|Ci)~N(x|μ, ∑) p(x,Ci)=p(c)p(x|Ci) 概率空间的几何解释: 用k个随机点来描述数据 求解π、μ、 ∑:EM 回归问题 定义:给定有限个输入变量x1,...,xN,并且每个输入变量xi有个对应的目标值ti,对于一个新的输入变量x,估计它所对应的目标变量t的值。等价于估计一个函数:t=f(x)。 回归问题的特点 目标值t与输入变量x相关 (有监督学习) 样本中的ti有噪声 两种随机 回归中随机变量为t,随机原因是噪声(外因) 密度估计中随机变量为x,随机原因是x有多种取值(内因) 回归问题的概率建模 反问题:已有函数f(x),以等概率随机选择一个xi,计算f(xi), 加上白色噪声得到ti。依次得到(x1,t1),...,(xN,tN) 。(这里假设了(xi,ti)服从iid) 概率建模:t=y(x,θ)+ε y(x, θ)足够灵活,能逼近任意的f(x)。例如多项式回归: y(x, w)=w0+w1x+...+wmxm 假设ε为Gauss噪声: ε~N(0, β-1) 于是,p(t|x,θ, β)=N(t|y(x,θ), β-1) 概率空间的几何解释: 用一条曲线来描述带噪声数据 求解θ:MLE、MAP 分类问题 定义:已知有C1,...,Ck共K个类,给定有限个输入变量x1...,xN,并且每个输入变量xi有个对应的类标签ti。对于一个新的输入变量x,估计它所对应的类标签t。 例如在二分类中,可令 t∈ {0,1},其中t=0表示x属于类C0,t=1表示x有属于类C1。 分类与回归的区别: 目标值t只能取离散值。若建模
文档评论(0)