今天内容模型选择.pptxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

今天内容:模型选择Occamsrazor测试误差/训练误差训练误差的乐观性估计MallowsCp统计量AICBIC/MDLSRM直接估计测试误差交叉验证Bootstrap

我们说的“模型”有时指的是模型类别,例如所有2个高斯的混合模型和所有3个高斯的混合模型。A有时也指在一个类别的模型中的一员,如参数的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。B在实际应用中,我们通常同时考虑上述两种情况,也就是说:C参数的选择统计决策理论部分已经讨论,在此主要讨论不同函数族的选择D“模型”

OccamsrazorWilliamofOccham(1285–1348)fromwikipediaOccamsrazor:EntianonsuntmultiplicandapraeternecessitatemOr:Entitiesshouldnotbemultipliedunnecessarily——theexplanationofanyphenomenonshouldmakeasfewassumptionsaspossible,eliminating,orshavingoff,thosethatmakenodifferenceintheobservablepredictionsoftheexplanatoryhypothesisortheory.

Occamsrazor例:树后面有多少个盒子?√

训练数据既包含输入—输出之间的规律也包含噪声模型匹配时会匹配上述两种情况如果模型太复杂,会将噪声也包含在模型中所以,好的模型足够对输入—输出之间的规律建模不够对噪声建模(假设噪声较弱)模型选择

一个回归的例子样本数n=10用M阶多项式拟合:

一个回归的例子(2)0阶多项式拟合

一个回归的例子(3)1阶多项式拟合

一个回归的例子(4)3阶多项式拟合

一个回归的例子(5)9阶多项式拟合

一个回归的例子(6)过拟合:

一个回归的例子(7)回归系数:

一个回归的例子(8)9阶多项式拟合,训练样本数n=15

一个回归的例子(9)9阶多项式拟合,训练样本数n=100

一个回归的例子(10)岭回归:最小化

一个回归的例子(11)岭回归

一个回归的例子(12)岭回归

一个回归的例子(13)岭回归系数

模型选择:估计不同模型的性能,选出最好的模型模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差)提升模型的性能:模型平均BaggingBoost…教材第8章12目标

模型选择和模型评估当样本足够多时,可以将数据分成三份训练集:估计模型的参数校验集:估计模型的预测误差测试集:计算最终选定的模型的泛化误差但通常没有足够多样本,而且也很难说明多少足够数据是足够的依赖于基础数据的信噪比和模型的复杂程度训练集校验集测试集

模型选择目标:选择使测试误差最小的模型M,称为模型选择。

测试误差,亦称泛化误差(generalizationerror),是在与训练数据同分布的独立测试样本上的风险(平均损失):亦称期望风险训练误差是在训练样本上的平均损失:亦称经验风险3214训练误差与测试误差

训练误差与测试误差目标是选择测试误差最小的模型但测试误差很难计算/估计用训练误差估计但训练误差是测试误差的欠估计在选择合适复杂性的模型时,存在偏差-方差的平衡训练误差的乐观性0102

经验风险/训练误差是否是期望风险/测试误差的一个好的估计?随样本集容量n→∞渐进成立在小样本条件下,并不是一个好的估计训练误差是测试误差的欠估计(有偏估计)训练误差的乐观性训练误差与测试误差

通常我们有01因此,为了选择模型,我们可以02对进行估计,或03以某种方式估计R(M)04欠拟合程度+复杂性惩罚训练误差的乐观性

交叉验证/bootstrapSRM估计乐观性,然后与训练误差相加对任意损失函数、非线性自适应拟合技术都适用直接估计测试误差估计预测误差的方法AIC/BIC/MDL等(模型与参数为线性关系时)训练误差的乐观性

估计乐观性通过各种技巧(通常是渐近性)估计乐观性

统计量: 01使用所有特征的模型02MallowsCp统计量

AIC:AkaikeInformationCriterioni为测试集上数据索采用log似然作为损失函数,测试误差为其中为MLE,模型为,似然函数为则训练误差为其中为在训练集上的log似然。

AIC:AkaikeInform

您可能关注的文档

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档