- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Standford 机器学习应用的建议及机器学习系统的设计 By Jackie_Zhu 更多机器学习博客 /usingnamespace_std/article/details/9003894 前几讲学习了很多机器学习的算法,但是在实际的应用中会遇到很多过拟合和欠拟 合的问题,这些问题都会导致测试结果不理想。用什么方法解决这些问题,是本讲研究的 主题。 举一个房价预测的例子,如果学习了一个模型,发现测试结果非常不理想 (有非常 大的误差),那么接下去该怎么办?下面有几种解决方法: 1、获取更多的样本,来训练模型 2、试着用更少的特征来构建特征向量 3、特征向量中添加其他的特征 4 、特征向量中添加已有特征的多次项 5、增加regularization 中的lambda 6、减少regularization 中的lambda 但是我们不能盲目地去选取里面的某个方法,这样会浪费不必要的时间,比如用更 多的样本,数据的获得往往是非常艰难的,会花上很多时间去收集数据,也许会发现,用 更多的数据没有得到更好的结果。所以出现问题后,我们要首先去诊断,到底是什么导致 了很大的误差,再针对问题去采取相应的措施。 一、评估模型 把数据集分成两部分 (训练数据和测试数据),往往在已有的数据集中训练数据分70%, 测试数据分30%,学习的过程就是最小化训练误差,但是训练误差小,不一定测试误差就 小,这就是泛化能力。我们要追求的就是使模型具有很强的泛化能力。 在逻辑回归的例子中可以这样定义测试误差: 二、模型的选择 在线性回归的例子中,我们可以选取下面的多种模型中的一个作为模型拟合出不同的曲线, 定义d=degree of polynomial,即模型的最高项多项式的系数, 对每一个模型训练之后会学习得到10 个theta 向量,对每一个向量用测试集进行验证,当 然也会得到不同的测试结果如下图: 比如说d=5 的时候测试误差是最小的,那么我们就认为d=5 这个模型具有最强的泛化能力, 为了测试这个模型预测准确率如何,就必须用新的样本(不能再用这个测试样本),因为 这个模型本来就是根据这个测试样本的误差最小得到的,再用这个样本测试定会得到很小 的误差,但是对其他数据性能如何我们不得而知。 因此需要将数据分成三部分:训练数据,交叉验证数据,测试数据。训练数据用来学习模 型,交叉验证数据来验证不同的模型的交叉验证误差,选择交叉验证误差最小的那个模型。 然后用测试数据来验证模型预测的准确率(这里的测试数据不要和上面的测试数据搞混了, 上面的测试数据其实就是交叉验证数据)。这三部分数据划分如下:分别占60%,20%, 20% 。 线性回归中,他们的误差定义如下: 三、诊断bias 和variance 模型欠拟合就是会有很高的bias,如果过拟合就有很高的variance ,如下图: 随着d 的增加,训练误差会越来越小,因为多次项次数越高,拟合的越精确,训练数据上 的误差当然越小。对于测试误差,d 小的时候是欠拟合,误差当然大,中间慢慢减小,超 过一定程度后就变成了过拟合,误差当然也就增大。误差变化如下: 解决过拟合的方法就是regularization,regularization 有没有好的效果关键是lambda 的选 取,lambda 过小会过拟合,lambda 过大会欠拟合。 那么应该怎么样选取这个lambda 值呢?当然是选测试误差最小时候的lambda !如 下图所示,根据不同的 lambda 学习出来的模型,在交叉验证数据集上得到了相应的误差, 选取交叉验证误差最小的那个lambda 就行了。 那么随着lambda 增大,训练误差和测试误差又是怎么样变化的呢?对于训练 误差,lambda 很小的时候,是过拟合,当然训练误差很小,随着lambda 的增大,越来越 不能精确的拟合训练数据,所以训练误差不断增加,直到欠拟合。对于测试误差,lambda 小的时候是过拟合,测试误差很大,lambda 到中间某个值的时候误差到最小,lambda 很 大的时候是欠拟合,测试误差又变大。但往往测试误差比训练误差要大,因为模型是根据 训练数据学习出来的。变化关系如下图。 三、学习曲线 这条曲线是关于测试误差和训练样本个数关系的。如果训练样本很少,如下图右边上 面的例子,模型会很容易的拟合所有样本,训练误差小,随着样本个数增
您可能关注的文档
最近下载
- 《立式圆筒形钢制焊接油罐施工及验收规范》GB50128-2014附表(附录)核心解析.docx VIP
- 七年级上-科学难题解析.pptx VIP
- 网络不是法外之地如何做新时代的好网民.pptx VIP
- 03【浙江】DB33T1233-2021浙江省基坑工程地下连续墙技术规程(2).pdf VIP
- 曹家店雨水工程防洪影响评价报告.pptx VIP
- 送饭工培训考试题.doc VIP
- 网络不是法外之地 —— 青少年网络行为法治规范.docx VIP
- 采煤机司机采煤新技术新工艺课件精要.ppt VIP
- 2024年7月1日实施新版医疗器械购货者资格审核制度(二三类零售).pdf
- QFD质量屋全套资料EXCEL档.xls VIP
有哪些信誉好的足球投注网站
文档评论(0)