- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Standford机器学习 逻辑回归(Logistic Regission)以及过拟合问题解决(Regularization)
Standford 机器学习 逻辑回归(Logistic Regission )以 及过拟合问题解决(Regularization ) By Jackie_Zhu 更多Standford 机器学习笔记,请关注我的博客 /usingnamespace_std/article/details/8895270 1. 分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分 类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广) (0 叫做负类,1 叫做正类)。给定一组数据,标记有特征和类别,数据如 (x(i),y(i) ),由于输出只有两个值,如果用回归来解决会取得非常不好的效果。 在良性肿瘤和恶性肿瘤的预测中,样本数据如下 上图是用线性归回得到的结果,那么可以选定一个阈值0.5,建立该模型后就可以预测: 如果训练数据是这样的 很明显,这样得到的结果是非常不准确的。线性回归中,虽然我们的样本输出数据都只有 0 和1,但是得到的输出却可以有大于1 和小于0 的,这不免有点奇怪。Logistic Regission 的假设就是在0 和1 之间的。 2. Logistic Regission 我们希望的是模型的输出值在0 和1 之间,逻辑回归的假设,这个假设的推导在网易 公开课的广义线性模型中有提到(分类的概率满足伯努利分布),这个以后再说 g(z) 的函数图象是这样的一个S 型曲线 现在只要假定,预测输出为正类的概率为H (x;theta) (因为根据该曲线,H 是1 的时候 输出刚好是1),根据概率之和为1,可以得出如下式子 根据这个式子就可以来预测输出的分类了。和前面的线性回归一样,h(x)大于 0.5 的话, 输出有更大的概率是正类,所以把它预测成正类。 从S 型曲线可以看出,h(x)是单调递增的,如果h(x)0.5 则theta*x0 反之,theta*x0, 这个反映到x 的坐标下,theta*x=0 刚好是一条直线,theta*x0 和theta*x0 分布在该 直线的两侧,刚好可以把两类样本分开。 如果数据是这样的,很明显一条直线无法将它隔开 因此需要像多项式回归一样在x 中添加一些feature,如 和前面一样y=theta0+theta1*x1+theta2*x2+theta3*x1^2+theta4*x2^2=0 是一条曲线,y0 和y0 分布在该曲线两侧。得到了以上模型,只要用学习算法学习出最优的theta 值就 行了。 要学习参数theta ,首先要确定学习的目标,即Cost Function 。在线性回归中,我们选 取的Cost Function 是 , 使得每个样本点到曲线的均方误差最小,要注意Logistic Regission 中,h(x)带入J 中得 到的一个函数不是Convex 的,形状如这样 因此这样的一个J(theta)不能用梯度下降法得到最优值,因为有多个极值点。 由于这个文类问题中,两类的概率满足伯努利分布,所以 这两个式子可以写成 给定一些样本点,可以使用极大似然估计来估计这个模型,似然函数为: 这里要求L(theta) 的最大值,所以在前面添个负号就变成了求最小值,就可以用梯度下 降法求解了。 观察J 的前后两项,都是单调函数,因此J 是Convex 函数,目标就是要最小化这个函 数,因此可以用梯度下降法。 求偏导之后发现这个式子和线性回归中的那个式子的相同的,要注意的是这里的 h(theta)和线性回归中的是不一样的,需要区分。这样就得到了逻辑回归的分类模型! 3. 过拟合问题以及解决方法(Regularization ) 下面三个例子中,二是拟合的比较好的,一中有着较大的MSE ,不是很好的模型,这 种情况叫做under fit ,第三种情况虽然准确得拟合了每一个样本点,但是它的泛华能 力会很差,这种情况叫做overfit 。 在Logistic Regression 中,上面三种情况对应的就是 Underfit 和Overfit 是实践过程中需要避免的问题,那么如何避免过拟合问题呢? 第一种方法就是减少feature,上面的例子中可以减少x^2 这样的多项式项。 第二种方法就是这里要介绍的Regularization ,Regularization 是
您可能关注的文档
最近下载
- 《孩子是春天的另一种姿势》阅读练习及答案.doc VIP
- 2022-2023学年四川省成都市锦江区八年级(上)期末数学试卷.docx VIP
- T_CVMA 224-2025 猫传染性腹膜炎诊断规程.pdf VIP
- T_CVMA 232-2025 猪星状病毒五型荧光PCR检测方法.docx VIP
- T_CVMA 252-2025 马四肢X线及超声操作规范.pdf VIP
- 湿地博物馆施工组织设计(智能化系统).doc VIP
- 2022-2023学年四川省成都市锦江区嘉祥外国语学校八年级下学期期中数学试卷(含答案解析).docx VIP
- 浙教版(2023)五年级上册信息科技全册教学课件 .pdf VIP
- (正式版)D-L∕ T 790.6-2010 采用配电线载波的配电自动化 第6部分:A-XDR编码规则.docx VIP
- 商砼搅拌站电气系统培训教材.doc VIP
文档评论(0)