人工智能PPT第6章 模型评估与选择.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 第6章 模型调优与评估 过拟合和欠拟合 拟合是指机器学习模型在训练的过程中,通过更新参数,使得模型不断契合可观测数据(训练集)的过程。欠拟合指的是模型在训练和预测表现都不好,往往由于模型过于简单,如图(a)所示。正常模型指的是模型在训练和预测表现都好,如图 (b)所示。过拟合是指由于模型过于复杂,模型在训练集上的表现很好,但在测试集上表现较差,如图 (c)所示。 欠拟合 1)添加新特征 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过“组合特征”等进行处理。 2)模型优化:提升模型复杂度 模型的复杂度可以使模型拥有更强的拟合能力。例如,在线性模型中添加高次项等进行处理。不同的建模算法针对不同的业务场景有不同的表现,尝试不同的建模算法,从中比较,择优者而用之。细分群体,建立多个模型,对应不同的核心客户群体。 3)减少正则项权重 过拟合 1)获取更多的训练样本 ? 由于模型训练了包含噪音在内的所有特征,导致模型过拟合,通过获取更多的训练样本,可以衰减噪音权重。 2)减少特征数目 特征共线性检查,利用Pearson相关系数计算变量之间的线性相关性,如果自变量中属于中度以上线性相关的多个变量,只需要保留一个就可以。 重要特征筛选,利用决策树模型,降低树的深度、 进行剪枝等,筛选出重要特征。 数据降维,主成分分析,保留特征变量重要差异。 3)增加正则项权重 减少高次项的影响。例如,添加L2正则化到损失函数等。 模型调优 模型调优,首先应解决欠拟合问题,其次再解决过拟合问题。更主要的,是从数据的特征入手,好的特征工程决定预测结果的上限。 参数调优往往是数据挖掘、数据分析中至关重要的一步,主要调整模型中的超参数,例如学习速率等。Sklearn提供了网格有哪些信誉好的足球投注网站法和随机有哪些信誉好的足球投注网站方法用于参数调优。 网格有哪些信誉好的足球投注网站 GridSearchCV可以自动进行超参数组合,传入需要测试的超参数和对应的值,自动使用交叉验证,来评估在这些超参数的组合下,模型的优劣。GridSearchCV拆分为GridSearch和CV两部分,即网格有哪些信誉好的足球投注网站和交叉验证。 Sklearn的model_selection模块GridSearchCV,形式如下所示: GridSearchCV(eatimator,param_grid) 随机有哪些信誉好的足球投注网站法 在处理较少的超参数组合时,GridSearchCV方法比较适用。GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,但是这也是网格有哪些信誉好的足球投注网站的缺陷所在,要求遍历所有可能参数的组合,在面对大数据集和多参数的情况下,非常耗时。RandomizedSearchCV随机参数有哪些信誉好的足球投注网站的方法相对于网格有哪些信誉好的足球投注网站方法,找到模型的最优参数的可能性比较大,并且也比较省时。 Sklearn的model_selection模块 RandomizedSearchCV 分类评估标准 混淆矩阵 准确率 精确率 召回率 F1 score ROC曲线 AUC面积 分类评估报告 混淆矩阵 混淆矩阵也称误差矩阵,用于评价算法或者分类器的结果。混淆矩阵由n行n列组成,每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目。 混淆矩阵 准确率 准确率(Accuracy,缩写ACC)是最常用的分类性能指标。准确率是指有病被检查的TP是检测对了,没病也检测的TN也是检测对了。准确率(Accuracy)=预测正确样本数/总样本数。公式如下所示: sklearn.metrics模块提供accuracy_score函数,形式如下所示: sklearn.metrics.accuracy_score(y_true, y_pred, normalize) 精确率 精确率(Precision)又称为查准率,容易和准确率混淆。精确率只是针对预测正确的正样本而不是所有预测正确的样本,精准率是正确预测的正例数 /预测正例总数。公式如下所示: sklearn.metrics模块提供precision_score函数,形式如下所示: sklearn.metrics.precision_score(y_true, y_pred) 召回率 召回率(Recall)就是所有准确的条目有多少被检索出来,召回率可理解为查全率。查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。 召回率是正确预测的正例数 /实际正例总数 sklearn.metrics模块提供recall_score函数,形式如下所示: recall_score(y_true, y_pred,average) F1 score F1分数(F1 S

文档评论(0)

酱酱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档