机器学习复习2.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习复习2

统计学习: 1) 统计方法处理过程的三个阶段 (1)搜集数据:采样、实验设计 (2)分析数据:建模、知识发现、可视化 (3)进行推理:预测、分类 2) SVM近似线性可分问题 3) SVM三种主要的核函数 多项式内核 、径向基函数内核RBF、Sigmoind内核 4) 决策树的生成过程 强化学习: 1) 强化学习的四大要素 1、策略:从环境感知到的状态到该状态下应该采取的行动映射; 2、报酬函数:用来强化学习问题的目标; 3、价值函数:与某一时刻(或状态)意义上反应行动结果好坏的报酬函数相对应,价值函数则指定了最终什么是好的; 4、环境的模型:这是为模仿环境的举动而建立的. 2) 蒙特卡罗方法和时序差分学习的主要区别 加,该状态对整体的影响越大。资格迹定义方式分为增量型和替代型两类。 无监督学习: 1) 聚类分析的基本步骤 (1)对数据集进行表示和预处理,包括数据清洗、特征选择或特征抽取; ? (2)给定数据之间的相似度或相异度及其定义方法; ? (3)根据相似度,对数据进行划分,即聚类; ? (4)对聚类结果进行评估。 2) K均值聚类的基本步骤 这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤: (1)从n个数据对象随机选取k个对象作为初始簇中心。 (2)计算每个簇的平均值,并用该平均值代表相应的簇。 (3)计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。 (4)转步骤(2),重新计算每个(自变化)簇的平均值。这个过程不断重复直到某个准则函数不再明显变化或者聚类的对象不再变化为止。 3) 基于最短距离法的层次聚类步骤 (1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0) ,开始每个样品自成一类,显然这时Dij =dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。 4) 层次聚类的主要问题 关联规则: 1) 关联规则挖掘的两个基本步骤 1.找出所有的频繁项集 满足最小支持度 2.找出所有的强关联规则 由频繁项集生成关联规则 保留满足最小可信度的规则 2) Apriori性质:若A是一个频繁项集,则A的每一个子集都是一个频繁项集 3) 频繁项集生成过程 中心思想: 由频繁(k-1)-项集构建候选k-项集 ?方法: ?找到所有的频繁1-项集 ?扩展频繁(k-1)-项集得到候选k-项集 ?剪除不满足最小支持度的候选项集 4) Apriori算法的主要问题 Apriori算法有个最大的问题就是要产生大量准频繁项集或者说候选集,效率不高,并且要多次扫描数据库,在后面的PF_growth算法将避免了这两个个问题。 深度学习: 1) 几种经典的深度学习框架(自编码神经网络、限制玻尔兹曼机、深度信念网络、卷积神经网络) 大数据挖掘: 1) 知识发现的技术难点 动态变化的数据 ?噪声 ?数据不完整 ?冗余信息 ?数据稀疏 ?超大数据量 2) 大数据的四个特点 大数据是指数据集数据的大小通常超出了常用的软件工具获取、有效、管理和处理的可承受范围的能力。 特点: 量大(Volume):通过各种设备产生了大量的数据,PB级别是常态; ?异构(Variety):一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别; ?快速(Velocity):要求快速处理,存在时效性; ?真实(Veracity):数据不确定性和真实性。

文档评论(0)

juhui05 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档