- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学习之EM算法
数据挖掘之EM算法 ——基于机器学习 姓名:胡庆红 学号:112320030 专业:信管 机器学习与数据挖掘 数据挖掘是一门交叉性很强的学科,可以用到机器学习算法以及传统统计的方法,最终的目的是要从数据中挖掘到为我所用的知识,从而指导人们的活动。 机器学习通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。我们用一堆的样本数据来让计算机进行运算,样本数据可以是有类标签的,并设计惩罚函数,通过不断的迭代,机器就学会了怎样进行分类,使得惩罚最小。然后用学习到的分类规则进行预测等活动。 举个最简单的例子,我们训练小狗狗接飞碟时,当小狗狗接到并送到主人手中时,主人会给一定的奖励,否则会有惩罚。于是狗狗就渐渐学会了接飞碟。 数据挖掘与机器学习的区别(1) 周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解 数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。 简而言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用, 因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。 数据挖掘与机器学习的区别(2) 从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。 从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象, 因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。 EM算法简介 EM算法的概念(也称最大期望算法) :在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。 EM算法的应用:最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。 EM算法的原理:最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算,这个过程不断交替进行。 EM算法的预备知识(1) 贝叶斯公式 定理 设A1,A2,…,An为样本空间Ω的一个划分,且 P(Ai)0(i=1,2,…,n),则对于任何一事件B ( P(B)0), 有: 事实上,由条件概率的定义及全概率公式推导出 EM算法的预备知识(2) 极大似然估计 原理 设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率函数(离散型)为 f (X1,X2,…Xn; ) . 当给定样本X1,X2,…Xn时,定义似然函数为: f (X1,X2,…Xn; ) 看作参数 的函数,它可作为 将以多 大可能产生样本值X1,X2,…Xn的一种度量 . EM算法的预备知识(3) 极大似然估计法就是用使 达到最 大值的 去估计 . 称 为 的极大似然估计(MLE). EM算法原理分析(1) EM算法假定如下的问题定义:有χ和?两个样本空间,定义一个多对一的映射Y=f(X),其中,X∈ χ ,Y ∈ ?。再定义如下函数: χ(Y)={X:f(X)=Y} ……① X是完全数据,Y是观察数据。假设如下分布f(X∣θ)存在,那么在已知参数的条件下,Y的条件概率分布为: g(Y∣θ)=∫ f(X∣θ)dx EM算法试图解决如下问题:已知Y中的一个样本,但其相应的在X中的取值不知(隐藏变量),我们需要求得θ的极大似然估计去估计L(θ)的最大值。EM算法是一种迭代寻优算法,定义一系列的参数,通过建立一个从θ t到θt+1的映射,满足L( θt+1 )L(θ t),因为EM算法也是一种爬山算法,能够在满足一定条件下,找到L(θ t)的不动点。 EM算法原理分析(2) 定义从θ t到θt+1的映射一般经历两个步骤: 1、E步:定义p′(X)=p(X∣Y,θ t),且 p′(X)=0当不满足①式时。 Q(θ′,θ)=E[log f
您可能关注的文档
- 墙抹灰、外立面贴砖及内墙抹灰施工方案交底.doc
- 墙施工承包合同.doc
- 墙普通预埋件安装.doc
- 墙纸市场调研报告.doc
- 壤重金属形态分析的改进BCR方法.doc
- 士康现场优化论文 完成版.doc
- 士尼 英语PPT.ppt
- 声诊断学教学课件(图文版).ppt
- 复发性流产免疫治疗有效性和安全性问题.ppt
- 复件缔造不老神话.ppt
- 温州乐成寄宿中学2023年高三第二次模拟考试语文试卷含解析.doc
- 湖南省浏阳市第二中学2022-2023学年高三第一次调研测试语文试卷含解析.doc
- 甘肃省张掖市高台县重点名校2024年中考一模英语试题含答案.doc
- 甘肃省会宁县第四中学2024届高三下学期第六次检测语文试卷含解析.doc
- 滁州市重点中学2024届高三第四次模拟考试语文试卷含解析.doc
- 福建省福州市仓山区福建师范大学附属中学2023届高考冲刺模拟英语试题含解析.doc
- 福建省平和县一中2022-2023学年高考压轴卷语文试卷含解析.doc
- 湖南省长沙市一中、湖南师大附中2023年高三英语第一学期期末学业质量监测模拟试题含解析.doc
- 监狱警察职业道德培训课件.pptx
- 福建省漳州市平和一中、南靖一中等五校2023年高三第六次模拟考试语文试卷含解析.doc
文档评论(0)