- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大熵模型.ppt
熵导论与最大熵模型 北京10月机器学习班 邹博 2014年10月26日 本次目标 理解并掌握熵Entropy的定义 理解“Huffman编码是所有编码中总编码长度最短的”熵含义 理解联合熵H(X,Y)、相对熵D(X||Y) 、条件熵H(X|Y)、互信息I(X,Y)的定义和含义,并了解如下公式: H(X|Y) = H(X,Y) - H(Y)=H(X) - I(X,Y) H(Y|X) = H(X,Y) - H(X)=H(Y) – I(X,Y) I(X,Y) = H(X) - H(X|Y) = H(X) + H(Y) - H(X,Y) ≥0 掌握最大熵模型Maxent Maximum Entropy Models 了解最大熵在自然语言处理NLP中的应用 Natural Language Processing 与前序知识的联系:最大熵模型和极大似然估计MLE的关系 Maximum Likelihood Estimation 副产品:了解数据分析、函数作图的一般步骤 温故知新 证明: -lnx ≥1-x , x0 f(x)=-lnx + x – 1, x0, 凸函数 在x=1处取极值 Jensen不等式:exp(p’x)≤p’ exp(x) 暂且记下这两个不等式,后面的内容会涉及到 拉格朗日对偶问题 举例说明最大熵模型的应用 对偶问题 一般优化问题的Lagrange乘子法 Lagrange函数 对固定的x,Lagrange函数L(x,λ,v)为关于λ和v的仿射函数 Lagrange对偶函数(dual function) Lagrange对偶函数 若没有下确界,定义: 根据定义,显然有:对?λ0,?v,若原优化问题有最优值p*,则 进一步:Lagrange对偶函数为凹函数。 从小学数学开始 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其他的硬币轻。有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一: 左边比右边轻 右边比左边轻 两边同样重 问:至少要使用天平多少次才能确保找到假硬币? 答案 一种可能的称量方法如右图所示 答案:2次 追问:为什么2次? 分析 令x表示假硬币的序号: x∈X={1,2,3,4,5}; 令yi是第i次使用天平所得到的结果:y∈Y={1,2,3}; 1表示“左轻”,2表示“平衡”,3表示“右轻” 用天平称n次,获得的结果是:y1 y2… yn; y1 y2… yn的所有可能组合数目是3n; 根据题意,要求通过y1 y2… yn确定x。即建立影射map(y1y2…yn)=x; 从而:y1y2…yn的变化数目大于等于x的变化数目 即3n≥5 一般意义下: 进一步分析 用y1 y2… yn表达x。即设计编码:x- y1 y2… yn X的“总不确定度”是: Y的“表达能力”是: 至少要多少个Y才能准确表示X? 题目的变种 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一;第二个硬币是假硬币的概率也是三分之一,其他硬币是假硬币的概率都是九分之一。 有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一: 左边比右边轻 右边比左边轻 两边同样重 假设使用天平n次找到假硬币。问n的期望值至少是多少? 解 1/3概率的硬币有2个,1/9概率的硬币有3个: 定义:-Σplogap为熵 用熵解释Huffman编码 用熵解释Huffman编码 Huffman编码 本质:高概率出现的字符用更短的编码 广泛的结论 如果一个随机变量x的可能取值为X={x1, x2,…, xk}。要用n位y: y1y2…yn表示(每位y有c种取值)n的期望值至少为: 一般地,我们令c为2(二进制表示),于是,X的信息量为: 熵 将P(x=xi)写成普适公式,就得到熵的定义: 研究函数f(x)=xlnx f(x)=xlnx,x∈[0,1] f’(x) = lnx + 1 f’’(x) = 1/x0(凸函数) 当f’(x)=0时,x=1/e,取极小值; lim f(0)=0 lim f(1)=1 离散采样 绘图 熵和不确定性 熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0 均匀分布是“最不确定”的分布 联合熵和条件熵 两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示 H(X,Y) – H(Y) (X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X发生“新”带来的熵 该式子定义为Y发生前提下,X的熵: 条件熵H(X|Y) 推导条件熵的定义式 自封闭系统的运动总是倒向均匀分布 相对熵 相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵
文档评论(0)