- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最大熵与对数线性模型用于分类问题讲课要点
最大熵与对数线性模型(用于分类问题)讲课要点
李正华
2015 年 12 月 6 日
目录
1 从最大熵原理(maximum entropy)到对数线性的形式(log-linear) 1
1.1 符号定义 . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 最大熵 . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 求解最大熵模型 . . . . . . . . . . . . . . . . . . . . . . . 3
2 Log-linear model 的似然函数及梯度 6
3 以词性标注为例,实现一个最大熵模型 6
3.1 Stochastic Gradient Descent (SGD) 训练,basic 版本 . . . 6
4 编程作业 6
5 SGD 训练,L2 regularization 7
6 模拟退火 7
7 一段真实的 C++ 程序,同时使用 L2 regularization 和模拟退火,供参考 7
8 Adwait Ratnaparkhi: A Simple Introduction to Maximum Entropy
Models for Natural Language Processing (1997) 8
1 从最大熵原理(maximum entropy)到对数线性的形式(log-
linear)
主要参考/afs/cs/user/aberger/www/html/tutorial/tutorial.html,
建议看到 outline 小节即可。同时也阅读了李航老师的《机器学习方法》相关部分。
我觉得这两个参考文献,在用拉格朗日乘子求解时,都有一些小的瑕疵。所以再写
一遍(还有个问题没有完全理解)。
1.1 符号定义
:表示一个数据集,包含 个实例 和对应的 个人工标注
类别标记 。
:表示类别集合, 。
1
Count :表示实例 在数据集 出现的概率,满足 ∑
Count :表示实例 及对应答案 在数据集 出现的概率,满足
∑
和 一般称为经验概率,即从数据中通过数数直接可以得到的概率。这
两个概率符号的引入,主要是为了简化下面的推导。
1.2 最大熵
在数据集 上,对一个模型(概率分布) 的熵的定义为:
∑ ∑
文档评论(0)