- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
概率语言模型及其变形系列PLSA及EM算法.pdf
BLOG.CSDN.NET/YANGLIUY 52NLP.CN
概率语言模型及其变形系列
PLSA 及EM 算法
yangliuyx@
12/20/2012
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA 及LDA 的变形模型及参数
Inference 方法.
P a g e | 1
概率语言模型及其变形系列-PLSA 及 EM 算法
yangliuyx@
December 20th 2012
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA 及LDA 的变形模型及参
数Inference 方法。初步计划内容如下
第一篇:PLSA 及EM 算法
第二篇:LDA 及Gibbs Samping
第三篇:LDA 变形模型-Twitter LDA,TimeUserLDA ,ATM ,Labeled-LDA,MaxEnt-LDA 等
第四篇:基于变形LDA 的paper 分类总结
第一篇PLSA 及EM 算法
前言:本文主要介绍PLSA 及EM 算法,首先给出LSA (隐性语义分析)的早期方法SVD,然后
引入基于概率的PLSA 模型,其参数学习采用EM 算法。接着我们分析如何运用EM 算法估计一个
简单的mixture unigram 语言模型和混合高斯模型GMM 的参数,最后总结EM 算法的一般形式及
运用关键点。对于改进PLSA,引入hyperparameter 的LDA 模型及其Gibbs Sampling 参数估计
方法放在本系列后面的文章LDA 及Gibbs Samping 介绍。
1 LSA and SVD
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept” 。我们知道,
在文档的空间向量模型(VSM )中,文档被表示成由特征词出现概率组成的多维向量,这种方法
的好处是可以将query 和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权
重,在文本检索、分类、聚类问题中都得到了广泛应用,在newsgroup18828 文本分类器的JAVA
实现和newsgroup18828 文本聚类器的JAVA 实现系列文章中的分类聚类算法大多都是采用向量
空间模型。然而,向量空间模型没有能力处理一词多义和一义多词问题,例如同义词也分别被表
示成独立的一维,计算向量的余弦相似度时会低估用户期望的相似度;而某个词项有多个词义时,
始终对应同一维度,因此计算的结果会高估用户期望的相似度。
LSA 方法的引入就可以减轻类似的问题。基于SVD 分解,我们可以构造一个原始向量矩阵的一个
低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD 分解
其中 是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t 行d 列, 矩阵的元
素为词项的tf-idf 值。然后把 的r 个对角元素的前k 个保留(最大的k 个保留), 后面最小的r-k
个奇异值置0, 得到 ;最后计算一个近似的分解矩阵
P a g e |2
则 在最小二乘意义下是 的最佳逼近。由于 最多包含 k 个非零元素,所以 的秩不超过 k。
通过在SVD 分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作
用。每个奇异值对应的是每个“语义”维度的权重,将不太重要的权重置为0,只保留最重要的维度
信息,去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。将SVD 分解降维应用到文档
聚类的JAVA 实现可参见此文。
2 PLSA
尽管基于SVD 的LSA 取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD 分解非常
耗时。Hofmann 在SIGIR99 上提出了基于概率统计的PLSA 模型,并且用EM 算法学习模型参数。
PLSA 的概率图模型如下
其中
您可能关注的文档
最近下载
- 国开电大24春《企业信息管理》形成性考核1-4答案.docx
- 关于小学英语猜食物和饮料的趣味(课件)-2021-2022学年英语三年级上册.ppt VIP
- 2020高中音乐教师新课程标准考试(公共知识+学科专业知识)模拟题及答案 共二套.pdf VIP
- 2024《基于回归模型下的云南咖啡出口竞争力实证分析》11000字.docx
- 高中英语读后续写---贫穷哥哥奋力奔跑为妹妹赢得跑鞋(小鞋子little shoes).docx
- “双减”优秀作业设计:初中数学作业设计案例三篇.docx
- java课件封装继承多态.pdf
- 应用手册 - Eaton.PDF
- 重庆大学《应用数理统计》(钟波--刘琼荪-刘朝林)课后习题解答--科.pdf
- 箱涵模板工程施工组织设计方案.pdf
文档评论(0)