通俗理解LDA主题模型LaTeX版(排版by陈友与).pdfVIP

通俗理解LDA主题模型LaTeX版(排版by陈友与).pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
通俗理解LDA 主题模型 2015 年 1 ⽉ 10 ⽇ 1 前⾔ 印象中,最开始听说“LDA”这个名词,是缘于rickjin 在 2013 年 3 ⽉写的⼀个LDA 科普系列,叫 LDA 数学⼋卦, 我当时⼀直想看来着,记得还打印过⼀次,但不知是因为这篇⽂档的前序铺垫太长(现在才意识到这些“铺垫”都是深 刻理解 LDA 的基础,但如果没有⼈帮助初学者提纲挈领、把握主次、理清思路,则很容易陷⼊ LDA 的细枝末节之 中),还是因为其中的数学推导细节太多,导致⼀直没有完整看完过。 2013 年 12 ⽉,在我组织的Machine Learning 读书会第 8 期上,@ 夏粉_ 百度讲机器学习中排序学习的理论和算 法研究,@ 沈醉2011 则讲主题模型的理解。又⼀次碰到了主题模型,当时貌似只记得沈博讲了⼀个汪峰写歌词的例⼦, 依然没有理解 LDA 到底是怎样⼀个东西(但理解了LDA 之后,再看沈博主题模型的 PPT 会很赞)。 直到昨⽇下午,机器学习班第 12 次课上,邹博讲完LDA 之后,才真正明⽩ LDA 原来是那么⼀个东东!上完课后, 趁热打铁,再次看 LDA 数学⼋卦,发现以前看不下去的⽂档再看时竟然⼀路都⽐较顺畅,⼀⼜⽓看完⼤部。看完⼤部 后,思路清晰了,知道理解LDA ,可以分为下述5 个步骤: 1. ⼀个函数:gamma 分布 2. 四个分布:⼆项分布、多项分布、beta 分布、Dirichlet 分布 3. ⼀个概念和⼀个理念:共轭先验和贝叶斯框架 4. 两个模型:pLSA、LDA (在本⽂第4 部分阐述) 5. ⼀个采样:Gibbs 采样 本⽂便按照上述 5 个步骤来阐述,希望读者看完本⽂后,能对 LDA 有个尽量清晰完整的了解。同时,本⽂基于邹博讲 LDA 的PPT、rickjin 的LDA 数学⼋卦及其它参考资料写就,可以定义为⼀篇学习笔记或课程笔记,当然,后续不断加 ⼊了很多⾃⼰的理解。若有任何问题,欢迎随时于本⽂评论下指出,thanks 。 2 gamma 函数 2.1 整体把握 LDA 关于 LDA 有两种含义,⼀种是线性判别分析(Linear Discriminant Analysis ),⼀种是概率主题模型:隐含狄利克 雷分布(Latent Dirichlet Allocation ,简称LDA ),本⽂讲后者(前者会在后⾯的博客中阐述)。 另外,我先简单说下LDA 的整体思想,不然我怕你看了半天,铺了太长的前奏,却依然因没见到LDA 的影⼦⽽显 得“⼼浮⽓躁”,导致不想再继续看下去。所以,先给你吃⼀颗定⼼丸,明⽩整体框架后,咱们再⼀步步抽丝剥茧,展开来 论述。 1 按照wiki 上的介绍,LDA 由Blei, David M.、Ng, Andrew Y.、Jordan 于 2003 年提出,是⼀种主题模型,它可以 将⽂档集中每篇⽂档的主题以概率分布的形式给出,从⽽通过分析⼀些⽂档抽取出它们的主题(分布)出来后,便可以 根据主题(分布)进⾏主题聚类或⽂本分类。同时,它是⼀种典型的词袋模型,即⼀篇⽂档是由⼀组词构成,词与词之 间没有先后顺序的关系。此外,⼀篇⽂档可以包含多个主题,⽂档中每⼀个词都由其中的⼀个主题⽣成。 LDA 的这三位作者在原始论⽂中给了⼀个简单的例⼦。⽐如假设事先给定了这⼏个主题:Arts、Budgets、Children、 Education ,然后通过学习的⽅式,获取每个主题Topic 对应的词语。如下图所⽰: 然后以⼀定的概率选取上述某个主题,再以⼀定的概率选取那个主题下的某个单词,不断的重复这两步,最终⽣成 如下图所⽰的⼀篇⽂章(其中不同颜⾊的词语分别对应上图中不同主题下的词): ⽽当我们看到⼀篇⽂章后,往往喜欢推测这篇⽂章是如何⽣成的,我们可能会认为作者先确定这篇⽂章的⼏个主题, 然后围绕这⼏个主题遣词造句,表达成⽂。LDA 就是要⼲这事:根据给定的⼀篇⽂档,推测其主题分布。 然,就是这么⼀个看似普通的LDA ,⼀度吓退了不少想深⼊探究其内部原理的初学者。难在哪呢,难就难在LDA 内部涉及到的数学知识点太多了。在LDA 模型中,⼀篇⽂档⽣成的⽅式如下: • 从狄利克雷分布 中取样⽣成⽂档i 的主题分布 • 从主题的多项式分布 中取样⽣成⽂档i 第j 个词的主题 • 从狄利

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档