基于LDA的长短文本分类比较.docVIP

下载本文档

198
0
约2.32千字
约 4页
2017-10-25 发布于北京
举报
版权申诉

基于LDA的长短文本分类比较.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA的长短文本分类比较　　摘要：LDA作为一种常用的主题模型，在文本挖掘中作为特征选择的方法被广泛应用。但随着互联网中短文本信息的逐渐增多，短文本代表性词少的特点使得LDA对于短文本的主题挖掘不一定能够达到理想效果，这给LDA的应用带来了巨大挑战。为了探究LDA主题模型对短文本的分类效果，基于LDA，对长文本和短文本进行分类，对比分类效果，判断LDA对于短文本的适用性。　　关键词：LDA 主题模型文本分类短文本　　中图分类号：TP181 文献标识码：A 文章编号：1007-9416（2016）10-0230-01 　　Abstract：As a common method of topic mining， LDA is used as a method of feature selection in text mining widely. But with the increase in the number of short text， the result of LDA for the topic mining of short text may be not good. It is a challenge for LDA to deal with the few words .This paper classified the short text and long text based on LDA， respectively， compared the result， and estimated whether LDA is suitable for short text. 　　Key Words：LDA； topic model； text classification； short text 　　文本?稻葑魑?非结构化数据的一种，如何从中进行信息的提取，得到了高度的关注。微博、商品评论等信息都表现为短小、代表性词少等特征，LDA对于短文本的主题挖掘并不一定能够达到理想效果。因此，基于LDA对长、短文本进行分类，探究LDA主题模型对于短文本挖掘是否适用。　　1 LDA主题模型概述　　1.1 LDA基本思想　　LDA主题模型[1]认为文档集合中所有的文档按照一定的概率共享某些潜在主题，而这些潜在的主题又可以由文档中的一些特征词来表示[2]。因此，就可以用一个三层贝叶斯模型来表示 “文档”、“主题”和“特征词”之间的关系，如图1所示。LDA模型可以表示为。　　1.2 参数估计　　LDA主题模型使用Gibbs抽样[3]对未知参数φ和θ进行估计，吉布斯更新规则为：参数估计。　　2 实验数据及结果　　2.1 实验数据集及预处理　　长文本实验数据来源于微信公众号抓取的新闻数据，共社会、教育、健康等7个类别。短文本实验数据集来源于SODA上海开放数据创新应用大赛网格化管理数据，共有暴露垃圾、跨门营业和占道无证经营3个小类。长文本平均每条新闻在180字以上，共741条；短文本中每条数据平均字数在100字以下，共998条。　　2.2 实验环境　　分词处理：R 　　主题挖掘：JGibbs 　　文本分类：libsvm[4] 　　2.3 实验结果　　选择精确度、召回率和F值作为评价指标[5]比较分类准确性，结果评价如表1所示。表1中显示长文本的各指标均高于短文本的各个指标，面对短文本，LDA效果较差。　　3 结语　　使用LDA对不同长度的文本集进行主题挖掘，利用libsvm进行分类，根据分类结果各评价指标可以看出长文本分类效果明显高于短文本分类效果，LDA并不适用于短文本。数据集的选取、文本分词的效果和数据集中类别的数量会对分类结果造成一定的影响，因此，可以进一步研究如何消除这些外在条件的影响从而更加严谨的对比LDA对于长、短文本的主题挖掘效果。　　参考文献　　[1]Blei D， Ng A ，Jordan M. Latent Dirichlet Allocation [J].Journal of Machine Learning Research，2003（3）：993-1022. 　　[2]王鹏，高铖，陈晓美.基于LDA模型的文本聚类研究[J].情报科学，2015，1（33）：63-68. 　　[3]Thomas L. Grimths， Mark Steyvers. Finding scientific topics[J]. PNAS，2004：52. 　　[4]董露露.基于特征选择及LDA模型的中文文本分类研究与实现[D].安徽大学硕士学位论文，2014（4）. 　　[5]Xiaojun Wu， Liying Fang， Pu Wa