基于改进LDA模型的离群评论选择.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进LDA模型的离群评论选择

基于改进LDA模型的离群评论选择   摘要:评论文本中的词符合幂律分布,使LDA模型词的分布偏向高频词,导致主题相似度大,表达能力下降。提出幂函数加权LDA模型以提高低频词的表达能力。使用iForest算法,选择出与众不同且具有价值的评论集合。实验结果表明,选择的评论子集特征覆盖率较高,且有较高的平均信息量。   关键词:LDA;iForest;特征覆盖率;平均信息量   DOIDOI:/   中图分类号:TP301   文献标识码:A文章编号文章编号:   Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.   Key Words:LDA; iForest; feature; coverage; average information   0引言   ?W络购物已成为人们生活不可或缺的一部分。用户在购买商品前,往往喜欢浏览商品评论,从而了解商品的具体信息。但随着评论数量的急剧增长,用户浏览并分析这些信息变得不现实[1],大量的评论造成信息过载[2]。因此,从大量的评论中选出一组具有代表性的评论子集展示给用户变得愈加重要,评论选择也成为学者的研究热点。Tsaparas等[3]把评论选择转化为一个最大特征覆盖率问题,使用改进的贪心算法[4]选择评论子集,但容易选择出内容过长的评论。Ganesan等[5]提出基于ngram模型获取评论总结,从大量的评论中总结出具有代表性和可读性的短语,此种方式结果过于简洁,反映的信息较片面。有学者提出根据商品的特征评分和获得支持的得分对评论进行质量排名,取TopN个评论作为评论子集,确保其质量优良[6],但也不能完全排除选中长评论的可能。上述方法易受高频词的影响,忽视低频且重要的词,因此本文提出幂函数加权LDA模型的评论选择方法,提高低频词的表达能力,从而找出一组较特殊的且信息量较高的评论推送给用户。   1问题定义   本文提出的幂函数加权LDA模型,将评论文本转化为空间向量,使用高效的IForest算法找出特殊的、有意义的、与众不同的评论子集。   定义R为评论集,R={r1,r2,…,rn},n为评论个数,这些评论涵盖了用户关注的全部商品特征A={a1,a2,…,am},m为给定的特征词个数。评论选择的任务就是从R个评论中选择K个评论作为子集,S={r1,r2,…,rk},SR且kn。   图2中,AAI表示全部评论特征词的平均信息量。SAAI表示评论子集中特征词的平均信息量。引入幂函数特征词加权后,评论子集特征词的平均信息量高于SAAI,说明评论子集包含更多的低频特征词。在相同的   主题数下,随着σ增大,平均信息量不一定增加。未引入加权函数和扩充系数时,评论子集的平均信息量与主题个数无关。引入加权函数和扩充系数后,每个扩充系数都对应一个较优的主题数,使评论子集平均信息量最大。   4结语   传统LDA模型难以兼顾有意义且重要的低频特征词,因此提出一种幂函数加权LDA模型用于评论选择。引入特征加权函数和扩充系数,调整词频权重,兼顾了低频特征词,不仅提高了评论子集的平均信息量,而且提高了特征覆盖率。   

文档评论(0)

manyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档