基于概率主题模型的景点知识挖掘及其可视化.docxVIP

基于概率主题模型的景点知识挖掘及其可视化.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概率主题模型的景点知识挖掘及其可视化

基于概率主题模型的景点知识挖掘及其可视化   摘要:针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布,且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。   关键词:概率主题模型;旅游文本;噪声;Gibbs采样;可视化   中图分类号:TP391   文献标志码:A   0引言   Web 技术及在线旅游代理的飞速发展导致旅游数据爆炸性增长。如何有效地从海量旅游数据中挖掘出有用的信息并以直观方式进行展示成为当前的迫切需求。   近年来,对旅游数据的挖掘工作多集中于对旅游照片及相应元数据、标签的研究,如文献[1-2]等利用Flickr网站用户上传的海量旅游照片及标签信息对景点进行聚类分析;文献[3]从Panoramio[4]网站采集照片聚成地标,并为每个地标找到最具代表性的照片与标签等。随着文本数据挖掘的快速发展,旅游文本数据相关的研究工作方兴未艾,相关研究工作通常可分为两类,即词频分析法和主题挖掘法。词频分析法利用词频统计结果进行文本分析,如文献[5]采用词频分析法刻画目的地旅游感知形象,文献[6]利用内容分析法获取目的地语义网络分析图等。该类方法将单词视为单纯的文本符号,无法识别其中的语义信息。主题挖掘法采用或扩展隐含狄利克雷分布[7],利用潜在主题识别语义信息,从而提高文本数据挖掘的效果,如文献[8-9]提出一种地点主题模型用于挖掘目的地的主题分布信息,以文本标签形式生成目的地概述。然而旅游目的地由景点组成,目的地特征由景点的类型与特征构成,同一文本可能涉及不同景点,这些景点间具有地理位置、主题等关联关系,上述方法对地点划分粒度较大且没有考虑景点关联关系。另外,旅游文本中常包含时间、门票、电话等与景点主题特征相关性不大的信息,即“噪声语义”,多数主题挖掘方法没有考虑噪声语义消除问题,LT模型虽可利用“全局主题”过滤噪声语义,但模型复杂度较高。为充分利用景点间的关联关系,有效消除噪声语义,本文提出一种简单的基于概率主题模型的景点主题模型以无监督地从旅游文本中挖掘景点主题分布信息,并以景点关联图的形式展示旅游目的地的景点类型与主题特征。   1相关工作   概率主题模型   概率主题模型是针对文本中隐含主题的一种建模方法。由于不需要对文档进行人工标注及可自动分析主题的特点,概率主题模型已被成功运用到多种文本挖掘问题中。它的主要思想是认为文档是若干主题的混合分布,而每个主题又是一个关于单词的概率分布。   自提出以来,概率主题模型经历了潜在语义分析[11]、概率潜在语义分析[12]、LDA、 分层狄利克雷过程[13]等阶段的发展,目前以LDA应用最为广泛。LDA是一种生成模型:对于新文档中的每个单词,通过主题的分布随机得到文档的某个主题,然后通过该主题中单词的分布随机得到一个单词。   如图2所示,LDA是典型的有向概率图模型[14],超参数α反映了文档集合中隐含主题间的相对强弱,超参数β刻画所有隐含主题自身的概率分布。   可视化模型   可视化技术因具备直观、易理解的特点被广泛应用于各个领域,它用二维或三维图像的方式展现数据,便于发现数据的分布特征及其中蕴含的模式特征[15]。图是一种典型的数据结构,很多数据均可通过图来表达。   力导向模型是一种基于物理方法的可视化模型。该模型将图类比为一个虚拟的物理系统,图的各个节点看作系统中的质点,节点之间的边看作节点间的相互作用力。模型将胡克定律作为基本算法,每次迭代,节点向所受合力的方向移动,经足够的迭代后,系统达到平衡,此时系统中的能量达到最小,图的可视化显示最为美观。   力导向算法基本过程如下:   1)随机分布初始节点位置;   2)分别计算局部区域内边的引力和斥力所产生的两端节点的单位位移;   3)累加步骤2)得到的所有节点的单位位移;   4)重复步骤2)、3)直到达到理想效果。   2景点主题模型   本章介绍GS-STM,并采用Gibbs采样[16]算法对模型进行求解,从而获得景点与主题、主题与单词之间的概率分布。   从图4可以看出,三种基于概率主题模型的方法――GS-STM、STM、LDA的DBI值均低于TF-IDF,说明基于概率主题模型的方法能够有效利用文档中的语义信息;不同主题数下,GS-STM、STM的DBI值均高于LDA,说明考虑文档

文档评论(0)

manyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档