基于主题的关键词提取方法对比研究4.docVIP

基于主题的关键词提取方法对比研究4.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题的关键词提取方法对比研究4

大连理工大学毕业设计(论文)格式规范 基于主题的关键词提取方法对比研究  PAGE 2 – PAGE 4– 3.4.2 LDA模型的优缺点 (1) 优点 ① 和PLSA类似,定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释; ② 此外优化目标是是KL距离最小,而不是依赖于最小均方误差等准则;文档数和单词个数增加时,所求的变量数不变。 (2) 缺点 采用了Dirichlet分布、变分推理或者吉布斯抽样的方式来进行求解,求解过程中需要反复的迭代,从而需要很大计算量; 4 模型应用及实验分析 4.1 实验背景介绍 对关键词提取进行分析时,通常需要对大规模数据进行分析,过程中包括大量的数学运算以及矩阵分析。前面我们介绍了基于主题的一些算法,不过只是从理论上对算法进行了简单的给出定义而已。接下来我们通过关键词抽取实验来更好地阐述基于主题的关键词提取算法。本文主要在MATLAB平台下进行了实验: 开发工具:Matlab 7.0 开发语言:Matlab语言 操作系统:Windows XP Matlab是集数值计算和可视化与一体的高性能、高精度开发平台。因其在符号运算、图形处理、模拟仿真等方面的出色表现,近年来Matlab已经得到了业界的普遍认可,被广泛的应用于科学计算、控制系统、信息处理等领域的分析、仿真和设计工作上。另外,Matlab系列产品具有开放式的结构,可以非常容易的对Matlab进行功能扩充,不断的进行完善。目前,利用整个Matlab产品系列,可以完成如下的功能: 数据分析; 数值和符号计算; 工程与科学绘图; 控制系统的设计与仿真; 数字图像处理; 建模、原型开发; 数字信号处理; 通信系统设计与仿真; Matlab有属于自己专有的程序设计语言,与其他计算机语言(如C,java等)进行比较,其最大的特点是简单和直接。它具有编程效率高、使用方便、扩充性等特点。除此之外,Matlab提供了十分丰富的函数库,在进行复杂数学运算时可以在Matlab语言中直接调用,这大大降低了程序开发的难度。 按照其功能,Matlab的主要组成部分包括:开发环境,数学函数库,文件输入/输出,图形处理,图形用户界面,外部接口等。Matlab的??统主界面如图4.1所示: 图4.1 Matlab主界面 4.2 实验数据集及评价标准 前面我们介绍了基于主题的一些算法,不过只是从理论上对算法进行了简单的给出定义而已。接下来我们通过关键词抽取实验来更好地阐述基于主题的关键词提取算法。 本文中运用两个的实验数据,第一个实验数据来自这样一个经典案例:Human Computer Interface(HCI) 与 graph theory ,第二个实验数据集是从网络上下载得到的20篇文档。 目前对关键词提取算法的评估方法是将算法提取出来的关键词与标准的人为提取出来的关键词作词法上的匹配。著名的 Precision(精确度,又称查准度) 和 Recall (召回率,又称查全率) 被用来对我们的关键词提取算法进行评价。 召回率(Recall) = 系统检索到的关键词数/ 所有的关键词数 (4.1) 准确率(Precision) = 系统检索到的关键词数 / 系统检索到的所有词数 (4.2) 假设A:检索到的相关的关键词数;B:检索到的不想关的词C:未检索到的相关的关键词数;那么召回率=A/A+C; 准确率=A/A+B; 注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高。 传统的提取关键词的方法中有一个很重要的方法:TF-IDF(term frequency–inverse document frequency),它是一种用于资讯检索与文本挖掘的常用的加权技术。TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。 TF-IDF加权的各种形式常被有哪些信誉好的足球投注网站引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜寻引擎还会使用基于

文档评论(0)

2017ll + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档