《Python自然语言处理》第05章-词向量与关键词提取.pptVIP

《Python自然语言处理》第05章-词向量与关键词提取.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
章节回顾 01 OPTION 02 OPTION 有监督的关键词 提取方法 无监督的的关键词 提取方法 关键提取算法TF-IDF算法 TF-IDF (term frequency-inverse document frequency,词频——逆文档频次算法): 一种基于统计的计算方法,常用于评估某个词对一份文档的重要程度,重要程度高的词会成为关键词。 TF-IDF算法由两部分组成: TF算法:统计在一篇文档中一个词出现的频次。核心为若某个词在一个文档中出现的次数越多,则它对文档的表达能力也越强。 IDF算法是来统计一个词在文档集的多少个文档中出现。核心为若某个词在越少的文档中出现,那么它区分文档能力也就越强。 在实际应用中,会将TF算法、IDF算法这两种算法结合使用,由此就能从词频、逆文档频次这两个角度来衡量词的重要性。 关键提取算法TF-IDF算法 关键提取算法TF-IDF算法 关键提取算法TF-IDF算法 关键提取算法TF-IDF算法 TF-IDF算法的变种 传统的TF-IDF算法中,仅考虑了词的两个统计信息(出现频次、在多少个文档出现),其对文本的信息利用程度考虑较少。 文本中还有许多信息,例如每个词的词性、出现的位置等,对关键词的提取起到很好的指导作用。在某些特定的场景中,如在传统的TF-IDF基础上,加上这些辅助信息,能很好的提高对关键词提取的效果。如: 名词作为一种定义现实实体的词,带有更多的关键信息,在关键词提取过程中,对名词赋予更高的权重,能使提取出来的关键词更合理。 文本的起始段落和末尾段落比起其他部分的文本更重要,对出现在这些位置的词赋予更高的权重,也能提高关键词的提取效果。 课程小结 谢谢观看 词向量与关键词提取 Python自然语言处理 第五章 CONTENT 01 02 03 04 05 06 章节回顾 TF-IDF算法 01 OPTION TextRank算法 仅对单篇文档进行分析并能提取其中的关键词。早期应用于文档的自动摘要,基于句子维度的分析,利用TextRank对每个句子进行打分,找到分数最高的句子作为文档的关键词,从而实现自动摘要的效果。 TextRank算法 PageRank算法 PageRank算法思想启发了TextRank算法。 PageRank算法是谷歌构建原始有哪些信誉好的足球投注网站系统的时候提出的链式分析算法,该算法用来评价有哪些信誉好的足球投注网站系统网页重要性的一种方法,是一个成功的网页排序算法。 PageRank算法核心思想: 链接数量:比如一个网页被越多其他的网页链接,说明该网页越重要。 链接质量:比如一个网页被越高权值的网页链接,说明该网页越重要。 TextRank算法 PageRank算法计算图如图所示: 首先理解几个概念: 出链:如果在网页a中附加了网页b的超链接b-link,用户浏览网页a时可以点击b-link然后进入网页b。上面这种a附有b-link这种情况表示a出链b。 入链:上面通过点击网页a中b-link进入网页b,表示由a入链b。如果用户自己在浏览器输入栏输入网页b的URL,然后进入网页b,表示用户通过输入URL入链b。 无出链:如果网页a中没有附加其他网页的超链接,表示a无出链。 PR值:一个网页被访问的概率。 TextRank算法 TextRank算法 TextRank算法 当TextRank应用到关键词提取时,与应用在自动摘要中时主要有两点不同: 词与词之间的关联没有权重 每个词不是与文档中所有词都有链接。 TextRank算法 对于第二点不同,每个词不是与所有词相连,使用窗口来确定链接关系。在窗口中的词相互间都有链接关系。 以下面的文本为例: 世界献血日,学校团体、献血服务志愿者等可到血液中心参观检验加工过程,我们会对检验结果进行公示,同时血液的价格也将进行公示。 经过分词后为——【世界,献血, 日,学校,团体,献血,服务,志愿者,等】。 现在将窗口大小设为5,可得到以下的几个窗口: 1) [世界,献血,日,学校,团体] 4) [学校,团体,献血,服务,志愿者] 2) [献血, 日,学校,团体,献血] 5) [团体,献血,服务,志愿者,等] 3) [日,学校,团体,献血,服务] 每个窗口内所有的词之间都有链接关系。然后就可以使用TextRank的公式,对每个词的得分进行计算了。最后选择得分最高的n个词作为文档的关键词。 课程小结 谢谢观看 词向量与关键词提取 Python自然语言处理 第五章 CONTENT 01 02 03 04 05 06 章节回顾 01 OPTION 02 OPTION PageRank算法 TextRank算法 LSA/LSI/LDA算法 0 5 LSA/LSI/LDA算法 一般来说, TF—IDF算法和TextRank算法就能

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档