carrot2聚类工具简介.pptVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Carrot2聚类工具简介 —— 2009.04.16 Contents Carrot2体系结构 Carrot2聚类算法 Lingo STC Carrot2 Applications Webapp Workbench DCS Carrot2 source code下载与配置、运行 Carrot2 core、Attribute 可用资源 Carrot2简介 Carrot2 is an Open Source Search Results Clustering Engine 。 Author:Dawid Weiss Stanislaw Osinski 波兰人,波兹南大学 研究方向:text clustering, information retrieval, web mining, computational linguistics and software engineering Carrot2体系结构 Carrot2是一个开源的基于有哪些信誉好的足球投注网站结果的聚类引擎 Lucene索引结果 Lucene索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组,由一个域名和一个域值组成,域名是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。 Carrot聚类算法 Lingo:基于奇异值分解的索引结果聚类算法 首先确定可感知的类标签,然后将文件分配到类中 Preprocessing预处理 Filtering文本过滤、stemming提干、stopword去除停用词 Frequent phrase extraction Cluster label induction Cluster content discovery Final cluster formation Carrot2聚类算法 STC(Suffix Tree Clustering)后缀树聚类算法,一种On-line聚类算法 (1)将文档片段作为输入而不是整篇文档 (2)聚类算法必须足够快速实现在线计算 (3)生成的类簇必须是终端用户可读的描述 STC将文档作为字符串来处理,利用文档间相似信息 STC是新颖的、增值的、O(n)时间复杂度 STC快速的为用户总结出类簇内容 STC处理小数据集,所以耗时较少 后缀树包含了一个或者多个字符串的所有后缀,空字符串也算是其中的一个后缀 例如:banana后缀为: banana anana nana ana na a 空 一般来说后在字符串末尾加$特殊字符作为结束标记 后缀树: 有根节点的有序的树 每个内部节点至少有2个子节点 每条边以S的非空子字符串做标签,节点的标签定义为从根节点到该节点路径上的标签的串联 同一节点出发的两条路径不可能以同一词开始 Example STC步骤: 一、文档清洗 tagger stemmer 句子边界界定 stop word 二、标识基础类簇 (1)通过文本预处理将文档表示为词的序列,构成后缀树; (2)利用后缀树找到基类簇,至少被两个文档包含的短语称为短语束,基类簇就是要找到最大短语束B,用来描述相关短语mB和出现该短语的文档dB,并计算各个基类簇的值S(B); 三、合并基础类簇 合并基类簇,为了避免出现非常类似的基类簇,可以设置一个阈值k Carrot2 Applications workbench Carrot2文档聚类平台,是一个独立的GUI程序,可以用来对一般有哪些信誉好的足球投注网站引擎数据或你自己的数据进行聚类实验。 DCS Carrot2文档聚类服务器,将Carrot2聚类作为REST服务呈现。 Webapp Carrot2网络应用,可以将Carrot2聚类作为终端用户的网络应用呈现。 Workbench聚类平台 下载carrot2-workbench-win32.win32.x86-3.1-dev.zip解压,执行carrot2-w

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档