后缀树及其算法在文本挖掘中的应用研究-国家科技图书文献中心.doc

下载文档 降价啦

2
0
约5.77千字
约 5页
2017-04-18 发布于天津
举报
版权申诉
保障服务

后缀树及其算法在文本挖掘中的应用研究-国家科技图书文献中心.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

后缀树及其算法在文本挖掘中的应用研究-国家科技图书文献中心.doc

PAGE PAGE 5 后缀树及其算法在文本挖掘中的应用研究李海涛 (中国科学技术信息研究所，?北京 100038) 【摘要】本文首先引入了一种新颖的数据结构——后缀树的相关概念，在此基础上，对其特点和算法的构建进行了论述，并探讨了后缀树及其算法在中文分词、关联分析中的应用，然后以中文文档聚类为例，结合中文需要分词的特点，设计出了基于后缀树聚类算法的聚类系统结构。【关键词】短语、短语串、后缀树、关联分析、聚类 The Study of Suffix Tree and its Arithmetic’s Application in Text Mining Li haitao (Institute of Scientific Technical Information of China, Beijing 100038) 【Abstract】 This paper introduces a novel data structure — suffix tree conception, and then discusses its particularity and its Arithmetic’s constructing process, discusses suffix tree and its Arithmetic’s Application in Chinese word segmentation and association analyses, at last takes the Chinese document clustering as an example ,considering the need of Chinese word segmentation, designs the clustering system’s structure based on suffix tree clustering Arithmetic. 【Keywords】 phrase, phrase cluster, suffix tree, association analyses, clustering 1. 引言存储信息使用最多的是文本，事实上，最近研究表明公司信息有80%包含在文本文档中，所以文本挖掘被认为比数据挖掘具有更高的商业潜力。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并利用这些知识更好地组织信息的过程。文本挖掘的主要研究内容包括关联分析、文本分类、文本聚类等。关联分析是首先收集经常一起出现的关键字、词汇或短语，然后找出其关联和相互关系[1]。在这里笔者将其分为字、词和短语三种级别的关联分析。文本分类是按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档，而且可以限制有哪些信誉好的足球投注网站范围来使文档的有哪些信誉好的足球投注网站更容易、快捷。文本聚类的目标和文本分类是一样的，只是实现的方法不同，文本聚类是无教师的机器学习，在文档归类之前没有定义好的类可供选择，在文本聚类时，将所有类型接近的文档归为一类，使类型相同的文档尽量归为一???，类型不相同的尽量隔离开来，聚类的标准可以是文本的属性，也可以是文本的内容。 2. 后缀树相关概念 2.1 短语文中短语是一个具有一个或者更多的词的有序序列，一个短语可能是任意的长度，但该序列不会穿过短语边界。短语边界是文档解析器识别特殊语法记号时插入到短语间的，这些记号可以是标点符号标记(句号‘。’逗号‘，’分号‘；’问号‘？’等) 或者 HTML 标签 (例如p, br, li, td等)，文档的开头和结尾也被认为是短语边界[2]。 2.2 短语串一个短语串就是一个至少被两个文档共享的短语和包含该短语的所有文档。一个最大短语串必须满足在不减少文档的数量的情况下，该短语串的短语不能用任何该语言类型的词来扩充。 2.3 后缀树一个后缀树是一种数据结构，它支持有效的字符串匹配和查询。一个具有m个词的字符串S的后缀树T，就是一个包含一个根节点的有向树，该树恰好带有m个叶子，这些叶子被赋予从1到m的标号。每一个内部节点，除了根节点以外，都至少有两个子节点，而且每条边都用S的一个非空子串来标识。出自同一节点的任意两条边的标识不会以相同的词开始。后缀树的关键特征是：对于任何叶子i，从根节点到该叶子所经历的边的所有标识串联起来后恰好拼出S的从i位置开始的后缀，即S[i,…,m]。树中节点的标识被定义为从根到该节点的所有边的标识的串联。图1示意了字符串 I know you know I know 的后缀树。内部节点用圆来表示，叶子用矩形来表示,该例子中有六个叶子，被标号为1到6。终止字符在图中被省略掉了。图

您可能关注的文档

最近下载

文档评论（0）

170****0532 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

版权声明书

用户编号：8015033021000003

1亿VIP精品文档

更多 >

相关文档

更多 >

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 有哪些信誉好的足球投注网站APP下载

: 关注微信公众号

有哪些信誉好的足球投注网站从2008开站以来，已有超数十万网友上传了数亿文档，有哪些信誉好的足球投注网站定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（必威体育精装版）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 www.mdjjksjc.com 有哪些信誉好的足球投注网站. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992