改进的K均值算法在中文文本聚类中的研究-计算机软件与理论专业论文.docxVIP

改进的K均值算法在中文文本聚类中的研究-计算机软件与理论专业论文.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的K均值算法在中文文本聚类中的研究-计算机软件与理论专业论文

摘要 摘要 III III IV IV 摘要 随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进 行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文 本聚类和文本分类作为一个有效的管理和组织文本的工具,受到了越来越多的 重视和研究。 本文以中文文本聚类为研究对象,对中文文本聚类全过程进行了较为深入 的研究,包括文本预处理,文本聚类。针对 K 均值算法(KM)和二分 K 均值算 法(BKM)在聚类分析存在的不足,基于合作聚类思想,提出了一种改进的文 本聚类算法:合作二分 K 均值算法(CBKM)。 本文主要的工作和取得的成果如下: (1)对当前主要的文本聚类方法及代表性算法进行了深入分析和研究, 指出了各种代表性算法的优缺点及适用范围。 (2)对文本聚类中文本表示模型、文本间距离的度量和文本预处理等关 键技术问题进行了较为深入的探讨。 (3)K 均值算法(KM),其聚类效果由于受初始聚类中心的影响,k 值选 择难以有统一标准,且初始聚类中心的选择会对聚类产生较大影响,孤立点的 存在造成很难找到全局最优解。而二分 K 均值算法(BKM),其在聚类过程中产 生的成员碎片难以通过其他方法来进行重新聚类。针对 KM 算法和 BKM 算法在 聚类中存在的缺陷,作者基于合作聚类的思想,提出了一种合作二分 K 均值算 法(CBKM)。该算法主要分为整体聚类、合作聚类和融合三个阶段。该算法是 在 BKM 产生 CF 树的过程中与通过 KM 进行同步的中间合作来实现的。通过引入 相似柱状图的概念,其能够直观的反应簇之间元素的粘合性。并根据子类相似 的相似柱状图计算出两个子类的融合因子,将融合因子值最大的两个簇进行融 合,更新聚类簇。此过程产生的聚类结果能够有效的避免聚类碎片的产生,并 且由于是对子类的交集进行合并聚类,所以有效的改善了 K 均值算法受初始聚 类中心影响,该算法得到的是全局最有解,而不是局部最优解。 (4)CBKM 算法是建立在 KM 算法和 BKM 算法的融合基础上,从性能上来 看,CBKM 算法的时间复杂度高于 KM 算法和 BKM 算法,但低于两者的和。 (5)基于搜狗语料库,分别对 KM 算法、BKM 算法和 CBKM 算法进行中文 文本聚类实验。结果表明:在互信息、纯度、F 度量这三个度量标准上,CBKM 算法均高于其他两个算法;而在熵值这个度量标准上,CBKM 算法明显低于 其他两个算法。因此,CBKM 的聚类性能优于 BKM 和 KM 算法。 关键词: 合作聚类 ,K 均值算法,二分 K 均值算法 ,向量空间模型 摘要 摘要 V V VI VI Abstract Along with the information time, various statistics of electronic texts increased sharply. How to manage the complex statistics validly and achieve needed information has become an imperative topic which needs to be tackled immediately. As efficient tools for manage and organize texts, text clustering and categorization have attracted more and more attention and research. In this paper ,the main research target is Chinese texts, we do deep research on the whole process of text clustering ,which including two steps:texts pre-processing and clustering. On the analyze the shortcomings of K-means(short for KM) algorithm and bisecting k-means clustering(short for BKM) algorithm, we proposed a novel improved clustering algorithms on the basis of cooperative clustering: cooperate bisecting k-means clustering algorithm (short for CBKM). The main work of this paper is present

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档