基于聚类分析策略的Web文本挖掘方法.pdfVIP

基于聚类分析策略的Web文本挖掘方法.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于聚类分析策略的Web文本挖掘方法.pdf

第26卷 第4期 延安大学学报(自然科学版) Vo1.26 No.4 生 旦 Journal of Yanan Universitv(Natural Science Edition Dec.2Oo7 基于聚类分析策略的Web文本挖掘方法 刘彦保,王文发,王文东 (延安大学 数学与计算机科学学院,陕西 延安 716000) 摘 要:在分析Web文本挖掘过程、关键技术的基础上,针对训练文本集中往往存在多个主题类别 的问题,提出一种基于聚类分析策略的Web文本挖掘方法。其基本思路是对训练文档集进行聚类 处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约减,从而获得表示用户不同 主题感兴趣概念向量。 关键词:Web挖掘;文本挖掘;聚类分析;特征向量 中图分类号:Tit391 文献标识码:A 文章编号:1004-602X(2007)04-0022-04 随着计算机网络的迅速发展和应用的不断普 1 Web文本挖掘 及,Intemet已发展成为当今世界上最大的信息仓 库,它为用户提供了海量的、丰富的数据资源。如何 1.1 Web文本挖掘概念 从Web上的大量信息中有效、快速地找出用户感兴 Web文本挖掘是指借鉴数据挖掘的基本思想 趣的信息,针对不同用户提供不同的服务策略和服 和理论方法,从大量非结构化、异构的Web文档的 务内容的服务模式,为用户提供个性化的Web服 集合D中发现有效的、新颖的、潜在可用的及最终 务,便成为Web挖掘的一个新的研究领域…。 可理解的知识K(包括概念、模式、规则、规律、约束 传统的数据挖掘所处理的数据是结构化的,如 及可视化等形式)的非平凡过程。如果将D看作输 关系的、事务的、数据仓库的数据,其特征数目通常 入,将K看作输出的话,那么Web文本挖掘的过程 不超过几百个,而Intemet上的信息是以网页形式 就是从输入到输出的一个映射e:D—K。 存放的,网页的内容又多以文本方式来表示,是没有 1.2 Web文本挖掘过程 结构的,转换为特征矢量后特征数将达到几万甚至 文本挖掘的过程如图1所示,从文本信息源出 几十万。同时由于用户感兴趣的文本集往往存在不 发,最终结果是用户获得的知识模式。文本挖掘一 同主题,如果没有对训练文档进行类别区分,而是将 般经过文本预处理、特征提取及约减、学习与知识模 所有的特征词全部放到同一个向量中,有可能会导 式提取、知识模式评价四个阶段。 致语义约束能力不足的问题l2 J。据此,本文提出一 1.3 Web文本挖掘的关键技术 种基于聚类分析的Web文本挖掘方法,当用户向搜 (1)文本预处理 索引擎发出有哪些信誉好的足球投注网站关键词的时候,能够利用聚类结果 文本预处理是文本挖掘的第一个步骤,对文本 对输入关键词进行语义约束或者对返回结果进行过 挖掘效果的影响至关重要。与传统的数据库中的结 滤,从而实现个性化有哪些信誉好的足球投注网站。 构化数据相比,文档具有有限的结构,或者根本就没 收稿日期:2007—07—02 作者简介:刘彦保(1964一),男,陕西绥德人,延安大学教授。 第4期 刘彦保,王文发,王文东:基于聚类分析策略的Web文本挖掘方法 23 概念可以描述如下:

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档