第6章Web挖掘技术 知识(new) 数据挖掘课件.pptVIP

第6章Web挖掘技术 知识(new) 数据挖掘课件.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章Web挖掘技术 知识(new) 数据挖掘课件.ppt

Web挖掘的意义 Web挖掘的分类 Web挖掘的含义 Web挖掘的数据来源 Web内容挖掘方法 Web访问信息挖掘方法 Web结构挖掘方法 ;从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着大量的信息,通过简单的浏览或关键词匹配的有哪些信誉好的足球投注网站引擎得到的是孤立而凌乱的“表面信息” ,Web挖掘可以发现潜在的、丰富的关联信息。 将Web上的丰富信息转变成有用的知识:Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。 对用户进行信息个性化:网站信息的个性化是将来的发展趋势。通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方的设计,提供个性化的服务。 ;Web挖掘依靠它所挖掘的信息来源可以分为: Web内容挖掘(Web Content Mining):对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。 Web访问信息挖掘(Web Usage Mining):Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。 ; Web结构挖掘(Web Structure Mining):Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。;WeB挖掘是一个宽泛的概念,可以简单地描述为: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。 ;Web挖掘的数据来源是宽泛的:凡是在Web站点中对用户有价值的数据都可以成为它挖掘的数据源。 由于这些对象的数据形式及含义的差异,其挖掘技术???不同。一些比较有代表性的数据源有: 服务器日志数据 在线市场数据 Web页面 Web页面超链接关系;服务器日志数据;;在线市场数据;Web页面;Web页面超链接关系; Web内容挖掘可以被认为是基本的Web检索工作的延伸。有许多技术可用于Web信息检索。如大多数有哪些信誉好的足球投注网站引擎采用关键字匹配技术。 Web内容挖掘建立在信息检索基础之上,通过采用概念层次、用户概貌、页面链接技术等对传统有哪些信誉好的足球投注网站引擎进行改进。;Web内容挖掘分为代理人方法和数据库方法。 代理人方法使用软件系统(代理)来完成内容挖掘。包括智能检索代理、信息过滤和个性化Web代理等。 智能检索代理超越了简单的检索机制,使用通过关键词之外的技术来完成检索,可以利用用户模版或其关心的知识领域等来实现信息的抽取。 信息过滤利用信息检索技术、连接结构的知识和其他方法来分析和分类文档。 个性化Web代理使用有关用户的喜好的信息来指导它们的检索。 数据库方法将所有的Web数据描述为一个数据库系统。意味着Web是一个多级的异构的数据库系统,可以通过多种查询语言获得Web的信息来完成信息的抽取。;Web内容挖掘的基本技术是文本挖掘。文本挖掘的方式是有层次的,基本层次有: 关键词检索:最简单的方式,与传统的有哪些信誉好的足球投注网站技术类似。 挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。 信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。 自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。 ;有哪些信誉好的足球投注网站引擎与Web内容挖掘;虚拟的Web视图;个性化与Web内容挖掘;Web页面内文本信息挖掘;Web页面内文本信息挖掘;Web页面内多媒体信息挖掘;Web页面内容的预处理;Web页面内容的预处理;Web访问信息挖掘的特点; Web访问数据包含决策可用的信息 数据记录的用户的访问行为,代表用户的个性。用户的访问特点可以被用来识别该用户和网站访问特性。 同一类用户的访问,代表同一类用户的个性。 一段时期的访问数据代表了群体用户的行为和共性。 Web访问信息数据是网站的设计者和访问者进行沟通的桥梁。 Web访问信息数据是开展数据挖掘研究的良好的对象。;Web访问信息挖掘对象的特点 访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。 访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。 每个页面内容

您可能关注的文档

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档