XML在Web数据挖掘中的应用论文.docVIP

下载本文档

0
0
约1.16万字
约 19页
2017-11-25 发布于江西
举报
版权申诉

XML在Web数据挖掘中的应用论文.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XML在Web数据挖掘中的应用论文

目录 1.绪论 1 2. Web数据挖掘概述 1 2.1 数据挖掘的基本概念 1 2.2 Web数据挖掘的基本概念、分类和应用 2 2.2.1Web数据挖掘的基本概念 2 2.2.2Web数据挖掘的分类 3 2.2.3Web数据挖掘的应用 3 2.3 Web数据挖掘的特点 4 2.3.1Web数据挖掘的数据分类 4 2.3.2 Web数据的特点 4 2.4进行Web数据挖掘需要解决的问题 5 3.XML概述 5 3.1 XML起源 6 3.2 XML的特点 6 3.3 XML的应用范围 7 4. XML应用于Web数据挖掘的过程 7 5.长沙近期天气信息挖掘应用实例 9 5.1 问题描述 9 5.2 建立基于XML技术的Web数据挖掘模型 9 5.3 挖掘过程的标准Web技术实现 10 6.总结与展望 16 XML在Web数据挖掘中的应用摘要：Web是一个动态性极强的信息源，访问、分析Web数据需要研究异构数据的集成问题。本文介绍了数据挖掘的基本知识、Web数据挖掘的概念及XML的特点，阐述了将XML应用于Web数据挖掘的基本理论，并结合标准的Web技术开发方法，以在YAHOO!页面上抽取长沙地区天气信息为实例，描述了基于XML技术的Web数据挖掘过程。关键词：Web数据挖掘；可扩展标记语言；超文本标记语言 The Application of XML in Web Data Mining Abstract：Web is an information resource with dynamic. In order to visit and analyze these data, we must study how to integrate these isomerism data. This paper introduces the basic knowledge of Data mining, the concepts of Web data mining and the characters of XML. It expounded the basic theory of the application of XML in Web data mining. And combine standard Web technology method of exploitation, by the example of extracting weather information of Changsha area from YAHOO.com, described the Web data mining process which based on the XML technology. Keywords：Web Data Mining；XML；HTML WWW在深度和广度方面正飞速的发展，使得Internet成为目前最丰富最密集的信息来源之一。近年来,越来越多的机构、团体和个人在Internet上发布、查找信息。但不幸的是，尽管作为信息主要载体的HTML可以提供一种方便的向读者呈现信息的方法，但是它并不是一个很好的可以从WWW中抽取与数据驱动的服务等相关信息的结构。其主要原因在于，Web上的数据以多种形式存在，没有特定的模型来描述，每一个站点的数据都是由各个站点的设计人员自行进行设计与组织，并且数据本身还存在着自我描述性和动态可变性。由于以上所述原因，人们想要在Web上寻找自己所需的数据犹如大海捞针一般。如何解决这个问题，现在通用的一个方法就是，将传统的数据挖掘技术和Web结合起来，进行Web数据挖掘。面向Web的数据挖掘比传统的面向单个数据库的数据挖掘要复杂的多，传统数据库中的数据结构性很强，其中的数据为完全结构化的数据；如果把Internet看成一个更大、更复杂的数据库，则Web上的数据的数据结构并不是一种结构化数据，而是一种被我们称之为半结构化的数据或是异构数据，所谓半结构化是相对于结构化和完全非结构化数据而言的。但是Internet上的数据不是完全结构化的也不是完全非结构化的，其原因在于它的页面存在一定的描述层次，存在有一定的结构，故称之为半结构化数据。针对Internet上的数据半结构化的特点，寻找一个半结构化的数据模型成为了解决问题的关键所在。由W3C定义的XML是一种设计标记语言的规范，为目前依然十分混乱的HTML世界提供了框架结构，其TAG具有语义。XML由用户定义，能够映射一定的数据的含义，且XML文件描述的语义十分清晰，很容易跟关系数据库一一对应。因此，可以利用XML对数据挖掘技术和Internet上的数据结构的特征进行分析，并把XML作为一种半结构化的数据模型实施查询与数据抽取，使得用户