利用XML的Web数据挖掘技术.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 工 程 与 技 术 · EnclineerinclandTechnoloqv 利用XML的Web数据挖掘技术 雷 燕 ,刘传领 (商丘职业技术学院 网络中心,河南 商丘 476(()()) 摘 要:面向web的数据挖掘是一项复杂的技术,而XML的出现为解决web数据挖掘的难题 带来了机会。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从 而能描述搜集的Web页中的数据记录 关键词 :XML;Web;数据挖掘 中图分类号:TP274 文献标识码: A 文章编号:l67l一93lX(2005)03—005l一03 一 、 面 向W eb的数据挖掘技术 都不一样 ,这就构成 了一个 巨大 的异构数据库环 Internet上有海量的数据信息,这些数据都是 以 境 。如果想要利用这些数据进行数据挖掘 ,首先 , Weh的形式存在的.怎样对这些数据进行复杂的应 必须要研究站点之问异构数据 的集成问题 ,只有将 用成 了现今数据库技术 的研究热点。数据挖掘就是 这些站点的数据都集成起来 .提供给用户一个统一 从大量 的数据中发现隐含的规律性的内容 ,解决数 的视图,才有可能从 巨大的数据资源中获取所需的 据的应用质量问题。充分利用有用的数据 ,废弃虚 东西 。其 次 ,还要解 决 w h上 的数据 查询 问题 , 伪 无用的数据 ,是数据挖掘技术 的最重要的应用 。 因为如果所需 的数据不能很有效地得 到 ,对这些数 打个 比方 :数据挖掘就像在大海里打鱼 ,我们要做 据进行分析 、集成 、处理就无从淡起 :weh上的 的如何把 Weh上的数据 “挖掘”出来。相对于weh 数据 与传统 的数据库 中的数据不 同,传统 的数据库 的数据而言,传统 的数据库 中的数据结构性很强 , 都有一定的数据模 .可以根据模 来具体描述特 即其 中的数据为完全结构化的数据 ,而 weh上 的数 定 的数据 。而weh 的数据非常复杂 ,没有特定 据最大特点就是半结构化 。所谓半结构化是相对于 的模型描述 ,每一站点的数据都武各汉自职独业立技设术计学,院并学 报 二0 O 五 年 完全结构化的传统数据库 的数据而 。显然 ,面向 且数据本身具有 自述性和动态可变性:因而 ,W h Web的数据挖掘比面向单个数据仓库的数据挖掘要 上 的数据具有一 定 的结构性 .fH因 自述层次 的存 复杂得 多 。 在 ,从而是一种非完全结构化的数据 ,这也被称之 二 、异构数据库环境 与半结构化 的数据 为半结构化数据 : 结 构 三 、解 决半结构化 的数据源 问题 从数据库研究的角度出发 ,weh网站上 的信息 weh数据挖掘技术首要解决半结构化数据源模 也可 以看作一个数据库 ,一个更大 、更复杂的数据 型和半结构化数据模 型的查询 与集成 问题 :解决 库 。Weh上 的每一个站点就是一个数据源,每个数 w h上 的异构数据的集成与查询问题 ,就必须要有 据源都是异构的,因而每一站点之问的信息和组织 一 个模型来清晰地描述 Weh上的数据。针对Weh上 收稿 日期:2005—04—04 作者简介:雷燕 (1975一),女,河南商丘人,商丘职业技术学院,网络中心副主任,讲师,主要从事网络技术方面的研究与教学 维普资讯 武 汉 职 业 技 术 学 院 学 报 二 o o 五年 利用)( 的、Ⅳ孚 数据挖掘技术 雷 燕 刘传领 工 程 与技 术 _ 的数据半结构化的特点 ,寻找一个半结构化的数据 的集成问题 的存在 ,现在有哪些信誉好的足球投注网站多样的不兼容的数据

文档评论(0)

人生新旅程 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档