数据挖掘原理与SPSSClementine应用宝典第15章复杂对象数据挖掘教学幻灯片讲义.ppt

数据挖掘原理与SPSSClementine应用宝典第15章复杂对象数据挖掘教学幻灯片讲义.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

Copyright 2003-12, SPSS Taiwan Corp. 音频挖掘 15.4.5 .1模式发现 要解决的问题就是数据的预处理,它主要包括两个部分: (1)数据清洗(Data Cleaning):包括无关记录的剔除、判断是否有重要的访问没有被记录、用户的识别等问题。 (2)事务识别(Transaction Identification):是指将页面访问序列划分为代表Web事务或用户会话的逻辑单元。 如路径分析、关联规则挖掘、时序模式以及聚类和分类技术。 15.4.5.2 模式的分析 相关分析方法如下: (1) 可视化技术对于理解Web用户的行为模式来讲是一个自然的选择。 (2) 联机分析处理(OLAP)技术也可以应用到模式的分析中来。 (3) 计划挖掘(plan mining)挖掘通常的存取规律,可以调整Web连接,改善性能。 相关分析方法 (4) 相关/序列存取模式分析,可以对服务器的缓存、预取和交换参数进行调整。 (5) 趋势分析,可以了解Web下在发生的变化,用户的个性化分析可以为用户提供定制的服务。 15.4.5.3 使用记录挖掘的基本流程 对Web访问日志(Web Log)进行分析和挖掘要经过一系列的数据准备工和和建模工作。一个基本的流程包括如下步骤。 (1)首先要对Web Log进行清洗、过滤和转换,从中抽取感兴趣的数据。 15.4.5.3 使用记录挖掘的基本流程 (2)将资源的类型、资源的大小、请求的时间、在资源上停留的时间、请求次数、来自不同Internet域的请求次数、事件、会话、错误次数作为在这些维变量下的度量变量建立数据立方体(Data Cube)。 (3)利用成熟的数据挖掘技术(如特征、分类、关联、预测、时间序列分析、趋势分析) 15.5 挖掘数据流 为了从数据流中发现知识或模式,有必要开发单遍扫描的、联机的、多层的、多维的流处理和分析方法。 单遍扫描的联机数据分析方法,不应该只限于流数据,它对于处理海量的非数据流也是至关重要的。 15.5.1 流数据处理方法和流数据系统 本节,我们考虑一些常用的大纲数据结构和技术。 1.随机抽样 一种叫做水库抽样,可以用来无放回的选取一个无偏的S个元素的随机样本,没有更换。水库抽样的想法相对简单。 2.滑动窗口 基本的思想是:仅仅基于最近的数据做出决策,而不是对目前为止看到的所有数据或对某个样本进行计算。 15.5.1 流数据处理方法和流数据系统 3.直方图 直方图是一种大纲的数据结构,可以用来近似数据流中元素值的频率分布。 4.多分辨方法 处理大量数据的一种常见方式是使用数据归约?方法。一种流行的数据归约方法是采用分治策略,如多分辨率数据结构 5.数据流管理系统和流查询 流数据的查询处理结构包括三个部分:终端用户,查询处理器和临时空间(这可能由主存和磁盘构成)。 流OLAP和流数据立方体(续) 1.压缩时间尺度的时间维:倾斜时间框架 这种模型对许多分析任务来说是足够的,也能保证驻留在内存或存储在硬盘上的数据总量很小。 2.关键层 第一层称作最小兴趣层(minimal interesting layer),是分析人员想要研究的最小兴趣层。 第二层称观察层(observation layer),是分析人员(或自动化系统)希望不断研究数据的层。 3. 流立方体的部分物化 常用路径立方体计算(popular path cubing),它通过一条常用下钻路径,从最小兴趣层到观察层执行上卷操作,仅仅物化该路径中的层次,其它层仅在需要的时候计算。这种方法在空间,计算时间和灵活性上取得了适度平衡,并具有快速增量聚集时间,快速下钻时间,并且空间需求很小。 流OLAP和流数据立方体(续) 15.5.3 数据流中的频繁模式挖掘 1.数据流频繁模式挖掘 2.数据流频繁模式挖掘算法 数据流频繁模式挖掘的关键问题就是如何快速对数据流中所出现的模式进行计数。 数据流所出现的模式 数据流所出现的模式分成三类: (1) 当sup(X)≥s 时,称X 为频繁模式; (2) 当ε≤sup(X)s 时,称X 为潜在频繁模式; (3) 当sup(X)s 时,称X 为非频繁模式,并在算法中舍弃非频繁的模式以减少算法的空间复杂度。 15.5.4 动态数据流的分类 增量式方法又称为

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档