复杂对象数据挖掘.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

音频挖掘音频挖掘(AudioMining)指对音频信息的自动处理和分析过程。语音挖掘的另外一个用途在于将语音对应到个人*第62页,共111页,星期日,2025年,2月5日音频挖掘视频挖掘15.4.4Web文档的自动分类15.4.5Web使用挖掘*第63页,共111页,星期日,2025年,2月5日音频挖掘15.4.5.1模式发现要解决的问题就是数据的预处理,它主要包括两个部分:(1)数据清洗(DataCleaning):包括无关记录的剔除、判断是否有重要的访问没有被记录、用户的识别等问题。(2)事务识别(TransactionIdentification):是指将页面访问序列划分为代表Web事务或用户会话的逻辑单元。如路径分析、关联规则挖掘、时序模式以及聚类和分类技术。*第64页,共111页,星期日,2025年,2月5日15.4.5.2模式的分析相关分析方法如下:(1)可视化技术对于理解Web用户的行为模式来讲是一个自然的选择。(2)联机分析处理(OLAP)技术也可以应用到模式的分析中来。(3)计划挖掘(planmining)挖掘通常的存取规律,可以调整Web连接,改善性能。*第65页,共111页,星期日,2025年,2月5日相关分析方法(4)相关/序列存取模式分析,可以对服务器的缓存、预取和交换参数进行调整。(5)趋势分析,可以了解Web下在发生的变化,用户的个性化分析可以为用户提供定制的服务。*第66页,共111页,星期日,2025年,2月5日15.4.5.3使用记录挖掘的基本流程对Web访问日志(WebLog)进行分析和挖掘要经过一系列的数据准备工和和建模工作。一个基本的流程包括如下步骤。(1)首先要对WebLog进行清洗、过滤和转换,从中抽取感兴趣的数据。*第67页,共111页,星期日,2025年,2月5日15.4.5.3使用记录挖掘的基本流程(2)将资源的类型、资源的大小、请求的时间、在资源上停留的时间、请求次数、来自不同Internet域的请求次数、事件、会话、错误次数作为在这些维变量下的度量变量建立数据立方体(DataCube)。(3)利用成熟的数据挖掘技术(如特征、分类、关联、预测、时间序列分析、趋势分析)*第68页,共111页,星期日,2025年,2月5日15.5挖掘数据流为了从数据流中发现知识或模式,有必要开发单遍扫描的、联机的、多层的、多维的流处理和分析方法。单遍扫描的联机数据分析方法,不应该只限于流数据,它对于处理海量的非数据流也是至关重要的。*第69页,共111页,星期日,2025年,2月5日15.5.1流数据处理方法和流数据系统本节,我们考虑一些常用的大纲数据结构和技术。1.随机抽样一种叫做水库抽样,可以用来无放回的选取一个无偏的S个元素的随机样本,没有更换。水库抽样的想法相对简单。2.滑动窗口基本的思想是:仅仅基于最近的数据做出决策,而不是对目前为止看到的所有数据或对某个样本进行计算。*第70页,共111页,星期日,2025年,2月5日15.5.1流数据处理方法和流数据系统3.直方图直方图是一种大纲的数据结构,可以用来近似数据流中元素值的频率分布。4.多分辨方法处理大量数据的一种常见方式是使用数据归约?方法。一种流行的数据归约方法是采用分治策略,如多分辨率数据结构5.数据流管理系统和流查询流数据的查询处理结构包括三个部分:终端用户,查询处理器和临时空间(这可能由主存和磁盘构成)。*第71页,共111页,星期日,2025年,2月5日流OLAP和流数据立方体(续)1.压缩时间尺度的时间维:倾斜时间框架这种模型对许多分析任务来说是足够的,也能保证驻留在内存或存储在硬盘上的数据总量很小。2.关键层第一层称作最小兴趣层(minimalinterestinglayer),是分析人员想要研究的最小兴趣层。第二层称观察层(observationlayer),是分析人员(或自动化系统)希望不断研究数据的层。*第72页,共111页,星期日,2025年,2月5日3.流立方体的部分物化常用路径立方体计算(popularpathcubing),它通过一条常用下钻路径

文档评论(0)

xiaozhuo2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档