- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多维关联规则:概念 单维规则: buys X, “milk” ? buys X, “bread” 多维规则: 2个以上维/谓词 维间关联规则 维词不重复 age X,”19-25” ? occupation X,“student” ?buys X,“coke” 混合维关联规则 维词重复 age X,”19-25” ? buys X, “popcorn” ? buys X, “coke” 类别属性 有限个值, 值之间无顺序关系 数量属性 数字的,值之间隐含了顺序关系 六、序列模式挖掘 序列模式概念 序列模式的概念最早是由Agrawal和Srikant 提出的 序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 序列模式实例 例1:在两年前购买了Ford 牌轿车的顾客,很有可能在今年采取贴旧换新的购车行动 例2:在购买了自行车和购物篮的所有客户中,有70%的客户会在两个月后购买打气筒 例3:工业过程控制领域:过程变量采样值时时间序列;变量之间的关系是动态的;系统故障模式;等等 序列模式应用领域 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 工业控制 序列模式表示 符号化表示: 项目集 Itemset 是各种项目组成的集合 序列 Sequence 是不同项目集 ItemSet 的有序排列,序列s可以表示为s s1s2…sl ,sj 1 j l 为项目集 Itemset ,也称为序列s的元素 序列的元素 Element 可表示为 x1x2…xm , xk 1 k m 为不同的项目,如果一个序列只有一个项目,则括号可以省略 一个序列包含的所有项目的个数称为序列的长度。长度为l的序列记为l-序列 序列模式表示 符号化表示: 设? a1a2…an ,? b1b2…bm ,如果存在整数1 j1 j2 … jn m,使得a1 ? bj1,a2 ? bj2,…, an ? bjn,则称序列?为序列?的子序列,又称序列?包含序列?,记为? ? ? 序列?在序列数据库S中的支持数为序列数据库S中包含序列?的序列个数,记为Support ? 给定支持度阈值?,如果序列?在序列数据库中的支持数不低于?,则称序列?为序列模式 长度为l的序列模式记为l-模式 序列模式表示 例子:设序列数据库如下图所示,并设用户指定的最小支持度min-support 2。 Sequence_id Sequence 10 a abc ac d cf 20 ad c bc ae 30 ef ab df cb 40 eg af cbc 序列 a bc df 是序列 a abc ac d cf 的子序列 序列 ab c 是长度为3的序列模式 序列模式挖掘 问题描述:给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式 系统规定:由于同一个元素中的项目之间排列没有顺序,为了表达的唯一性,我们将同一个元素内部的不同项目按照字典顺序排列 序列模式挖掘算法 序列模式挖掘的主要算法 GSP Generalized Sequential Patterns 算法:类似于Apriori算法 PrefixSpan Prefix-project Sequential Pattern mining 算法:采用分治的思想,不断产生序列数据库的多个更小的投影数据库,然后在各个投影数据库上进行序列模式挖掘 * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为: 400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后,数据的细节丢失了,但是概化后的数据更有意义,更容易解释,而且所需的存储空间更少。有效的减少I/O支出 * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中,我们发现很多分层蕴涵在数据库的模式中,因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼,产生概念分层。 数值属性的
您可能关注的文档
最近下载
- 紧密连接蛋白occludin、ZO-1在溃疡性结肠炎中的表达及其临床意义.pdf VIP
- 广东省科技计划项目申报书模板-申报书.PDF VIP
- 【黑里寨镇A小区建设工程项目施工组织设计国内外文献综述3300字】.docx VIP
- 神经外科俯卧位手术的常见并发症及护理对策.docx VIP
- 精神科护理警示教育心得体会范文.docx
- SEL-751A_美国SEL公司751A中文版说明书.PDF VIP
- 卫星气象学课件:第九章 由卫星资料定量估算气象参数.ppt VIP
- (可直接打印) 100以内加减法竖式计算2025题 .pdf VIP
- 体检结果异常分析.xlsx VIP
- 食品卫生基础知识课件.pptx VIP
有哪些信誉好的足球投注网站
文档评论(0)