关联规则与聚类分析在超市中的应用研究.doc

关联规则与聚类分析在超市中的应用研究.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则与聚类分析在超市中的应用研究

关联规则与聚类分析在超市中的应用研究* 余承乐,柳炳祥 (景德镇陶瓷学院信息工程学院,江西 景德镇,333403) 摘要:数据挖掘是商务智能中经常使用的一项重要技术,企业在其整个运营过程中,积累了庞大的数据信息,决策者们所需要的信息往往就隐藏在里面,数据挖掘的目的就是如何有效地处理这些数据。论文结合数据挖掘软件Clementine分析了关联规则和聚类分析这两种算法在超市中的具体应用。 关键词:数据挖掘;商务智能;关联规则;聚类分析 Application of association rules and cluster analysis in Supermarket Yu Chengle,Liu Bingxiang (School of Information Engineering, JingDeZhen Ceramic Institute, JiangXi, China,333403) Abstract:Data mining is an important technology,which is often used in business intelligence.Enterprises have accumulated large amount of data during the operation process,the information they need are usually hid in data mining.Therefore,how to deal with these data is the purpose of data mining.The essay,which analyzes the application of data mining in business intelligence ,combined with Clementine software to analyze the specific application of association rules and cluster analysis in the supermarket. Key words: business intelligence;data mining;association rules;cluster analysis 1 引言 数据挖掘技术在商务智能的应用,已成为各行业、各部门信息化的必然趋势。现代企业的发展面临着巨大的挑战,市场竞争日趋激烈,客户要求越来越个性化,各类信息量正在迅速膨胀。数据仓库技术有效地把操作数据集成到统一的环境中,提供用户用于决策支持所需的当前和历史数据,数据挖掘技术利用各种分析工具在这些海量数据中发现模型和数据间的关系,能够帮助企业更深入、更容易地分析数据,从海量的数据中寻找对自己真正有用的信息资源。商务智能通过对大量的数据进行自动的加工、处理和分析,实现数据向信息、信息向知识的转换,并将知识应用于决策。论文结合数据挖掘软件Clementine分析了关联规则和聚类分析这两种算法在超市中的具体应用。 2 相关理论分析 2.1 关联规则算法 关联分析是统计学中经常用到的一个术语,指的是对两个或者更多变量之间可能存在的关联关系的描述。对项集A∈I,B∈I,且A∩B=φ,用A→B表示一条关联规则。从广义的角度说,这种关系还可以是因果关系或时序关系。关联规则挖掘就是在数据库中进行关联分析,是数据挖掘的众多知识类型中最为典型的一种。Apriori算法是关联规则算法中使用最多的一种算法,其主要步骤为: ①扫描全部数据,产生候选1-项集的集合C1; ②根据最小支持度,由候选1-项集的集合C1产生频繁1-项集的集合L1; ③对k1,重复执行步骤④、⑤; ④由Lk执行连接和剪枝操作,产生候选(k+l)-项集的集合Ck+1; 扫描事务数据库D,计算每个候选项目集的支持度,如果大于等于最小支持度阈值min_sup,则加入到Lk+1中; ⑤如果Lk+1为空集,则结束,所求结果即为L1 L2 …,否则k=k+1,转步骤④继续执行。 2.2 聚类分析算法 聚类就是在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。要求是在不同群组的数据之间要有明显差别,而每个群组内部的数据之间尽量相似。其形式化描述为: L=(S,f)是数据描述语言,其中: S是表达式的集合,f:S→P(Mn),Mn 是面向主题n的挖掘数据集,P(Mn)是Mn 的子集。 对任意的e S,f(e)是由表达式e所界定的数据项的集合,是Mn的子集。 对于给定的Mn,找到一个集合{e1,e2,…,ek},满足对于任意ei,ej,e1,e2,e3,e4

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档