大数据时代的数据挖掘与商务智能(五)分析重点.pptVIP

大数据时代的数据挖掘与商务智能(五)分析重点.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代的数据挖掘与商务智能(五)分析重点

* 面临挑战及成功关键 成都 * ? 扩充智能数据分析算法 ? 将智能数据分析应用到新的数据类型 ? 发展分布的智能数据分析算法 ? 提高智能数据分析方法的容易度 所面临的挑战 成都 * ? 数据量的增长 ? 对交互式反应和真实反应时间减少的要 求的加强 需要多种算法的组合或新的算法 算法要具有可扩展性 扩充智能数据分析算法 成都 * 时间序列数据 未组织数据,如文本 半组织数据, 如HTML和XML文件 多媒体的合作数据 多层次的,多度量单位的数据 集合数据,图数据 将智能数据分析应用到新的数据类型 成都 * ? 数据的分布特性 ? 计算环境越来越普及 必须发展与之匹配的数据分析系统和算法 发展分布的智能数据分析算法 成都 * 数据分析自动化程度的提高 提高用户界面, 支持随机用户的浏览 提高大型分布数据的可视化程度 发展用以管理数据分析的元数据的技术和系统 发展恰当的语言和协议支持随机提取数据 提高智能数据分析的环境?收集?加工 ?分析与挖掘?可视化以及必要的合作报告 提高智能数据分析方法的容易度 成都 * 支持单个研究数据分析者的研究 支持数据挖掘的基础学科的研究 支持多学科和交叉学科研究组研究 重要的, 基础的实用数据分析问题 提供对大的,大型的,分布的数据组 分析的恰当的实验场所 智能数据分析技术改进的要求 成都 * 智能数据分析成功的关键 要解决的问题明确 有一定数量和质量的数据 领域专家的参与 领导的决心 高效的方法 成都 * 忠 告 建立数据仓库一定要明确目的,它是高风险和高回报的项目。以先建集市为稳妥。 失败的例子不少。 数据分析与挖掘的结果要慎用,一定要有领域专家的认可。 上项目要充分论证,不是有钱就立项。 要重视业务人员和管理人员,他们比技术人员重要。 成都 * 谢 谢 ! 成都 3333 * 2222 * 动物分类: 疾病分类 3333 * 2222 * 基于描述的检索系统: 图像上建立标引:如关键字、标题、尺寸、创建时间。 基于内容的检索系统: 图像内容构成,纹理,形状,对象,小波变换。 3333 * 2222 * 挖掘Web链接结构,识别权威Web页面,但有局限性。 3333 * 2222 * 开场白:诸位都是IT界的精英,今天与大家探讨数据挖掘的发展、方法和应用前景。 我尽量给大家一个数据挖掘的全貌,尽量做一些介绍,不知是否符合大家的需要。 由于数据挖掘涉及的方法太多,工具,公司,应用太广,此次以方法全貌为主。愿意与我讨论的可通过邮件。 我可能会提供一些资料性的东西,特别是方法性的文章。 * 聚 类 聚类是把不同的个体分割成有相似性的子群。它不事先预定好类,完全根据其自相似性归类。 如不同症状的集合可能表示为某种疾病。 类内各对象相似度高,类间对象差别大。这种无标记的分类过程称聚类(Clustering),得到的类称簇(Cluster)。 聚类是人类学会区分事物(抽象或具体)的能力。 它是无指导的学习。 聚类源于许多领域:统计学,模式识别,机器学习,生物学。 成都 * 聚类方法 划分方法 层次方法 基于密度方法 基于网格方法 基于模型方法 成都 * 划分方法 划分方法概念: 将一个包含n个数据对象的数据库,要生成簇数目k,用一个算法将数据组织成k个划分(k= n),其中每个划分代表一个簇(Cluster)。这样面临两个问题: (1)k选多少,怎么选(2)怎样归类 给定一个k,要构造出k个簇,并满足采用的划分准则: 全局最优:尽可能的列举所有的划分; 启发式方法: k-均值和 k-中心点算法 k-均值 :由簇的平均值来代表簇; k-中心点或 PAM (围绕中心点的划分): 每个簇由簇中的某个数据对象来代表。 成都 * K-均值算法 算法:k-均值算法; 输入:包括n个对象的数据库,簇的数目k 输出:k个簇,使平方误差准则最小; 方法: 1) 任意选择k个对象作为初始的簇的中心; 2)计算各对象与K个簇中心的相似度,将各对象归于最相似的簇,对簇内对象计算出新的平均值(中心); 3)再计算各对象与新的K个簇中心的相似度,再根据各对象与新的簇平均值相似度,将每个对象重新赋给最类似的簇,形成新的簇对象; 4)再更新簇的平均值,即计算每个对象的平均值 5)直到不再发生变 成都 * 层次方法 对给定数据对象集合进行层次分解。根据层次分解的形成方法,分凝聚方法和分裂方法。 凝聚方法: 自底向上凝聚(找相近),先一个元组一个组,然后合并相近组为新组(簇

文档评论(0)

aena45 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档