哈尔滨医科大学《数据挖掘》第1章 绪论.pptVIP

哈尔滨医科大学《数据挖掘》第1章 绪论.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术学院 2012 * 数据挖掘: 绪论 第1章 绪论 数据 电子商务网站的日志 银行帐务数据 顾客购物的数据 为什么要进行数据挖掘? 商业观点 为什么要进行数据挖掘? 科学观点 医学、科学、工程技术界 正快速积累大量数据 (GB/hour) 地表、海洋和大气的 全球观测数据 基因组数据 数据挖掘技术可以帮助处理这些数据 干旱和飓风等生态扰动与全球变暖关系? 海洋表面温度对地表降水量和温度影响? 蛋白质结构预测、多序列比对、生物 化学通路建模、种系发生学 什么是数据挖掘? 定义 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。 数据挖掘技术用来探查大型数据库,发现先前未知的有用模式. 什么是数据挖掘?什么不是? 什么是数据挖掘? 把有哪些信誉好的足球投注网站引擎得到的相似数据合并在一起 (e.g. Amazon rainforest, A,) 利用网络数据分析哪些歌星在中国的名气最高 什么不是数据挖掘? 在电话本里搜 索电话号码 利用有哪些信誉好的足球投注网站引擎 如“Google”有哪些信誉好的足球投注网站“Amazon” 数据挖掘利用了来自如下一些领域的思想: (1)统计学的抽样、估计、假设检验 (2)人工智能、模式识别、机器学习 的有哪些信誉好的足球投注网站算法/建摸技术、学习理论 (3)最优化、进化算法、 信息论、信号处理、 可视化、信息检索 (4)数据库技术、并行计算 、分布式计算 传统的方法可能不适合 数据量巨大 数据维度高 数据异种性(具有序列 和三维结构的DNA数据) 数据挖掘的起源 人工智能、 机器学习 和模式识别 统计学 数据挖掘 数据库技术、并行技术、分布式技术 数据挖掘的任务 预测 使用已知变量预测未知变量的值. 描述 导出潜在联系的模式(相关、趋势、聚类、异常). 数据挖掘的任务 分类 [预测] 聚类 [描述] 关联分析 [描述] 异常检测 [预测] 分类 例子 categorical categorical continuous class Test Set Training Set Model Learn Classifier 聚类 Intracluster distances are minimized Intercluster distances are maximized 关联分析: 定义 用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴涵规则或特征子集的形式表示。由于有哪些信誉好的足球投注网站空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式; 找出具有相关功能的基因组、识别一起访问的Web页面、理解地球气候系统不同元素之间的联系. Rules Discovered: {Diaper} -- {Milk} {Diaper, Milk} -- {Beer} 数据挖掘的挑战 可伸缩 高维性 异种数据和复杂数据 数据的所有权和分布 非传统数据 可伸缩 高维性 异种数据和复杂数据 2. DIP数据库 DIP数据库是专门存储蛋白质相互作用信息的数据库。该数据库中也包含人工检查的可靠信息和自动计算方法所获取的高通量数据。 3.MIPS数据库 MIPS数据库是一个跨物种的综合性数据库,包含多种数据库信息。其中的CYGD数据库提供了比较完整酵母蛋白质互作信息。而MIPS哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质互作信息。 4.BioGrid数据库 BioGrid数据库是一个包含多物种蛋白质互作信息的数据库。数据库中包含来自多个物种的互作信息,其中即包括物理互作信息也包括遗传互作信息。 主要记录蛋白质互作在内的生物分子间的相互作用信息,并将其中的信息分为经过人工检查的可信信息和高通量数据信息。 1. BIND数据库 数据的所有权和分布 内容安排 数据 探索数据 分类:基本概念、决策树与模型评估 分类:其他技术 关联分析:基本概念和算法 关联分析:高级概念 聚类分析:基本概念和算法 聚类分析:附加问题与算法 ? 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术学院 2012 *

您可能关注的文档

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档