- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与知识发现 第一章 绪论 什么是数据挖掘 数据挖掘要解决的问题 数据挖掘的起源 数据挖掘任务 商务领域 借助POS机、手机、电脑、日志、顾客服务记录、顾客信息。商业公司可以获取大量的数据。在这些数据上,我们可以做什么? 一些问题: 谁是最有价值的顾客? 什么产品可以交叉销售或提升销售? 公司明年的收入前景如何? 医学、科学与工程 医学、科学与工程界的研究者正在快速积累大量数据,这些数据对新发现至关重要。 例一:为了更深入地理解地球的气候系统,NASA 已部署了一系列的地球轨道卫星,不停的收集地表, 海洋和大气的全球观测数据 一些问题: 干旱和飓风的频度和强度与全球变暖有什么联系? 海洋表面的温度对地表降水量和温度有什么影响? 如何准确的预测一个度曲的生长季节的开始和结束? 医学、科学与工程 例二:分子生物学研究者希望利用当前收集的大量基因组数据,更好的理解基因的结构和功能。 数据的噪音和高维性需要新的数据分析方法。 1、什么是数据挖掘? 到底什么是数据挖掘呢? 那么,什么又是知识发现呢? 2、数据挖掘要解决的问题 面临新的数据集带来的问题时,传统的数据分析技术常常遇到实际的困难。 3、数据挖掘的起源 数据挖掘的方法来自机器学习或AI,模式识别,统计学与数据库系统 3、数据挖掘的任务 大类区分数据挖掘任务 预测任务 根据其他属性的值,预测特定属性的值 被预测变量通常被称为目标变量 描述任务 导出概括数据中潜在联系的模式 包括相关、趋势、聚类、轨迹、异常 预测建模 预测建模的任务可以分为两类: 。预测建模 例子: 预测鸢尾花(IRIS)的类型, Setosa,Veriscolour, Virginica。该数据集包含4个属性和1个目标变量。属性为萼片宽度,萼片长度,花瓣长度,花瓣宽度,目标变量为花的种类。 关联分析 用来发现描述数据中强关联特征的模式。 关联分析 例子:下面是一杂货店收银台收集的销售数据 关联分析 例子:下面是一杂货店收银台收集的销售数据 聚类分析 旨在发现紧密相关的观测值组群。 使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似。 聚类分析 例子:下表中的新闻文章可以根据他们各自的主题分组。每篇文章表示为词-频率对的组合(w:c)。w是词,c是该词在文章中出现的次数。 异常检测 任务是识别其特征显著不同于其他数据的观测值,这样的观测值点称为异常点或离群点。 异常检测算法的目标是发现真正的异常点,而避免错误的将正常的对象标注为异常点。一个好的异常检测器应具有高检测率和低误报率。 异常检测 例子:信用卡公司记录每个持卡人所做的交易,同时也记录信用限度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行为的数目相对很少,因此异常检测技术可以用来构造用户合法交易的轮廓。 当一个新的交易到达时,与合法交易的轮廓进行比较。如果与合法轮廓很不相同,就把交易标记为可能是欺诈! 课堂讨论: 结合自己身边的生活,构想一种可能的数据挖掘应用。可在自己研究课题范围内,也可涉及任意领域。 * * 数据挖掘也可以用来处理生物学的其他难题,如蛋白质结构预测,多序列校准,生物化学路径建模和种系发生学。 数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。 1、发现先前未知的有用模式 2、预测未来的观测结果 1、数据库中查找个别记录 2、有哪些信誉好的足球投注网站引擎查找特定页面 数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的整个过程。 输入数据 数据预处理 数据挖掘 后处理 信息 特征选择 维归约 规范化 选择数据子集 模式过滤 可视化 模式表示 可伸缩 需要有能力处理海量数据问题 高维性 需要很好的处理维灾难问题 异种数据和复杂数据 需要考虑数据对象的复杂性和多样性 数据的所有权与分布 需要考虑数据安全性、加快计算速度、汇总计算结果 非传统的分析 非单一假设-检验模式 VS 人工智能、 机器学习、 和模式识别 统计学 数据挖掘 数据库技术、并行计算、分布式计算 数据 聚类分析 关联分析 预测建模 异常检测 股票价格 是否买书 举例 训练模型, 减小误差 共同点 连续 离散 目标变量 回归 分类 预测建模的任务举例: 确定顾客对产品促销活动的反应 预测地球生态系统的扰动 根据检查结果判断病人是否患有疾病 我们可以根据区间宽度把花瓣宽度和长度分为低中高三类。然后可推出如下规则: 花瓣宽度和花瓣长度为低蕴涵Setosa 花瓣宽度和花瓣长度为中蕴涵Versicolour 花瓣宽度和花瓣长度为高蕴涵Virginica 关联分析的任务举例: 找出具有相
您可能关注的文档
最近下载
- T∕CACM 1066.2-2018 中医治未病标准化工作指南 第2部分:标准体系.docx VIP
- 技术服务措施及保障措施方案.docx VIP
- 新媒体环境下的微博营销【文献综述】.doc VIP
- 2021钻床工考试-初级钻床工考试(精选试题).doc VIP
- 化工企业双重预防机制.pdf VIP
- (铁总计统〔2017〕177号 )中国铁路总公司关于进一步加强铁路建设项目征地拆迁工作和费用管理的指导意见.pdf VIP
- 深圳新桥街道万丰社区大朗山片区城市更新项目.pdf
- 中小学劳动教育课程如何创新与实施.docx VIP
- 大航海时代OL陆战技巧学习指南.docx
- 集中式山地光伏电站方阵区直流电缆敷设技术要求.pdf VIP
文档评论(0)