数据挖掘导论第一二章924.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘导论第一二章924

数据挖掘导论前两章第一章绪论本章主要就是从全局的角度来介绍一下数据挖掘的概念、数据额挖掘要解决的问题、数据挖掘的起源、数据额挖掘的任务、以及数据挖掘的应用前景。第二章数据数据对数据挖掘的成败至关重要。本章就是主要讨论一些数据相关的问题。数据类型——数据的类型决定我们应使用何种工具和技术分析数据。还有:数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。数据质量——原始数据必须加以处理才能适合与分析。处理一方面是要提高数据的质量,另一方面要让数据更好地适应特定的数据挖掘技术或工具。根据数据联系分析数据——数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身来进行其余的分析。有一点必须要强调的是在我们进行分析数据时,要深入了解数据,多观察数据,这个步骤在分析完数据得到实验结果之后更要回过头去观察数据,这一点特别重要!属性与度量什么是属性数据集可以看作数据对象的集合。数据对象用一组刻画对象基本特性的属性来描述。属性是对象的性质或特性,它因对象而异,或随时间而变化。属性类型属性的类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。用值的个性描述属性离散的、连续的非对称属性只有非零值重要的属性才是非对称性的属性,我的理解就是属性的值的重要性不是对称。数据集的类型数据集的一般特性维度(dimensionality)、稀疏性(sparsity)、分辨率(resolution)。记录数据许多数据挖掘的任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。基于图形的数据有序数据2.2数据质量数据挖掘使用的数据常常是为其他用途收集的,或者在收集是未明确其目的。因此,数据挖掘常常不能“在数据源头控制质量”。所以,数据挖掘着眼于两个方面:数据质量问题的纠正和检测和纠正,通常也称作数据清理(data cleaning)使用可以容忍低质量数据的算法2.2.1测量和数据收集问题首先定义测量误差和数据收集错误,然后进一步考虑涉及测量误差的各种问题:噪声、伪像、偏倚、精度和准确度。最后讨论可能同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致值、重复数据。测量误差(measurement error)指测量过程中导致的问题。数据收集错误(data collection error)指诸如遗漏数据对象或属性值,或不当的包含了其他数据对象等错误。噪声是测量误差的随机部分。伪像(artifact)是数据错误造成的一种确定的现象的结果。(不是随机的)精度(precision):(同一个量的)重复测量值之间的接近程度。通常以标准差度量。偏倚(bias):测量值与被测量之间的系统的变差。通常以均值度量。准确率(accuracy):被测量的测量值与实际值之间的接近程度。有效数字(significant digit)是准确率的一个重要方面。离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值,也可称为异常(anomalous)对象或异常值。注意:离群点可以是合法的数据对象或值,它与噪声不同。它本身有时是人们感兴趣的对象。遗漏值会造成信息收集不全的情况。有介绍三种处理遗漏值的基本策略:删除数据对象或属性、估计遗漏值以及在分析时忽略遗漏值。三种策略各有优劣,具体情况具体分析。不一致的值:无论造成不一致值得原因是什么,重要的是能检测出来,并且可能的话,纠正这种错误。重复数据:数据集可能包含重复或几乎重复的数据对象。为了检测并删除这种重复,必须处理两个主要问题:如果两个对象实际代表同一个对象,则对应的属性值必然不同(否则它们是完全相同的一条记录),必须解决不一致的值。需要避免意外地将两个相似但并非重复的数据对象合并在一起。这些是去重复(deduplication)需要考虑的问题。注意:在某些情况下,两个或多个对象在数据库的属性度量上是相同的,但是仍然代表不同的对象。这种重复是合法的。2.2.2关于应用的问题2.3 数据预处理这一节主要讲采用哪些预处理步骤,让数据更加适合挖掘。下面就是我们要谈到的一些主要的方法:●聚集●抽样●维规约●特征子集选择●特征创建●离散化和二元化●变量变换粗略的来说,这些项目分为两类,即选择分析所需要的数据对象和属性以及创建/改变属性。其目的都是改善数据挖据分析工作,减少时间,降低成本和提高质量。2.3.1聚集聚集将两个或者多个对象合并成单个对象。聚集的动机有多种。首先,数据规约导致的较小数据集需要较少的内存和处理时间,因此可以用于开销更大的数据挖掘算法。其次,通过高层而不是底层数据视图,聚集起到范围或标度转换的作用。聚集的特点是有可能丢失有趣的细节。例如把

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档