- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常见数据挖掘错误:识别及纠正
常见数据挖掘错误:识别及纠正
Identifying and Overcoming Common Data Mining Mistakes
(Doug Wielenga, SAS Institute Inc., Cary, NC)
2007-11
摘要
由于通常涉及海量数据,数据挖掘分析会激化不少常见建模问题,且不断涌现新问题。这些
问题会大大增加开发有效模型的时间,并阻碍更高层次模型的开发。
本文讨论了如何识别并纠正若干常见建模错误。本报告先从数据准备中的几个常见问题出发
进行深入探讨,接着,按照一个典型预测建模分析的数据流程,探讨如何借助SAS Enterprise
1
Miner来进行设定变量角色、创建及使用数据分割(Data Partition) 、进行变量选择、替换缺失值、
构建不同类型模型、比较结果模型,以及如何进行模型打分。本文还总结了聚类分析和关联/序列
分析中常见问题的讨论。使用这些技巧,可以大大减少构建有效模型的时间,并提高模型的质量。
前言
我们将识别出几种常见的数据挖掘错误,并提供纠正这些错误的建议。这里罗列的错误与纠
正措施不应看作是完整的列表,要对它们完全展开讨论,说上几天几夜都说不完。不过,这里罗
列的的确是经常出现的错误,而且它们也是经常可以克服的。同时请注意一下,选择何种最佳方
式是高度主观性的,很有可能本文推荐的建议并不太适合某种特定场合。毕竟,为具体分析选择
最适当方法是分析员的职责,这里的讨论是要让大家对那些导致非预期结果的情况增加认识,并
阐述如何应对那些情况的方式。
1 数据准备
数据准备所花费的时间通常比花在数据分析上的时间要多。但是不幸的是,由于项目期限的
原因,人们总是希望通过捷径方式尽快找到答案,而不管答案是否是最优的。选择捷径的结果往
往是减少在数据准备阶段上的时间,然而数据如果没有被充分准备好,会增加花费在数据分析阶
段上的时间,反而削弱了捷径方法的效果。更重要的是,在这种情况下生成的模型与在充分数据
准备下建立的数据模型进行比较,它导致的后果包括:变量考虑不足,不正确地处理分类型变量,
以及不正确的处理数值型变量。
1.1 变量考虑不足
当需要分析全部数据的时候,人们要考虑采用哪些变量来建立模型。这种思维方法带来一些
问题:人们常常以已知数据子集的特性作为参考来解决建模的问题。
我们来考虑一下几点:
1. 不是所有公司都有同样的变量。除了那些相似的变量外,每个公司都会找到很多其他公
司没采用的变量。不同的定义和度量方法导致了不同的变量。
2. 削减建模过程,使用通用变量子集来代替,这样做会忽略公司数据的丰富性和独特性。
如果所有的公司都使用同样的变量来建模,那么就有可能错过发现一个适合本公司的独
特的模式。根据自己公司的数据来进行建模可以使你选择最适合自己公司状况的方法。
3. 对公司来说,充分利用数据建立模型的好处莫过于提高市场的份额。当你的竞争对手通
1
译注:Data partition是数据分割,指把样本数据分为训练、验证和测试数据三部分,有时也只分成前面两部
分
1
过交叉销售来提高业绩时,你的竞争对手就总会赢得市场份额。
采用这种“一招鲜”的方式在大多数业务环境下没什么意义,对于建模当然也没什么意义。
通过对很多大型和中型公司的相似问题建模,我发现从不同数据源经常能得到迥异的信息。分析
数据的过程可以大大提升对企业客户的洞察。有时候,这些发现证实了通常的认识,也有些时候,
这些常识会部分甚至全部被驳斥。这个过程还有个额外好处,就是帮你发现数据库的错误。
为了克服这个问题,在时间允许的条件下,尽可能利用更多的数据进行建模。在时间资源有
限的条件下,只使用一部分数据进行建模也是很平常的事情。为了建模所花的时间对于未来模型
分析阶段是很有用的。以前的建模经验对于分析人员来说,可以帮助他们判别关键变量和很多没
有实际作用的变量。总的来说,建模时花费的时间比在将来修复模型所花费的时间要少的多。在
模型重建的过程中,不可避免的会花费很多时间来重新考虑变量,从中发现有用的变量。同时当
内部和外部环境变化时,分析人员也会经常重新考虑那些被筛掉的变量。
文档评论(0)