5种数据挖掘工具解析总结计划比较.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘工具调查与研究 姓名:马蕾 学号:种数据挖掘工具分别为: 1、 Intelligent Miner 2、 SAS Enterpreise Miner 3、 SPSS Clementine 4、马克威分析系统 5、 GDM Intelligent Miner 一、 综述:IBM 的 Exterprise Miner 简单易用,是理解数据挖掘的好的开始。能处理大 数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能 用 DB2 ,连接 DB2 以外的数据库时,如 Oracle, SAS, SPSS 需 要安装 DataJoiner 作为中间软件。难以发布。结果美观,但同样不好理解。 二、基本内容: 一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数 对象: 数据 :由函数使用的输入数据的名称和位置。 离散化 :将记录分至明显可识别的组中的分发操作。 名称映射 :映射至类别字段名的值的规范。 结果 :由函数创建的结果的名称和位置。 分类 :在一个项目的不同类别之间的关联层次或点阵。 值映射 :映射至其它值的规范。 函数: 发掘 :单个发掘函数的参数。 预处理 :单个预处理函数的参数。 序列 :可以在指定序列中启动的几个函数的规范。 统计 :单个统计函数的参数。 统计方法和挖掘算法: 单变量曲线, 双变量统计, 线性回归, 因子分析, 主变量分析, 分类, 分群,关联,相似序列,序列模式,预测等。 处理的数据类型: 结构化数据 (如:数据库表,数据库视图,平面文件 ) 和半结构化或非结 构化数据 ( 如:顾客信件,在线服务,传真,电子邮件,网页等 ) 。 架构: 它采取客户 /服务器( C/S )架构,并且它的 API 提供了 C++ 类和方法 Intelligent Miner 通过其独有的世界领先技术 ,例如自动生成典型数据集、 发现关联、 发现 序列规律、 概念性分类和可视化呈现,可以自动实现数据选择、数据转换、 数据挖掘和结果 呈现这一整套数据挖掘操作。 若有必要, 对结果数据集还可以重复这一过程, 直至得到满意结果为止。 三、现状: 现在, IBM 的 Intelligent Miner 已形成系列,它帮助用户从企业数据资产中 识别和提炼有价值的信息。它包括分析软件工具 —— Intelligent Miner for Data 和 IBM Intelligent Miner forText ,帮助企业选取以前未知的、 有效的、可行的业务知识 —— 2 如客户购买行为, 隐藏的关系和新的趋势, 数据来源可以是大型数据库和企业内部或 Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。 四、挖掘案例 :(客户细分 ) 商业需求 :: 客户细分 数据理解 :根据用户基本信息 (实际上还包括客户消费行为 ,人口统计信息等 ,本示例为简单起见 ,只在这个表的数据基础上进行挖掘 )进行客户细分 数据准备 : 建模 : 选择挖掘模型(比如是分群,还是分类) 确定模型输入,需要做的处理,结果分析 选择模型输入字段 : 挖掘模型选择: 神经分群发掘函数使用了一个 Kohonen 特征映射神经网络。 Kohonen 特征映射使用 一个称作自组织的进程来将相似的输入记录组合在一起。 您可以指定群集的数目和遍数。 这 些参数控制进程时间和将数据记录分配到群集时使用的粒度程度。 分群的主任务是为每个群 集查找中心。 此中心也称为称为原型。 对于每个在输入数据中的每个记录, 神经分群发掘函数计算和记录计分最近的群集原型。 每个数据记录的计分是用到群集原型的欧几里得距离表示的。计分越靠近 0 ,与群 集原型的相似性程度就越高。 计分越高, 记录与群集原型就越不相似。 输入数据的每个 遍历,中心被调整来达到更好的整个分群模型质量。 在发掘函数运行时, 进度指示器显 示每次遍历的质量改进状况。 建模 :选择模型 : 指定输入数据 : 3 选择分群方式 : 4 分群模型设置概要 : 运行模型 : 点击蓝色按钮运行模型,运行模型进程: 6.模型结果分析: 运行结果(群) : 5 运行结果,统计: 从 上 面 两 个 图 中 我 们 可 以 看 出 一 些 有 意 义 的 分 群 , 根 据 consume_level 和 online_duration 分群有一定意义。而比如用 gender 进行的分群我们可以直接观察出来, 意义不大,只有两个大类,可以直观地看出男女比例: consume_level( 消费层次 )的群特征信息: 可以看出在第 2 、3 类消费层次占的比重较大。 6 在线通话时长的一点分析: 从上面图中可以看出, 大部分

文档评论(0)

158****3214 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档