- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用SAS EM的数据挖掘实例:第二版 (译者:李保坤) 西南财经大学 2008年10月16日 目录 SAS EM介绍 启动 SAS EM 建立初步的项目和流程图(Project 和 Diagram) 了解界面组件 数据挖掘和 SEMMA 通过SAS文件夹(SAS Libraries)连接数据 预测建模 问题 创建过程流流程图(Process Flow Diagram) 数据准备和调查 拟和和比较可行模型 产生和使用打分程序 使用报告(Reporter) 节点生成报告 变量选择 变量选择介绍 使用变量选择(Variable Selection)节点 聚类工具 问题 聚类方法回顾 关联分析 问题 链接分析 问题 考察网络日志数据 SAS EM介绍 启动SAS EM 在SAS命令条键入miner.按回车键或者点击命令条旁的“√”号。 或者在主菜单下选择 1.2建立初步的项目和流程图 EM按项目和流程图组织它进行的多个数据分析。每一个项目可以包括几个流程图,每一个流程图可包括几个数据分析。通常一个流程图的分析只基于一个数据集合。 遵照以下步骤创建一个项目。 选择 File ? New ? Project…. 键入项目名 (例如, My Project). 如果有必要点选 Client/server project. (如果该项目不用某服务器的数据集合就不要点Client/server project。) 注意:要建立Client/server project ,你必须联通一个运行同样版本EM的服务器才行。关于如何创建client/server 项目,请参照“Getting Started with SAS Enterprise Miner”, 或寻求在线帮助。 如有必要可改变项目存放地址,方法是直接键入或选择 Browse…. 选择 Create. 项目被建立。该项目下面有一无标题流程图 “untitled” 选择流程图标题,并键入一新名,如My First Flow. 选择流程图标题后 取新名后 1.3 了解EM界面组件 SAS EM窗口包含以下界面组件: 项目导航区 — 让你管理项目和流程图、向流程图工作区(Diagram Workspace)添加工具、浏览报告(Reporter)节点生成的HTML报告。注意当一件工具被加到流程图工作区后,该工具就被称为是一个节点。项目导航区有3个标签: ?? 流程图标签(Diagrams) — 列出了当前项目和该项目包含的流程图。当项目窗口打开时,按照缺省,流程图标签处于激活状态。 ?? 工具标签(Tools) — 包括EM工具盘。该标签可让你看到所有的EM可用工具(或节点)。这些工具按照SEMMA 数据挖掘方法论被分组。许多常用的工具显示在窗口顶部的工具条上。你可以从工具标签拖拽过来的方式往工具条里添加工具。另外你还可以通过拖拽重新安排工具在工具条上的位置。 ?? 报告标签(Reports)— 显示报告节点(Reporter)生成的 HTML 报告 流程图工作区(Diagram Workplace)— 构建、编辑、运行、以及储存流程图的区域 工具条(Tools Bar) — 包括一系列可调配的EM常用工具,用于在Diagram Workspace 里构建流程图。你可以往工具条上加入或删除工具。 进展指示条(Progress Indicator)— 该条指示的是EM任务的执行情况。 信息条(Message Panel)— 显示EM任务执行情况的信息。 连接状况指示条(Connection Status Indicator)— 显示远程主机名并指示连接对于客户/服务器项目是否处于活动状态。 数据挖掘和SEMMA 数据挖掘的定义 本文献把数据挖掘定义为对大量数据各种关系的探索和建模。 1.4.2 的数据经常会来源于几个不同的数据源,把这些数据源的信息整合到一起是相当艰巨的工作。一个典型的数据集合通常有数千条观测记录。一个观测记录可能代表着一个实体,比如:一个客户、一项特定的交易、或者某一个家庭。数据集合中的变量包含观测记录的诸如人口信息、销售额历史、或者金融信息等特定信息。这些信息的使用依赖于人们的研究问题。 关于数据类型,根据每一个变量的测量水平我们可以把他们划分为以下几种: 1 区间变量(interval)— 均值有意义的变量,例如收入、温度。 2 类别变量(categorical) — 包括几个水平的变量,例如性别(男或女)、酒量(小、中、大)。总的来说,一个变量不是连续的那它就是类别的。 类别型变量可有好几种分类。在EM任务中,我们把类别变量细分为: ??单值量(unary)— 数据集合中所有观测记录在该变量上的值都相同 ??二元变
您可能关注的文档
最近下载
- FLUENT非预混燃烧模型.pdf VIP
- 医疗器械召回管理办法培训.pptx VIP
- 留置看护工作理论知识培训课件.pptx VIP
- 《The sociology of translation and its activist turn》.pdf VIP
- 陕西眉县猕猴桃出口贸易现状及对策分析论文设计.docx VIP
- 新时代高校劳动教育知到智慧树期末考试答案题库2025年华东交通大学.docx VIP
- 水利水电工程单元工程施工质量验收评定表填表说明与示例(样表)2025年版(全).doc VIP
- 五年(2021-2025)高考语文真题分类汇编:专题03 文学类文本阅读(小说)(全国通用)(原卷版).docx VIP
- YST 5211-2018 注浆技术规程.docx VIP
- 2025年广东省学法考试年度考试考场一参考答案.doc VIP
有哪些信誉好的足球投注网站
文档评论(0)