- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库成功案例1.doc
数据仓库成功案例1 数据挖掘在宝钢的实践 4. 宝钢数据仓库的体系结构及应用 4.1 系统环境 4.2 宝钢数据仓库开发 4.3 宝钢数据仓库应用 4.3.1 专业技术报表 4.3.2 数据分析与数据挖掘 4.3.3 决策信息支持 5. 宝钢数据仓库和数据挖掘应用及成果 6. 参考文献 宝钢简介 宝钢是中国最大的钢铁生产企业,目前的规模达到年产1100万吨钢,2002年的销售收入达到330亿元,税前利润接近60亿元。宝钢的产品系列包括板材、线材、管材等,主要的用户分布在汽车、家电等制造业。自1985年投产至今,积累了大量的生产实绩数据。在冶金工业中年复一年的积累着各种数据,从每一炉钢到每一块板坯到每一个钢卷,各级计算机系统可以把这些数据完整地收集起来。但是收集数据本身并不是目的,从“信息化带动工业化”的角度来看,更重要的是把这些数据利用起来,利用数据中蕴藏的知识来指导生产,形成企业的核心竞争力。另一方面,在冶金工业的运营过程中还有许多问题需要解决,例如全流程的质量控制和供应链管理等。由于它们固有的多变量和非线性特点,用传统的局部优化的方法很难达到企业级的最优。现在通过把分散在各个生产过程的实际生产数据按主题组织成数据仓库,在此基础上展开数据挖掘工作和获取知识,利用获取的知识可以比过去更好地解决这些问题。 根据一定的规则从大样本集中抽取规模较小的样本子集,可以分为随机采样和非随机采样。采样的主要目的是减少后续步骤处理的数据量,有时也可以起到改善数据分布的作用。指对数据进行一些可视化的探索,让分析人员对数据的分布特征做到心中有数,为后续的挖掘工作带来一些有益的提示。调整对各种令人不满意的数据进行处理,使其满足建模算法的要求和精度要求。调整的方法很多,具体的有缺失值处理、奇异值处理、矛盾值处理、标准化和变量变换等。建模是以一种数学模型的方式来表达隐含在数据中的知识。大体上模型可以分为有监督和无监督两大类。有监督的模型是指目标变量已经被赋予一定的值,通过训练要建立一种从输入变量到目标变量的映射,使其在一定的误差准则意义下达到最优。这样的模型可以用于分类和预报的目的。无监督的模型则是在缺少目标变量的信息的情况下,仅利用输入变量自身的信息把样本划分成为若干个类,从而达到抽取信息的目的。评价是对模型的结果进行误差分析。如果模型被证明是可以接受的,就可以被认为是一种知识,可以用于以后的预报和优化。优化是用挖掘出的知识来解决实际问题,诸如“如何调整某些输入变量的值来得到输出变量的目标值”。在一般的商业性数据挖掘中并不包含这一步,它们一般做到评价就结束了,把进一步的使用扔给用户。但是在我们的实际应用中,发现模型的理解和使用也很重要,所以在数据挖掘的方法论中增加了这一步。优化的方法包括聚类调优、遗传寻优等。Practical Miner(简称PM基于SAS的实用数据挖掘系统SAS Enterprise Miner:美国SAS公司研发 PM主要功能: (1)数据收集:根据用户的设定条件,选取分析用数据,并提供SAS数据格式与其它数据格式之间的接口; (2)数据采样:抽取数据集市中的典型样本; (3)数据预处理:对数据进行规范性检查、变量降维、数据变换、异常点处理、矛盾点处理; (4)可视化探索:提供直观的数据分析功能; (5)聚类分析:提供常用的聚类方法,可以自动决定类数; (6)数据建模:提供人工神经网络、模糊系统、线性回归等建模工具,可以优化模型结构; (7)数据预测:根据已建立的模型,对数据进行批量预报; (8)优化设计:通过定性或定量的方法,对于给定的目标,调整影响量,使目标达到最优; (9)趋势分析:研究变量随时间变化的趋势; (10)规范管理:设置规范数据库。 根据R.N.Anthony的三级管理模型(2),管理科学家把管理分为营运控制、管理控制、战略计划三个层次。通过管理层次的设计,可以使管理的实施更具有针对性,管理的层次越高,分析的内容也越多。宝钢股份信息化的三层数据架构——“数据、数据库、数据仓库”正是与管理的三大层次相对应,从信息系统的角度支持更高层次管理的实施。 运营控制层次:以生产过程的管理为主,要求完成制造过程数据的自动采集和制造过程的自动控制。 管理控制层次:要求完成业务管理过程的自动化,按专业实现生产、采购、销售、财务、设备等日常业务的计算机管理,并实现各专业的绩效分析、评价自动化,完成专业管理过程的PDCA闭环控制。这个层次中的日常业务自动化管理,通常由数据库应用系统完成,如 ERP系统等。而各专业的绩效分析、评价自动化,需要以企业管理知识、业务分析逻辑为基础,建立各种分析评价模型,快速、准确、安全地提供大量的专业技术信息共享,这种把数
文档评论(0)