决策树ID3算法在银行信贷业务中应用.docVIP

决策树ID3算法在银行信贷业务中应用.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树ID3算法在银行信贷业务中应用

决策树ID3算法在银行信贷业务中应用摘要:银行信贷业务是银行的一项重要业务,该业务存在一定的风险,如果我们能够预测客户的违约风险就可以最大程度的降低风险。数据挖掘技术可以很好的解决这一问题。将数据挖掘技术运用到银行客户信用评估,在庞大的数据中将看似无关联的数据进行筛选和净化,提取出有价值的信息,对客户贷款申请做出恰当的回应。数据挖掘是信息技术发展的必然结果,它是指通过挖掘算法从大量数据中抽取挖掘出隐含在其中的有价值的模式或规律等信息的复杂过程。其中,对数据的分类是数据挖掘领域研究的重要课题。本文通过决策树的经典算法ID3算法对银行信贷业务进行分析,并总结了该算法相对于其他算法的优缺点。 关键词:数据挖掘;信贷业务;决策树;ID3算法 中图分类号:TP39 文献标识码:A 文章编号:1007-9599 (2012) 13-0000-02 2008年由次级贷款引发的金融危机使得客户的信用问题再度引起了金融界的高度重视。由于银行信贷业务的盈利特点,使得金融机构不仅获得了潜在的高额利润,同时也为金融机构带来了巨大的潜在风险。银行为了规避该种风险就需要对消费客户进行全面客观而准确的还贷能力进行评估。从而,信用评估技术成为了消费信贷的风险管理不可或缺的重要技术。 为了降低银行的经营风险,在银行的信贷业务中,银行贷款员需要分析数据,预测那些贷款申请者是安全的。面对这些海量的信息,如何从中发现有用的价值数据和知识无疑是当前需要重点解决的问题。数据挖掘技术正是在此背景下产生并蓬勃发展起来的。决策树算法是数据挖掘技术中的一项重要实现算法。 一、数据挖掘基本概念 数据挖掘(DM,Data Mining)是集人工智能、机器学习、统计学等科学为一体的新型技术; 所谓数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。数据挖掘是一种决策支持的过程,它以人工智能、机器学习、模式识别、统计学、数据库、可视化技术等为基础,通过自动化地分析大量数据,进行总结性的推理,从而挖掘出潜在的模式或者规律,帮助决策者做出正确的决策。它不仅仅是面向某个特定的数据库的简单查询检索调用,而且要对通过分类、估计、预测、聚类、关联分析等方法对这些数据进行宏观或微观的统计、分析、归纳和推理,试图找到事件间的关联关系,以求解实际问题,甚至达到利用现有的数据对未来进行预测的目的。 数据挖掘的过程粗略的可分为五个步骤:确定业务对象、数据准备、数据挖掘算法执行、结果分析、知识同化。在实际生活中,使用数据挖掘模型得到一个直接的结论的时候并不多,更多的情况是,模型得出的是对目标问题多方面地描述,这时就要更好的分析和总结它们的规律,以提供合理的有价值的决策支持信息。 数据挖掘在金融领域中最典型的应用是进行贷款偿还预测和客户信用政策分析。贷款偿还预测和客户信用政策分析对银行业务是相当重要的。有许多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。数据挖据的方法,如特征选择和属性相关计算,有助于识别重要因素,剔除非相关因素。 二、决策树基本概念 决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。其主要算法有ID3、C4.5等。 作为分类器,决策树是一棵有向、无环树。决策数的基本组成部分有决策结点、分支和叶子。其中最上面的是根结点,根结点没有父结点,其余结点有且仅有一个父结点;一个结点可以有没有子结点或一或二个子结点。没有子结点的结点称为叶结点;其他的结点称为内部结点。每个叶结点都对应一个类别标示的值;每个内部结点都对应一个用于分割数据的属性 Xi ,称为分割属性;每个内部结点都有一个分割判断规则qj ;如果Xi 是离散属性,那么qi 的形式为 ,其中 ,Yi就成为结点n的分割子集。 下面通过一个信贷客户信用风险分析的例子来说明: 其中债务情况是最重要的属性,因此第一个分支点设在债务情况Debt,第二个判断条件设为工作类型Employment Type。简单决策树如下图 2 所示: 三、决策树ID3算法 ID3算法是由Quinlan首先提出的。该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,实现对对象数据的归纳和分类。该算法是决策树学习算法的一种典型算法,算法的重点部分在决策树的各级结点上,将信息增益方法作为选择属性的标准,来确定每个结点生成的属性均是合适的。这样可使获得的训练样本子集分类所需信息量最下 四、ID3算法的评价 ID3通过不断的循环处理,层层对决策树进行细化,直到形成一个足够准确的完整决策树,其优缺点总结如下: (一)优点 1.ID3算法的假设

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档