第8课:金融风控问题.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
金融风控问题案例 寒小阳 七月在线 2017年1月22日 “魔镜杯” 风控算法⼤赛 七⽉在线Kaggle实战班 2 背景介绍 Ø  比赛公开了国内⽹络借贷⾏业的贷款风险数据 Œ  包括信用违约标签(因变量)   建模所需的基础与加⼯字段(自变量) Ž  相关用户的⽹络⾏为原始数据 本着保护借款⼈隐私以及拍拍贷知识产权的目的,数据字段已 经过脱敏处理。 数据简介 Ø  数据编码为GBK 。 Ø  初赛数据包括3万条训练集和2万条测试集。 Ø  复赛会增加新的3万条数据,供参赛团队优化模型 ,并新增1万 条数据作为测试集。 Ø  所有训练集,测试集都包括3个csv ⽂件。 七月在线Kaggle实战班 3/54 数据信息 Ø  Master(每⼀⾏代表⼀个成功成交借款样本 ,每个样本包含200 多 个各类字段。 Œ  idx :每笔贷款的unique key ,可与另外2个⽂件里的idx相匹配 。   UserInfo_* :借款⼈特征字段 Ž  WeblogInfo_* :Info ⽹络⾏为字段   Education_Info* :学历学籍字段   ThirdParty_Info_PeriodN_* :第三⽅数据时间段N 字段 ‘  SocialNetwork_* :社交⽹络字段 ’  LinstingInfo :借款成交时间 “  Target :违约标签(1 = 贷款违约 ,0 = 正常还款)。测试集里 不包含target 字段。 七月在线Kaggle实战班 4/54 数据信息 Ø  Log_Info (借款⼈的登陆信息) Œ  ListingInfo :借款成交时间   LogInfo1 :操作代码 Ž  LogInfo2 :操作类别   LogInfo3 :登陆时间   idx :每⼀笔贷款的unique key Ø  Userupdate_Info (借款⼈修改信息) Œ  ListingInfo1 :借款成交时间   UserupdateInfo1 :修改内容 Ž  UserupdateInfo2 :修改时间   idx :每⼀笔贷款的unique key 七月在线Kaggle实战班 5/54 处理过程 Œ  数据清洗 Ø  对缺失值的多维度处理 Ø  对离群点的剔除⽅法 Ø  ⽂本处理   特征⼯程 Ø  地理信息处理 Ø  成交时间 Ø  类别型编码 Ø  组合特征 Ž  特征选择 Ø  Xgboost 重要度排序   类别不平衡处理 Ø  代价敏感学习 与 过采样   模型设计与优化 七月在线Kaggle实战班 6/54 数据清洗 Œ  缺失值的多维度处理 Ø  按列(属性)统计缺失值个数,进⼀步得到各列的缺失比率

文档评论(0)

新华书局 + 关注
实名认证
文档贡献者

新华书局,精选好书

1亿VIP精品文档

相关文档