- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
金融行业“羊毛党”用户识别案例实践主讲人:中移动信息技术有限公司李迪扬
需求背景概述1基础理论概述2数据方案设计3基于平台的实践操作4
需求背景概述2023年我国互联网立法情况2023年国际互联网立法情况数据安全与价值释放并重,数据法律规则体系全面构建1.构建中国特色数据跨境流动规则体系2.构建重点领域数据安全管理要求3.加快推进数据要素市场依法依规构建网络安全仍为立法重点,网络设施安全与发展齐驱1.加强网络设施安全顶层制度设计2.完善促进先进网络设施建设制度互联网平台立法不断完善,信息内容管理重点突出1.通过立法明确互联网平台网络信息内容管理义务2.重点加强对儿童等特殊群体的网络保护2023年《互联网法律白皮书》
需求背景概述羊毛党群体金融领域“职业羊毛党”们通过套现、套利行为大肆牟利,影响普通用户本应享有的权益。他们制作各种自动、半自动的黑产工具或通过第三方平台交易完成套现,从而实现“薅羊毛”活动,自身获利的同时对商家、银行、平台、运营商的利益造成损失。法律依据依据民法关于无效民事行为和不当得利的规定处理;情节严重或者数额巨大的则可能触犯刑法,涉嫌刑事犯罪。《民法典》第一百二十二条因他人没有法律根据,取得不当利益,受损失的人有权请求其返还不当利益。用户识别针对上述场景,通过大数据技术,从大量普通用户中识别出“羊毛党”群体特征,厂家就可以在设计促销细则时进行规避。数据处理我们已经有了1-4月份的潜在用户数据,并知道了2月份的“羊毛党”用户,可以使用机器学习算法进行数据挖掘训练出“羊毛党”用户识别模型,通过4月潜在用户数据推理输出潜在“羊毛党”用户。
需求背景概述1基础理论概述2数据方案设计3基于平台的实践操作4
。。。基础理论概述分类模型提升(Boosting)分类器隶属于集成学习模型。它的基本思想是将成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型的特点在于不断迭代,每次迭代生成一棵新的树。XGBoost(eXtremeGradientBoosting)又叫极端梯度提升,是Boosting算法的一个C++实现。XGBoost是对梯度提升算法的改进,求解损失函数极值时使用了牛顿法,将损失函数泰勒展开到二阶,另外损失函数中加入了正则化项。其最大特点在于能够自动利用CPU的多线程进行并行,并在算法上加以改进以提高精度,针对分类或回归问题,效果非常好,具有效果优异,使用简单,速度快等优点。在二分类任务下,预测结果(PredictedCondition)和真实标记(ActualCondition)之间存在4种不同的组合,构成混淆矩阵(ConfusionMatrix)。??ROC(ReceiverOperatingCurve)受试者工作特征曲线,是一种坐标图式的分析工具,说明了二分类模型在划分阈值变化时的预测能力,用于选择最佳划分阈值。ROC空间将假阳性率(FPR)定义为X轴,真阳性率(TPR)定义为Y轴,离左上角越近的点对应模型的预测准确率越高。AUC(AreaundertheCurveofROC)指标,ROC曲线下的面积,也是判断一个二分类模型优劣的常用评价指标,其取值在0-1之间。一般而言,AUC值越大的分类模型,预测效果越好,应用价值越大。XGBoost模型模型评价指标
需求背景概述1基础理论概述2数据方案设计3基于平台的实践操作4
数据方案设计模型选择:。本案例属于二分类的场景,即预测的用户是或否为目标用户,只存在两种情况,因此机器学习算法可以选择随机森林、XGBoost、决策树等二分类场景的算法,此处选择XGBoost的分类算法。。从“羊毛党”用户与全量用户的占比来看,目标用户(疑似“羊毛党”用户)的占比很小,甚至不到10%,属于二分类中偏分类的场景。在衡量模型效果的指标可以选择AUC,并考虑基于召回率(Recall)和精确率(Precision)确定最优F1-score。指标选择:
。数据方案设计数据宽表设计:根据对“羊毛党”这一群体的分析,结合现有的案例数据,对这一特定群体的识别有相关性的数据包括:消费信息、业务使用信息、社交信息等。充值金额和充值次数由于每个月具有随机性,可以将充值金额衍生为近两个月平均充值金额和近两个月总充值次数。训练数据集预测数据集
需求背景概述1基础理论概述2数据方案设计3基于平台的实践操作4
基于平台的实践操作-工程准备1、创建工程2、创建数据流(1)工程作为基本管理单元可进行编排开发和数据模型管理。在【工作空间】页面,点击创建工程按钮,选择模板,随后在弹出的窗口中输入工程相关信息,完成工程创建。(2)打开已创建的工程,在导航栏点击“数据处理”进入到数据处理页面,
您可能关注的文档
- 职业规划PPT-第八章.pptx
- 职业规划PPT-第六章.pptx
- 职业规划PPT-第十章.pptx
- 职业规划PPT-第五章.pptx
- 单元2 Java语言基础.pptx
- 单元3 程序控制结构.pptx
- 单元4 方法和数组.pptx
- 单元1 初识Java电子课件.pptx
- 单元5 面向对象基础.pptx
- 单元6 面向对象高级.pptx
- 第三章 大数据实时处理开发实践-3.1大数据实时处理技术栈.pptx
- 第三章 大数据实时处理开发实践-3.2分布式消息系统Kafka.pptx
- 第三章 大数据实时处理开发实践-3.3 分布式实时处理Spark Streaming.pptx
- 第三章 大数据实时处理开发实践-3.4 分布式实时处理Flink-3.4.1.pptx
- 第三章 大数据实时处理开发实践-3.4 分布式实时处理Flink-3.4.2.pptx
- 第三章 大数据实时处理开发实践-3.5 高速道路及服务区拥堵洞察案例实践.pptx
- 第四章 大数据交互式OLAP多维分析开发实践-4.1大数据交互式分析技术栈.pptx
- 第四章 大数据交互式OLAP多维分析开发实践-4.2分布式数据仓库Hive.pptx
- 第四章 大数据交互式OLAP多维分析开发实践-4.3Hive SQL操作实践.pptx
- 第四章 大数据交互式OLAP多维分析开发实践-4.4分布式计算框架Spark SQL.pptx
最近下载
- 消防大讲堂:火焰探测器(感光式火灾探测器)-红外火焰探测器·紫外火焰探测器.pptx VIP
- 第二章-表面张力和润湿作用.ppt VIP
- 润湿和渗透作用.ppt VIP
- 14《圆明园的毁灭》课件-五年级上册语文统编版.pptx VIP
- 小学葫芦丝校本教材..doc VIP
- 2023年全国工业和信息化技术技能大赛-工业大数据算法赛项-技术文件V2.docx VIP
- 必威体育精装版护理文书书写规范创新.doc VIP
- 第三届全国工业和信息化技术技能大赛——工业大数据(数据库运行管理员)赛项技术方案.docx VIP
- GB 9743-2024 轿车轮胎规范.pdf VIP
- 分散和润湿作用.ppt VIP
文档评论(0)