- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
脚本——数据质量评价方法
(ppt1,ppt2)同学,你好。这节课我们来学习数学建模中的数据质量评价方法。
(ppt3)首先我们先介绍一下数据质量评估指标体系。
(ppt4)(动画1)什么是数据质量评估呢?数据质量评估,即对数据集的质量进行评估,既可放在数据清洗、预处理之前,也可在训练模型之前。对数据进行质量评估,主要目的是减少由于数据集本身的问题(不完整、不准确、逻辑问题、偏差等)对之后的建模等步骤造成干扰。(动画2)数据质量评估体系的主要参考指标是:数据的完整性、准确性、有效性、时效性和一致性。
(ppt5)(动画1)先来看数据的完整性检测:数据完整性检测:指某一数据集由于信息缺失等主客观因素导致的字段记录的缺失,遗漏等现象。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。(动画2)那么为什么我们的数据会有缺失呢?主要有以下几点原因。第一、有些信息暂时无法获取,或者获取信息的代价太大;第二、信息是被遗漏的;第三、属性值不存在。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。
(ppt6)(动画1)再来看一下数据的准确性。数据准确性用于描述一个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数据记录的信息是否存在异常或错误。(动画2)例如:业务员在上报系统上填写客户信息时,手误输错了某一信息,造成了数据库里存在的信息与客观事实不一样。数据准确性的检测较为困难,一般情况下很难解决。(动画3)再比如说在某些特定的情况下,例如性别,年龄,出生日期,籍贯等信息可以通过校验身份证号来检测,前提是确保身份证号码是正确的。即要根据实际数集内在的联系确定检测数据准确性的方法。
(ppt7)(动画1)接着我们来看数据的有效性检测。数据有效性用来描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。数据有效性检测的步骤是用户选择需要进行有效性检测的字段,针对每个字段设定有效性规则。(动画2)有效性规则包括:类型有效、格式有效和取值有效。
(ppt8)(动画1)其中,类型有效是指检测字段数据的类型是否符合其定义,例如,可以通过求和来判断是否是数值型;通过时间操作来判断是否是时间类型。(动画2)格式有效性的检测可以通过正则表达式来判断数据是否与其定义相符。(动画3)取值有效性则通过计算最大最小值来判断数据是否在有效的取值范围之内。
(ppt9)(动画1)接下来我们来看数据时效性检测。数据时效性:是指信息仅在一定时间段内对决策具有价值的属性。数据从生成到录入数据库存在一定的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。(动画2)例如当天的交易数据生成后没有及时的录入数据库或者源库与目的库之间的同步延迟,则会导致统计结果和真实结果存在一定误差。
(ppt10)(动画1)然后我们来学习数据的一致性检测。主要用于多个数据集的情况。其方法是首先确定主数据集,然后衡量其它数据集与主数据集相同或类似字段的字段值是否一致,主要运用Kappa系数和FleissKappa系数衡量。
(ppt11)(动画1)那么什么是kappa系数呢?是统计学中度量一致性的指标,取值在-1到1之间。?对于评分系统,一致性就是不同打分人平均的一致性;对于分类问题,一致性就是模型预测结果和实际分类结果是否一致。(动画2)kappa系数的计算是基于混淆矩阵,取值为-1到1之间,通常大于0,下表为kappa值的含义。当kappa值为-1时,表示数据完全不一致;等于0时,表示偶然一致;位于0~0.2之间时表示极低的一致性;位于0.21~0.4之间时;表示一般的一致性;位于0.41~0.6之间时,表示中等一致性;位于0.61~0.8时,表示高度的一致性,位于0.81~1时,表示几乎完全一致。
(ppt12)(动画1)Kappa系数的数学表达为??={??_0???_??}除以{1???_??}。其中,??_0为总的分类准确度,也即预测的一致性,即每一类正确分类的样本数量之和除以总样本数。(动画2)假设每一类的真实样本个数分别为??_1,??_2,…,??_??,而预测出来的每一类的样本个数分别为??_1,??_2,…,??_??,总样本数为n,那么??_??=sigemai从1到e(a_i*b_i)除以n的平方。
(ppt13)(动画1)例如下面的混淆矩阵,共有三种类别。根据上面的公式可以得到:(动画2)p_0等于0.8916,p_e等于0.3883,kappa系数为0.823,预测结果和实际结果几乎完全一致。
(ppt14)(动画1)接下来我们讲解FleissKappa系数。Kappa系数一般用于两份标注结果之间的比较,而FleissKappa系数则可用于多份标注结果的一致性检测。计算公式为
文档评论(0)