隐私保持数据挖掘privacy-preservingdataminingppdm应运而生.pptVIP

隐私保持数据挖掘privacy-preservingdataminingppdm应运而生.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
隐私保持数据挖掘privacy-preservingdataminingppdm应运而生

* * 数据挖掘中的隐私保护 随着数据挖掘技术在各个领域的广泛应用,它的副作用也显现出来,即如何对待数据库中的数据隐私问题。因为数据挖掘是从收集到的大量数据中挖掘出潜在的模式,是一种典型的使用收集到的数据另做他用的行为,最终将引发顾客隐私数据的泄漏。隐私保持数据挖掘(Privacy-Preserving Data Mining, PPDM)应运而生。作为数据挖掘领域中的必威体育精装版研究方向,数据挖掘中的隐私保护主要考虑的问题有两方面:1. 为了使数据挖掘的接收方不能知道别人的隐私,敏感原始数据像身份证,姓名,地址等应该从原始数据库中修改或删除。2. 一些可以从数据库中用挖掘算法得到敏感信息也应该删除,因为这些信息同样威胁到个人隐私。隐私保持数据挖掘的主要目标是:开发一种改变原始数据的算法,使得含有隐私信息的数据即使在挖掘过程中也不泄漏隐私,这个问题的引起是隐私信息可以被未授权的用户(数据库入侵者)从公开的数据中推导出来。 1. 简介 2. 什么是隐私 针对不同的应用环境隐私的定义不同,事物数据库的隐私数据是指用户的基本信息(如姓名,年龄,家庭住址等)或用户的某些行为产生的信息(如购物,医疗,网页浏览等)与法律中的隐私定义(有关个人领域的一切不愿意为人所知的事情)截然不同,这些信息有意无意的泄漏会给用户带来麻烦,譬如,从医院的病历数据中挖掘出“感染疟疾的成年女性一般被证实会引发肺结核”的知识,可以帮助患者进行预防性治疗,但是对于患者来说她担心自己的病历记录被泄漏,从而可能严重影响她的工作。分布式开发环境中的隐私定义为各个站点存储的一切数据,隐私保持要求各个站点内部数据透明,站点之间数据必威体育官网网址。 3. 隐私保持的分类 许多方法被隐私保持数据挖掘所采用,我们可基于以下方面对其进行分类: 数据分布 关联规则中涉及到的维数 数据修正 数据或隐藏规则 隐私保持 第一种方法涉及到数据分布,其中的一些方法是基于集中式存储的数据而开发的,另一些是关于分布式数据存储的。分布式数据存储又可分为水平数据分布和垂直数据分布,水平型分布是指不同的数据库记录存储在不同的站点上,其典型模型是一个中心数据仓库,n个分布站点Si(I=1, 2, ….n)。关联规则的目的是找出全局关联规则,即满足全局最小支持度和全局最小置信度。一个项目集的全局支持度就是所有站点上该项目集支持度的和。隐私保持的衡量标准由局部k-频繁项集产生的全局k-频繁项集,保证各个站点只知道本站点的频繁项集,而无法获得其他站点的频繁项集。 数据分布 Data distribution 垂直型分布是指不同属性的全部数据存储在不同的站点上,其主要特征也是n个站点,与水平型分布的不同在于水平型分布是站内关联规则产生全局关联规则,而垂直型分布是站间关联规则产生全局关联规则,即每个站点包含同一事物的不同属性,关联规则由n个站点的不同项产生。可以通过寻找一个项目集的支持度来完成。计算一个项目集支持度的关键因素是:计算代表这个子项目集的向量的标量积。如果这样一个项目集的支持度可以安全地计算出来,即我们通过检查支持度是否大于阀值来判断是否为频繁项目集。 数据分布 Data distribution 根据关联规则中涉及到的维数分为单维的和多维的。在单维关联规则中只涉及到数据的一个维,例如:buy(computer)=buy(printer)这条规则只涉及购买维,而在多维关联规则中要处理的数据设计多个维,这种情况下的隐私保持尚处于研究阶段。正是今后工作的主要方向。例如:age(X, “30~39”)^income(X, “2000~5000”)=buy(X, “HDTV”)这条规则中涉及3个维。其中量化属性age和income已离散化。 关联规则中涉及到的维数 数据修正Data modification 数据修正的目的是修改数据库中那些需要对公众开放的数据的原始值以保护隐私。修正的方法包括: 混淆(perturbation):它是通过用一个新值代替属性中原来的旧值(例如把1改成0或添加噪音)来实现的。 模块化(blocking):即用‘?’代替一个现有的属性值。 汇总或合并(aggregation or merging):即把许多值混合成一个更粗糙的类别 交换(swapping):单个记录之间值的互换。 取样(sampling):用一个样本值代替一个群体。 数据或隐藏规则 Data or rule hiding 第四种方法是关于原始数据或汇总数据应不应该被隐藏,以规则的方式隐藏汇总数据的复杂度理所当然的高,正因此,许多启发式方法被开发出来,公开信息量的减少使得数据挖掘者开发较弱的推导规则,不允许对必威体育官网网址数据的推导。这个过程被称作“规则混淆”。 隐私保持 Privacy preservation 最后

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档