关于MapReduce安全方面的读书报告.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于MapReduce安全方面的读书报告

PAGE5 / NUMPAGES5 2013/5/8 关于MapReduce安全的读书报告 摘要 对于本次课程大作业我选择的主题是MapReduce,通过阅读MapReduce综述性的文章,对MapReduce并行处理框架有基本的了解,然后我主要选择的点是MapReduce处理框架的安全性问题,通过阅读论文《airavat:security-and-privacy -for-mapreduce》,对MapReduce并行编程模型存在的安全方面的问题以及部分问题的解决方案有了较深的了解。 关键词:MapReduce并行处理 安全与隐私 强制访问控制 1 引言 MapReduce是Google公司于2004年提出的能并发处理海量数据的并行编程模型,其特点是简单易学、使用广泛,能够降低并行编程的困难,让程序员从繁杂的并行编程工作中解脱出来,轻松的编写简单、高效的并行程序。 但是MapReduce对于数据的隐私和安全方面考虑的还是很不够,在金融、医疗等领域的分布式系统中的数据往往有很高的私密性要求,因此如何解决分布式系统中隐私数据的安全问题成为了重要的问题。 MapReduce 多被用于数据分析和数据挖掘,图1是一个常见的应用场景,医院H 作为数据提供方,提供病人资料,这些资料属于敏感的隐私信息,不可泄露。H 要求IT 公司T 根据其需求对病人数据进行统计和分析,结果报表是公开且不含隐私数据的。公司T 提供程序源代码,并部署到分布式系统S 中进行计算工作。本文的前提假设为: 分布式系统S 是可靠的,即S 为私有分布式系统或可靠的第三方分布式系统,且不考虑分布式系统S 的系统漏洞带来的安全问题; IT 公司T 是不完全可信的,即T 可能会有意或无意地泄露隐私数据。 那我们应该如何允许不受信任的代码处理隐私数据但不至泄漏? Figure  SEQ Figure \* ARABIC 1 MapReduce应用场景及隐私泄露的可能性 本文的后续内容主要围绕如何解决上述问题,当然主要的思路还是来源于《airavat:security-and-privacy-for-mapreduce》这篇论文,通过对这篇论文的深入阅读,也会有我自己的一些问题和看法。这篇论文主要是将自己的理论实践到一个原型系统airavat,airavat是一个基于MapReduce的系统,主要是保障敏感数据在分布式计算过程中的安全和隐私问题。 2 问题的定义 数据提供者提供数据,该部分数据可能是比较敏感的,比如说某个电子商务网站的交易记录、个人的医疗记录等等; 计算提供者(Map和Reduce函数编写者)基于上述数据做一些研究分析,比如数据挖掘; Airavat平台可以帮助计算提供者使用数据提供者提供的数据MapReduce计算,但是要保证数据提供者的隐私(详细记录)不被泄露。 3 Airavat的假设 Computation provider写的Mapper函数是不安全的。例如Computation provider可能会通过网络将数据发送出去,或者他通过某种方式去探测数据(如在mapper中写到”if username=”QiJi” then output_1 else output_0”,这样通过output结果就可以看到记录中是不是有QiJi的记录) Reducer函数是安全的。即要求computation provider只能使用count/sum/threadhold等统计函数来收集结果,不能收集详细的记录。 ?4 主要的实现思路 4.1 两个方面 防止computation provider通过系统资源泄露数据(网络传输、读写文件); 防止computation provider通过输出结果推测出原始信息(编写特殊的输出表示存在特殊的输入信息)。 4.2 实现思路 为了解决上面的这个问题,Airavat主要做了4件事情: 通过SElinux限制map程序通过网络发送信息; 给原始数据加上label,并且在计算过程中产生的中间数据以及结果输出都依赖于原始数据的label,只有到data provider取消数据(文件)的限制label后computation provider才能够使用或访问这些数据文件,这是通过SElinux的MAC实现的; 同时,要求computation provider预先定义其mapper的输出范围,只有当其输出没有超过其预先定义的范围时,才可以被output; 要求data provider提供隐私参数,computation provider提供预先估计的输出范围以及输出的个数,利用差分隐私的原理防止computation provider通过特殊的输出测试出是否存在特殊的原始信息。主要是通过差分隐私原理的

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档