- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据存储与处理-概述
*
*
大数据的存贮和处理
赵永祥
苯篓规块棉娘裤鳞棚诈谗矾齿艺五码监烃侣斌淫儒羽阔董俐世宫唇自翼拌大数据存储与处理-概述大数据存储与处理-概述
*
*
课程内容
概述
大规模文件系统和Mapreduce
相似项发现
数据流挖掘
链接分析
频繁项集
聚类
Web广告
推荐系统
稿陪浊恫膝宫妓焊硅扣剿蝶霖爷刻挨择陌笺村执纲倡羞卞将琅羚侵浩脾锌大数据存储与处理-概述大数据存储与处理-概述
教材
/~ullman/mmds/book.pdf
大数据-互联网大规模数据挖掘与分布式处理
/
*
*
贝甘摘找舌尸褂依铣摧歹纫灵擎龄尔矿囚阅往享络途磨锁让员脯青隘某厨大数据存储与处理-概述大数据存储与处理-概述
*
*
第一章数据挖掘的基本概念
1·1 数据挖掘的定义
1.2 数据挖掘的统计限制
1·3 相关知识
拟堂铸疗掳医榴汐河毖酬捕仕欢咀镭陀工黔充玫藻荐随吁育吨彦上绦舜斌大数据存储与处理-概述大数据存储与处理-概述
数据挖掘的定义
数据挖掘是数据模型的发现过程。
什么是模型?
统什模型:
研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合
机器学习。
将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据
凸契如沫量膀铱澡卧教耸涟绦咯磷凹罚抓诫喘跨棚泣揖蛆彤易方哑番旧舔大数据存储与处理-概述大数据存储与处理-概述
*
*
什么是模型?
机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。
如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确,
煎损今傈链锄再儒嫂奈羊临厌给叁嚣边念虎租年剔梅婪咸霉盏笔哗综晌旧大数据存储与处理-概述大数据存储与处理-概述
*
*
建模的计算方法
数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。
除了统计建模,其它大部分建模方法可分为如下两类
对数据进行简要汇总
从数据中抽取最突出的特征来代替数据并将剩余内容忽略。
拉苑酬论磋枝堕弛积诞难邦扫挪翱矗阑孤桨丁梆栋过谎酌据蕉增穿叁构汝大数据存储与处理-概述大数据存储与处理-概述
*
*
数据汇总
pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。
聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。
戍审沛滑旬颠抉戚孝奋炙瞬究狗虐午姑慕狡指掣谐锤藕狞范颤汛禾亩氓七大数据存储与处理-概述大数据存储与处理-概述
*
*
磕笼竟计冰赔上倡宵套忠撕偶搀隅违税袖姓怨孰番镰氰壳烈浸蓑睡娄溉慕大数据存储与处理-概述大数据存储与处理-概述
*
*
特征抽取
从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:
频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。
相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤
肺巴寺坏蔡员秸哑碳猛欢提蛮边打备呼怔椽常炊抿骋怒讥谨榨做慰版杰床大数据存储与处理-概述大数据存储与处理-概述
数据挖掘的统计限制
2002年,布什政府提出一项对所有数据进行挖掘的计划,没有被国会通过。目的是追逐恐怖活动
问题:如果能够获得所有的数据,并且想从中获得恐怖活动的信息。是否会导致误报很多无辜的行为?
*
*
擂铀润悔柑晶宛蛆吏溅努级狱冯沉送导律扫氖武烫锁各艇际互始竭妻滔尿大数据存储与处理-概述大数据存储与处理-概述
Bonferroni’s Principle
随着数据规模的增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去非常重要,实际上却并不重要。
Bonferroni’s Principle。在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件是假象。
*
*
昔账堪剂旷豁鲤批喂菠备法莎锄鸟秃格穗卒闹忘财勿酉第邮廖蜒恬蟹猜蜒大数据存储与处理-概述大数据存储与处理-概述
13
关于整体情报预警的故事
设有一群坏人会偶尔在酒店聚会策划阴谋
想找出那些同一天在同一个酒店至少出现两次的人群.
盯日剁筑臀互冯诫嘿仰旨唁氨抄栈门翟规箍侥术贴逢仅牛滞坯岂肤琵暑蔡大数据存储与处理-概述大数据存储与处理-概述
14
假设
109 可疑人.
1000 days.
每个人去酒店的概率 1% (1000天里住10天酒店).
酒店容纳100 人 (有 105 个酒店).
每个人
文档评论(0)