大数据解决方案介绍课件.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据基础分析案例 3 :工商 / 消协方案 ? = 集体(群体)智慧 (Collective Intelligence) 分词 / 词频 打标签 三聚氰 胺 +40 发霉 -15 丰富 +35 款式多 质量好 +20 丰富 词性分析 -90 过期 xx 牛奶 +30 活虫 xx 服饰 合身 物美价 廉 缩水 综合评分 / 定 位 -30 口感好 55 -70 +10 55 -55 425 ? 305 190 ? 290 目录 大数据背景 大数据技术背景 已有方案 方案建议 大数据平台整体方案 数据分析 BI 应用 数据服务应用 数据消费应用 DaaS 数 据 集 市 数据服务总线 API 二级存储 第三方导出 结 构 化 数 据 非 结 构 化 数 据 外 部 数 据 分布式流处 理能力 数据集成系统 数据融合 / 清洗 分布式批处 理能力 数 据 处 统 理 管 理 系 元 数 据 统 管 理 系 数据库 日志 消息 周期性 近实时导入 HBase Hadoop 集群 HDFS MetaStore Metrics 互联网 流式采集 前置处理 方案建议 异构数据整合: 基于 Hadoop 开发,对各类数据、各种格式、各种系统,通过使用大 数据导入、采集技术,整合异构数据至全局数据池。 原生态数据池 :基于 Hadoop Flume, Sqoop 开发,通过对各种数据源的导入、采集,数 据池会对原生态数据进行存储(也称为“未加工数据”)。原生态数据是数据源的一面 “镜子”,也是后续加工操作的起点。 方案建议 粗加工数据 :利用 Hadoop MapReduce 框架,通过实现各种加工 策略,对原生态数据进行提炼而产生 的精加工数据。精加工数据可能是多 个数据源融合的合集,也有可能是一 个单独数据源的子集。 方案建议 数据即服务( DaaS ) 基于对 Hadoop HBase, Hive 等接口封装,以 服务的方式将精加工数据封装后提供给: ? 数据开发商 ? 二级应用:此类应用建立在精加工数据的基 础上,通过统一的数据服务接口访问、查询 精加工数据。 方案建议 数据分析系统: ? 用户交易频繁模式挖掘 挖掘用户交易、投资频繁模式。 e.g. 投资 A 产品的用户同时也喜 欢 B 、 C 产品 ? 用户画像、聚类 通过用户的资料、交易习惯, 对用户进行聚类(“画像”)。 能够挖掘出类似“男, 30-45 , 白领,喜欢购买风险高的投资 产品”等的组群。 ? 数据推荐引擎 基于对用户频繁模式、画像, 智能投放、推送套餐、增值等 服务。 大数据处理典型流程 ? 可视化 (Reporting) ? API(DaaS) 数据呈现 数据反 馈回流 数据导 入存储 精加工“小数据” 数据标 签迭代 数据升 维聚合 数据分析 数据降 维分析 数据升维聚合 数据前置处理 原始“大数据” 以大数据处理的核心流程构建大数据平台 大数据平台 用户: fn1, fn2 用户: fn1, fn3 用 户 : fn1,fn2,fn3,f4,f5, pic1.info,video1.info … 以元数据为基 础构建主数据 对象,并对其 进行标签升维 HBASE 用户: fn1, fn4, fn5 逻辑 数据 中心 结构化数据源 用户: pic1,video1,… 数据 基础 分析 数据集 市 分布式文 件系统 ( HDFS ) 非结构化数据源 反馈迭代学习 专业非结构化 数据处理服务 平台核心能力 包括数据采集、 数据存储、数 据集成、数据 分析 大数据平台处理能力(结构化数据 + 非结构化数据) 可视化 API 分析 二级存储 元数据 HEAD 逻辑数据中心 批量存储 实时更新 一

文档评论(0)

精品大课件 + 关注
实名认证
文档贡献者

专业类课件,PPT课件,ppt课件,专业类Word文档。只为能提供更有价值的文档。

1亿VIP精品文档

相关文档