《大数据在商业中的应用前景》Apache Hadoop.docVIP

《大数据在商业中的应用前景》Apache Hadoop.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录: Apache Hadoop*总介绍………………………………………………………………………2 1.1、Apache HDFS*……………………………………………………………………………4 1.2、Apache* Pig* 平台………………………………………………………………………7 1.3、HCatalog…………………………………………………………………………………9 1.4、Apache* MapReduce……………………………………………………………………11 案例分析………………………………………………………………………………………13 2.1类型一:中国电信行业大数据应用市场研究……………………………………………13 2.11案例一:中国移动详单实时查询……………………………………………………13 2.12案例二:中国联通 3G 流量大数据应用……………………………………………15 2.2类型二:中国金融行业大数据应用市场研究……………………………………………16 2.21案例三:中信银行信用卡营销……………………………………………………16 2.22案例四:兴业证券客户综合分析管理系统…………………………………………18 2.23案例五:某国有银行用户查询系统………………………………………………20 2.3类型三: 中国智慧城市大数据应用市场研究……………………………………………21 2.31案例六:浙江省台州市智能交通管理解决方案……………………………………21 2.32案例七:锦州区域医疗平台大数据应用案例………………………………………22 Hadoop* 采用情况 特点:包括大量支持分布式计算的组件,用以解决大数据问题。 Apache 于 2012 年 1 月推出了首个完整的生产版本 Apache Hadoop 1.0 软件。 这一版本支持的认证特性包括 HBase*、Kerberos 安全增强、以及一个用于访问 HDFS 的表述性状态转移(RESTful)API。 使用 Hadoop 软件进行大数据分析的两种方法 企业正在采用两种基本方法实施 Hadoop。 仅 Hadoop 的部署。Hadoop 部署可作为开源软件从 Apache 免费下载,相关厂商也可以提供发行版软件,即将 Hadoop 框架与特定的软件组件预打包,以便支持系统管理。 集成传统数据库的 Hadoop。建立了传统数据仓库和分析能力的企业可以扩展其现有的平台,以包括集成的 Hadoop 版本。将现有数据管理资源与 Hadoop 连接为分析结构化和非结构化数据以获得洞察提供了重要机会。例如,复杂的呼叫中心脚本分析结果可以与有关购买行为的结构化数据进行关联,包括特定 SKU、零售店面和地理位置等。在这种情况下,专门的连接器可在 Hadoop 和传统环境之间来回移动数据。 1、Apache HDFS* 特点: Apache Hadoop 分布式文件系统(简称Apache HDFS),为其他层处理提供基础,还提供了一个抽象系统,一个 API 系统可支持用户部署其他分布式文件系统或存储系统。 文件拆分成大型数据块,并在多个数据节点中进行复制。此举旨在为文件数据提供冗余支持和可用性保证。 从用户的角度而言,HDFS 是一种包含文件和目录层次结构的传统文件系统。通过在商用服务器集群上运行的两项服务。 缺点: 随着数据量的不断激增,HDFS 以及其他 Hadoop 组件将逐渐受限于其单主机设计。此外,系统中的大型负载有可能超过单一命名节点的处理能力,从而导致性能瓶颈。 突破这些局限性的解决办法就是 采用“联合”的方式。 然而,即便如此,联合功能最终也会导致局限性。因为当一个集群中包含 10 个命名节点时,由于无法轻易地将元数据卸载到其他命名节点,如果这些卷中有一个的增长速度超过其他卷的增长速度,那么该命名节点将会超载。 基本介绍:面向海量数据的分布式存储 从最基本的层面来说,Apache Hadoop 分布式文件系统(简称Apache HDFS)是 Apache 开源项目 Hadoop 下应用程序所使用的主要分布式存储组件。同时,HDFS 还能作为独立的分布式文件系统使用。 Apache Hadoop 框架包括大量支持分布式计算的组件,用以解决大数据

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8135026137000003

1亿VIP精品文档

相关文档