除Hadoop外你还需要知道的9个大数据技术.docx

下载文档 降价啦

0
0
约3.76千字
约 9页
2017-05-23 发布于湖北
举报
版权申诉
保障服务

除Hadoop外你还需要知道的9个大数据技术.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

除Hadoop外你还需要知道的9个大数据技术

Hadoop是大数据领域最流行的技术，但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外，另外9个大数据技术也是必须要了解的。 Apache Flink Apache Samza Google Cloud Data Flow StreamSets Tensor Flow Apache NiFi Druid LinkedIn WhereHows Microsoft Cognitive Services Apache Flink：是一个高效、分布式、基于Java实现的通用大数据分析引擎，它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。这是一种由社区驱动的分布式大数据分析开源框架，类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个顶级项目(Top Level Project,TLP)，于2014年4月被纳入Apache孵化器，目前在全球范围内有很多贡献者。 Flink受到了MPP数据库技术（Declaratives、Query Optimizer、Parallel in-memory、out-of-core 算法）和Hadoop MapReduce技术（Massive scale out, User Defined functions, Schema on Read）的启发，有很多独特功能（Streaming, Iterations, Dataflow, General API）。 HYPERLINK / 详细了解 Apache Samza：是一个开源、分布式的流处理框架，它使用开源分布式消息处理系统Apache Kafka来实现消息服务，并使用资源管理器Apache Hadoop Yarn实现容错处理、处理器隔离、安全性和资源管理。该技术由LinkedIn开发，最初目的是为了解决Apache Kafka在扩展能力方面存在的问题，包含诸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible，以及Processor Isolation等功能。 Samza的代码可作为Yarn作业运行，还可以实施StreamTask接口，借此定义process()调用。StreamTask可以在任务实例内部运行，其本身也位于一个Yarn容器内。 HYPERLINK / 详细了解 Cloud Dataflow：Dataflow是一种原生的Google Cloud数据处理服务，是一种构建、管理和优化复杂数据流水线的方法，用于构建移动应用，调试、追踪和监控产品级云应用。它采用了Google内部的技术Flume和MillWhell，其中Flume用于数据的高效并行化处理，而MillWhell则用于互联网级别的带有很好容错机制的流处理。该技术提供了简单的编程模型，可用于批处理和流式数据的处理任务。该技术提供的数据流管理服务可控制数据处理作业的执行，数据处理作业可使用Data Flow SDK(Apache Beam)创建。 Google Data Flow为数据相关的任务提供了管理、监视和安全能力。Sources和Sink可在管线中抽象地执行读写操作，管线封装而成的整个计算序列可以接受外部来源的某些输入数据，通过对数据进行转换生成一定的输出数据。 HYPERLINK /dataflow/getting-started 了解详情 StreamSets：StreamSets是一种专门针对传输中数据进行过优化的数据处理平台，提供了可视化数据流创建模型，通过开源的方式发行。该技术可部署在内部环境或云中，提供了丰富的监视和管理界面。数据收集器可使用数据管线实时地流式传输并处理数据，管线描述了数据从源头到最终目标的流动方式，可包含来源、目标，以及处理程序。数据收集器的生命周期可通过管理控制台进行控制。 HYPERLINK /documentation/datacollector/latest/help/ \l Getting_Started/GettingStarted_Title.html 了解详情 TensorFlow：是继DistBelief之后的第二代机器学习系统。TensorFlow源自Google旗下的Google Brain项目，主要目标在于为Google全公司的不同产品和服务应用各种类型的神经网络机器学习能力。支持分布式