第三章大数据实时处理开发实践-3.2分布式消息系统Kafka.pptxVIP

下载本文档

2
0
约1.33万字
约 25页
2024-08-24 发布于广东
举报
版权申诉

第三章大数据实时处理开发实践-3.2分布式消息系统Kafka.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三章

大数据实时处理开发实践

大数据实时处理技术栈分布式消息系统Kafka分布式实时处理SparkStreaming分布式实时处理Flink高速道路及服务区拥堵洞察案例实践

3.2分布式消息系统Kafka

Kafka体系框架及基本原理Kafka是一种基于发布/订阅的消息系统，作为分布式流处理的消息队列使用Kafka多用于以下3种场景：构造实时流数据管道，在系统和应用之间可靠地获取数据构建实时流应用程序，对其中的流数据进行转换，实现流处理将写入Kafka的数据写入磁盘，实现存储Kafka的技术特性使得其成为构造实时计算平台消息系统及企业级消息系统的主流选择高吞吐量、低延迟、可扩展性：支持高吞吐量的数据流，即使在非常大的数据负载下，也能保持低延迟。可以轻松扩展以满足不断增长的数据和并发用户的需求，支持分区（Partitions）、主题复制（Topicreplication）和分布式消费持久性、可靠性、容错能力：Kafka具备将数据持久化到磁盘的能力，集群是高度容错的，可以自动恢复从节点（broker）故障。如果启用了主题复制，即使部分服务器失效，服务也可以继续进行，不会影响数据的完整性和可用性生态兼容：与广泛的大数据技术栈（如Hadoop、Spark）以及实时流处理平台（如Flink和Storm）集成，形成全面的解决方案。提供了多种语言的客户端库，包括Java、Python、C++等，使得不同的系统和应用能够轻松集成Kafka。能力强大：通过KafkaConnect，可以连接到常见数据库和数据系统（如MySQL、ES等）自动导入或导出数据。从0.11版本引入了事务功能，支持跨多个分区的原子写操作，适合处理复杂业务逻辑场景。支持多种消费模式，包括群组模式、广播模式等，适应不同的消息消费需求。

Kafka体系框架及基本原理Broker：将已发布的消息保存在一组Kafka服务器中，每一个独立的Kafka服务器被称为一个Broker，Broker承担数据的中间缓存和分发功能。Topic：主题，指Kafka处理的消息源的不同分类，类似数据库的表。Partition：分区，Topic物理上的分组，一个?Topic?可以分为多个?Partition，一个Partition是一个有序的队列。Partition中的每条消息都会被分配一个有序的ID。Producer：消息的生产者，用来发布消息。Consumer：消息的消费者，用来订阅消息。ConsumerGroup：消费组，一个消费组由一个或多个消费者组成，对于同一个Topic，不同的消费组能消费全部消息，而同一个消费组的消费者将竞争每条消息。Kafka的基本术语和概念

Kafka体系框架及基本原理Kafka架构Kafka的生产者生产消息并Push推送到Kafka集群中，Kafka消费者从集群中Pull拉取消息消费。Kafka使用ZooKeeper来保存Broker、主题和分区的元数据信息。在同一个集群中的所有Broker都必须配置相同的ZooKeeper连接，每个Broker的broker.id必须唯一。在Kafka之前，除了Broker之外，消费者也会使用ZooKeeper来保存一些信息，比如消费组的信息、拥有者信息、消费分区的偏移量（在消费组里发生失效转移时会用到）。从Kafka开始，消费者的偏移量管理被迁移到Kafka本身，使用名为__consumer_offsets的内部Kafka主题来保存这些信息，减少了对ZooKeeper的依赖，提高了系统的可扩展性和性能

Kafka体系框架及基本原理生产者向Kafka发送消息的流程图ProducerRecord是Kafka生产者的一种实现，主要功能是发送消息给Kafka中的Broker。ProducerRecord对象包含目标主题和要发送的内容，还可以指定键值对和分区。对键值对进行序列化以保证可以进行网络传输将消息传给分区器这条消息被添加到一个消息批次里，这个批次里的所有消息会被发送到相同的主题和分区上Kafka服务器收到这些消息时会返回一个响应如果消息成功写入Kafka，就返回一个RecordMetaDate对象如果写入失败，则会返回一个错误生产者Producer

Kafka体系框架及基本原理应用程序利用Kafka消费者接口向Kafka订阅主题，并从订阅的主题上接收消息。Kafka可以定义消费组，一个群组内的消费者订阅的是同一个主题，每个消费者接收主题中的一部分分区的消息。消费组的出现解决了单个消费者无法匹配数据写入速度的问题。消费者Consumer1个消费者接收到4个分区的消息2个消费者接收到4个分区的消息

Kafka体系框架及基本原理Kafka实现了数据生产者与数据消费者的解耦，让Kafka主题里的数据能够满足企