- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Flink中的数据一致性
Flink中的数据一致性对于分布式流处理系统而言,高吞吐、低延迟往往是最主要的需求。与此同时,数据一致性在分布式系统中也很重要,对于正确性要求较高的场景,“精确一次”一致性的实现往往也非常重要。如何保证分布式系统有状态计算的一致性,是Flink作为一个分布式流计算框架必须要解决的问题。Flink通过异步屏障快照机制来实现“精确一次”一致性的保证,当任务中途崩溃或者取消之后,可以通过检查点或者保存点来进行恢复,实现数据流的重放,从而让任务达到一致性的效果,同时,这种机制不会牺牲系统的性能。高吞吐低延迟数据一致性精确一次
1.1有状态计算流计算分为无状态和有状态两种情况。无状态计算观察每个独立的事件,每一条消息来了以后和前后其他消息都没有关系,比如一个应用程序实时接收温度传感器的数据,当温度超过40度时就报警,这就是无状态的数据。有状态计算则会基于多个事件输出结果,比如,计算过去1个小时的平均温度,就属于有状态计算。
1.2数据一致性三种形式尽可能正确,但不保证一定正确。也就是说,当故障发生时,什么都不做,既不恢复丢失状态,也不重播丢失的数据在系统发生故障以后,聚合计算不会漏掉故障恢复之前窗口内的事件,但可能会重复计算某些事件,这通常用于实时性较高但准确性要求不高的场合。例如,失败后恢复时,统计值将等于或者大于流中元素的真实值。在系统发生故障后,聚合结果与假定没有发生故障情况时一致。该模式意味着系统在进行恢复时,每条记录将在算子状态中只被重播一次。例如在一段数据流中,不管该系统崩溃或者重启了多少次,该统计结果将总是跟流中的元素的真实个数一致010203最多一次(at-most-once)至少一次(at-least-once)精确一次(exactly-once)
1.3异步屏障快照机制“精确一次”模式要求作业从失败恢复后的状态以及管道中的数据流要和失败时一致,通常这是通过定期对作业状态和数据流进行快照实现的。但是,传统的快照机制存在两个主要问题:(1)需要所有节点停止工作,即暂停整个计算过程,这个必然会影响到数据处理效率和时效性;(2)需要保存所有节点的操作中的状态以及所有在传输中的数据,这个会消费大量的存储空间。为了解决上述问题,Flink采用了异步快照方式,它基于Chandy-lamport算法,制定了应对流计算“精确一次”语义的检查点机制——异步屏障快照机制(AsynchronousBarrierSnapshot)。
1.3异步屏障快照机制异步屏障快照是一种轻量级的快照技术,能以低成本备份DAG(有向无环图)或DCG(有向有环图)计算作业的状态,这使得计算作业可以频繁进行快照并且不会对性能产生明显影响。异步屏障快照机制的核心思想是,通过屏障消息来标记触发快照的时间点和对应的数据,从而将数据流和快照时间解耦,以实现异步快照操作,同时也大大降低了对管道数据的依赖(对DAG类作业甚至完全不依赖),减小了随之而来的快照大小。
Thanks!
有哪些信誉好的足球投注网站
文档评论(0)