日志综合管理平台基于Storm框架的实现.docVIP

下载本文档

1
0
约2.85千字
约 3页
2017-05-20 发布于广东
举报
版权申诉

日志综合管理平台基于Storm框架的实现.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

日志综合管理平台基于Storm框架的实现.doc

　　日志综合管理平台基于Storm框架的实现【摘要】日志对于每个系统来说都是不可或缺的一部分，而现阶段对日志的处理效率却不尽如人意。实时性日志考验的是大数据处理框架的实时计算能力，基于Storm 并借助开源框架 Kafka，设计了一个实时数据收集与处理的系统，将数据转为流的形式，对收集来的数据直接在内存以流的形式进行计算，输出有价值的信息保存到Redis。最后对系统进行性能测试以及计算能力的测试。实验结果表明，该系统可扩展性良好，且并行计算能力稳定，适合大量实时数据处理。中国 1/vie 　　【关键字】 Storm Kafka Redis 　　一、引言　　大数据时代，与互联网行业息息相关的诸多领域中用户数量和其产生的数据在不断地累加，为之提供支撑的服务器端存放的日志信息量也随之剧增，如何准确及时的筛选海量日志中的关键信息成为了亟待解决的问题。众所周知，Hadoop架构可以使用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储，但是对于实时性极强的流式数据，显然流处理框架Strom更适合，并且处理效率客观。　　二、Storm计算框架　　Storm是由BackType开发并被T的逻辑单元，一个实时的应用打包为拓扑后发送，拓扑是由Spout和Bolt组成，其二者的关系如图1所示。Spout节点从数据源中源源不断的消费数据并把数据发送到后面的Bolt节点，而Topology是将Spout和Bolt组合在一起完成一项具体的计算任务。Topology一旦提交就会一直执行。　　Storm主从架构图包含一个主节点Nimbus和多个从节点Supervisor，Zookeeper完成两者之间的协调。每个的实现方案　　3.1开发环境及采用的测试数据集　　硬件环境包括Storm集群，Kakfa集群，Zookeeper集群，Storm包括1个Nimbus和4个Supervisor；Kafka集群包括5个节点；Zookeeper集群也包括5个节点，集体配置如表1所示。　　软件环境：jdk-1.7.0_79、logstash-2.3.4、elasticsearch-2.3.4、storm-0.9.5、kafka_2.9.1-0.8.2.0 　　zookeeper-3.3.5、python-2.7.12。　　操作系统：Linux version 3.10.0-327.el7.x86_64 　　数据集：用户话单日志信息（约2 billon/day）。　　3.2平台架构及处理流程　　日志综合处理平台主要由三层组成，包括：数据采集层、数据分析及存储层以及数据展示层。可以实现对日志从采集到分析处理的全过程并在页面监控平台显示。　　本实验方案使用 Kafka为消息中间件传递消息。Kafka是一种高吞吐量的分布式发布订阅消息系统，其依赖Zookeeper保存每组消费者消费的相应Topic的偏移量。　　SpoutA接收待初始化的数据，并将其发K-meansDBSCANBolt 通过数据簇形态识别以初始化微簇；SpoutB从Kafka中接收初始化后待处理的流数据，将其发送至LocalBolt进行局部微聚类；SpoutC用作处理时间戳，每单位时间向LocalBolt发送一次信息，当接收到时间戳消息，将局部微聚类更新结果存放到Redis做实时局部微聚类更新结果的保存，并合并原有的增量信息发送到GlobalBolt；SpoutD通过消息中间件 Kafka接收用户发送的查询参数。　　K-meansDBSCANBolt接收 SpoutA传输的待初始化数据与聚类参数 k（簇数），进行标准 k-means聚类或者DBSCAN聚类，聚类的结果以微簇形式发送至 LocalBolt随后根据时间戳信息保存结果到Redis，并由滑动窗口触发机制合并局部微簇到全局微簇GlobalBolt。RL-DSCA算法的微簇在线维护微簇进行的在线增量更新是由LocalBolt来实现的，体现了RL-DSCA算法分布式数据的处理，到达的待处理流数据将会分配到各个LocalBolt节点，这些节点具体的功能均不相同，LocalBolt各节点处理流程如图2所示。主要?理Bolt的实现功能如下。　　extractBolt：该Bolt主要实现从初始化后的数据流中筛选目标信息，并将筛选出来的数据发送到下一个处理bolt。　　judgeSysTimeBolt：该Bolt用来判断系统时间和时间戳的关系检测拓扑停止工作的异常情况，如出现拓扑异常，系统时间时间戳时间，对时间戳补齐并进行更新（updateTimestampBolt）结果存放到Redis。　　judgeLogTimeBolt：改Bolt主要是判断来的日志