基于Hadoop 集群日志分析系统设计与实现.doc

基于Hadoop 集群日志分析系统设计与实现.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop 集群日志分析系统设计与实现

基于Hadoop 集群日志分析系统设计与实现   摘要:当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。   关键词:分布式计算;日志分析;Hadoop;集群;vmware   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)34-7647-04   1 概述   日志文件是由系统或者应用程序产生的,用于记录系统和应用程序的操作事件如各种服务的启动、运行、关闭等信息。通过对日志文件的分析可以获得很多有价值的数据也能实现对系统安全、性能等方面的监控。Web日志[1]是由Web服务器产生的,随着社交网络的兴起,Web2.0时代的到来,网站的用户访问量的成级数增长,产生的日志文件大幅增多。传统的日志文件分析方式已经无法满足大数据量日志分析的需求。该文将以Web日志文件为例,利用Hadoop集群构建一个分布式计算平台为大数据日志文件的分析提供一个可行的解决方案,以提高了日志分析的效率,为进一步的大数据分析的提供参考。   现今日志文件分析方案是对大的日志文件先进行分割,然后对分割后的日志文件进行分析,分析方法采用文本分析及模式匹配等,最常见的是采用awk、python、perl。这种分析方式面对大数据的日志文件分析效率低下,耗时长。王潇博提出了基于挖掘算法的日志分析方式,并设计了TAT系统[1]。对于Web分析除了对Web日志本身进行分析外还可以主动收集访问信息,然后将信息存于关系型数据库中。这种方式最常见的是Google Analytics、百度统计等。这种方式将会影响网站的性能,延长网站的加载时间。其次如果直接采用第三方的统计,还将会泄露网站的信息。当访问量高时,基于关系型数据库分析的方式将会受到数据库性能的制约。钱秀槟,刘国伟,李锦川等人提出了基???模式匹配算法的Web应用日志分析系统[2]。   2 Hadoop集群系统概述   日志文件记录了日常操作的原始数据,数据极具价值。随着时间的推移日志文件越来越大,分析难度也随着增大。本系统的设计就是为了解决文本日志的分析,系统针对Web日志。本系统基于搭建好的Hadoop分布式架构,将数据先存入到HDFS文件系统中,运行mapreduce程序对日志文件进行过滤分析,最后将数据输出到指定文件中。充分发挥了Hadoop分布式存储和分布式计算的优势。 解决了海量数据日志文件的分析的难题,采用基于分布式结构的日志分析系统,提高了分析效率。   目标日志是由Apache服务器产生的访问日志。Apache采用默认安装方式时,访问日志access.log,存在于Apache安装目录的logs子目录下。访问日志access_log记录了所有对Web服务器的访问活动。下面是访问日志中一个典型的记录:   7 - - [30/Jun/2011:18:52:25 +0800] GET /index.php? img=pngWrench HTTP/1.1 200 741   这行内容由7项构成1) 远程主机的IP地址。2)浏览者的标识(空白用一个“-”占位符替代)3)记录浏览者进行身份验证时提供的名字(空白用一个“-”占位符替代)。 4)请求的时间。5) 请求类型(METHOD RESOURCE PROTOCOL)。6)状态代码(请求是否成功及原因)。7)发送给客户端的总字节数。   3 系统的设计与实现   3.1 系统的基本目标   利用分布式的架构对日志文件进行分析,对日志文件进行过滤,按时间对日志数据进行分析。分析主要从页面pv、ip、请求状态、流量等方面出发。每月PV总量、PV量最多的一天、每月每个url的pv、每月独立IP、每天的流量、月总流量、每天的访问状态统计、每月的访问状态统计、每天的请求方式统计、每月的请求方式统计等等。   3.2 Hadoop部署   图1介绍了Hadoop部署的基本结构,MapReduce 模型中的 Master 的主控作业节点称为 JobTracker,此框架下面的所有作业(Job)都是由 JobTracker 进行管理的,它是唯一存在的。TaskTracker,负责每一个具体任务的执行。任务(Task)是具体执行的基本单元,每一个作业被拆分成很多的任务,被分配到合适任务节点上去执行,任务节点一边执行分配过来

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档