网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据时代里_运维工程师的自我修养.docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代里_运维工程师的自我修养

大数据时代里,运维工程师的自我修养i 2015-12-19 16:44:48标签:数据分析PythonELKpandasseabornelasticsearch-py原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。1726349? “凡是过去,皆为序曲”? ? ????????????????????????---莎士比亚? 前言:本文其实是给公司写的一篇文章,不过因为时间仓促,当时文章并没有关于代码的分析,只是关于数据的展示,不过觉得很有价值,所以再做分享。? 了解我的人,当然知道,本宝宝要大家跟我做的第一件事是什么~? 首先,大家跟我念,Python大fa好。??本文皆是一家之言,如有偏颇还望指正。??在笔者的看来,如果数据不能可视化话,那么很大程度来说就是在扯淡,当然数据可视化也仅仅是万里长征第一步。数据就像一堆堆的石子,也许不能就这一篇文章带领大家观其全貌,但至少管中窥豹,可见一斑。??那么数据到底长什么样呢???它可能长这样。又或者是这样?如果你Excel足够牛逼我想你是能够用excel做出足够厉害的图的,但也只是足够而已。?在笔者看来数据至少是长这样。再或者是这样的。?注:上面使用的是ELK套件ELK安装文档,参考:1726338但这只是冰山一角,还远远不够,工具谁能用,怎么用是一个层次,在这基础上再次利用则是另一个层次,为了文章篇幅,本文主要着重于后者并将视线锁定在日志数据,其他数据暂不考虑。????????日志的数据至少得有三个作用? 一:数据应该能说明问题或者现象。? 二:数据应该能解决问题。? 三:数据应该能预测与预防问题。?????????第一点很好理解那就是,数据在可视化的过程能够很直观的说明问题或者现象,即使通过最基本的提取过滤,我们能够知道在一段时间内多大的访问量,客户端的设备是什么,响应时间多少,在往下细化,应该是每个ip的访问次数,并且访问了什么内容,常访问什么内容,在知道响应时间的前提上,了解哪个访问链接耗时最长等等,以及一些可能职责之外的事,具体细节请自行脑洞。?下面是简单的全球访问IP热点图:?注:不要问我为什么不用ELK自带的热点图,两个字,任性~????????第二点,既然日志能说明问题当然能解决问题,日志文件除了最基本的info记录,当然还有debug信息,通过debug信息我们知道程序运行到什么地方抛出了这个bug,为什么抛出这个bug,为了第一时间响应,我们还得快速定位到抛出bug的主机。通过简单的查询我们可以快速定位到404状态发生的主机,及其发生时间,以及客户端的使用设备为什么,以及在访问什么的时候抛出404。?????????第三点,问题在一定程度上并不可怕,可怕的是不能及时处理以及反复出现却束手无策,所以怎样有效的利用数据的基础上再配合可靠并实时监控报警机制就显得至关重要了。而关于预测,可以通过的一定的算法数据都量化,然后评估以及模拟。??谈完了基础,我们着重谈谈日志数据的再次利用。?也主要分为三个部分:?一:简单统计,无论通过rrdtool或者Excel,或者Python,只要有数据,通过预选及数据清洗,就能得到自己想要的数据,在拥有数据的情况下,可视化也就显得自然而然了。?二:统计细化,数据的可视化可能只是数据分析的一部分,因为可视化只能展示很简单的结果,并不能听见数据内心中呐喊的声音,所以一定程度的统计技术以及编程基础相当重要,庆幸的是Python有足够的支持库。?三:统计分析,这一方面可能较于大多数人并无用处,并且并不关心,所以在此略过。??一:简单统计?单日的Top IP,Top URL,Top City开始吧。? ???Top? IP?Top?URL????????? ?Top 城市?由上面三个图,我们就能直观知道我们当日最常访问的IP,URL,以及城市,单个IP太频繁并次数过多我们需要注意,URL可以帮助我们评估,而城市可以让我们知道服务的受众分布情况,而最简单的一个作用可能就是CDN加速了,其他方面请大家自行脑洞,这里不做展开。二:统计细化我们在上面的基础上再次细化,比如每个城市中的终端设备使用情况,如下图当然也可以反过来看三:统计分析我们简单看看用户终端设备,安卓与苹果的相关系数。基本走势图分析???? ???????? 以及各终端相关关系,如下再或者相关关系。?无论是从走势或者相关系数,当日安卓与苹果存在一定的的相关性。在第三部分的附图中,可能大多数人除了走势图,大都看不懂,在这里也不会过多的讲解各个参数以及所对应的关系,因为讲解这些内容的时间可能比这一篇文章还会长,虽然这并算不上大数据,但是还是想借用《大数据时代》里的一句话,作为本文的结尾。“大数据告诉我

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档