- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DCOS监控模块设计讲解
DCOS监控模块初稿邹能人DCOS监控系统 1
系统架构设计说明书 1
第一章 现状与需求分析 5
1.1. 业务现状 5
背景 5
5
1.2. 需求分析 6
1.2.1. 监控需求 6
8
第二章 总体设计 9
2.1. 技术选型 9
Docker Stats 9
2.1.2. Cadvisor 10
2.1.3. Sensu 11
2.1.4. Scout 11
2.1.5. Sematext 11
2.1.6. Prometheus? 12
2.2. 监控模块架构设计 13
特性 13
组件 13
架构 13
模块 15
3.1. 目前监控功能 15
集中监控管理 15
统一监控管理界面与告警功能 15
自定义告警策略 15
15
现状与需求分析
业务现状背景DCOS系统的逐渐成熟DCOS系统平台上线业务平台级应用监控集群主机监控弹性告警等功能的企业级监控系统DCOS系统应用的。DCOS系统DCOS系统的安全性与稳定性监控模块最终监控需求①、集群监控指标
集群内部组件的信息采集,下面只是事例,不局限于此:
haproxy,采集Haproxy基础状态信息,比如qcur、scur、rate等
nginx,采集nginx正常请求、异常请求、异常请求比例、请求平均响应时间、upstream请求次数、平均响应时间等
单台物理机的监控信息目前所需如下:
CPU user 使用率、system使用率、空闲率、总量 Mem 总量、使用率 Swap 总量、使用率 Disk 总量、使用率、IO 读写的数、量与时间 Network 网卡进出流量、进出包数、进出错包数、丢弃包数 主机进程/以及进程之间的关系拓扑 CPU、Mem、耗时、状态、用户等数据 FileSystem 总量、使用率等 容器监控目前所需监控信息如下:
CPU user 使用率、system使用率、空闲率、总量 Mem 总量、使用率 Disk 总量、使用率、IO 读写的数、量与时间 Network 网卡进出流量、进出包数、进出错包数、丢弃包数 进程(容器内一般都为单进程) CPU、Mem、耗时、状态、用户等数据
②、集群数据聚合
单台机器的监控指标难以反应整个集群的情况,我们需要把整个集群的机器(体现为某个HostGroup下的机器)综合起来看。比如所有机器的qps加和才是整个集群的qps,所有机器的request_fail数量 ÷ 所有机器的request_total数量=整个集群的请求失败率。
同样,单容器无法反应整个应用的情况,需要将应用所属的所有容器综合分析。
③、集群监控配置
集群配置 和 策略配置
监控集群的节点可操作,监控策略可配置
④、监控性能
能够支持的监控集群大小以及采集间隔
⑤、平台级告警
告警触发条件可配、告警触发事件可配、提供告警级别设置、告警提示方式(邮件、短信等、最好有接口)等
以下所述为web应用实例,但应用监控不仅限于此:
应用拓扑
应用健康度
根据应用平均负载,应用平均访问延时,告警数量等指标进行综合评分后,计算出来的反映应用健康程度的分值。
用户访问平均延时
用户访问平均时延。
数据库概况
总占用空间:目前存储数据已使用的空间。
总查询数:包括增,删,改,查的总访问量。
慢查询数?:导致慢查询的访问量。
eplace请求量?:replace请求的数量。
insert请求量?:insert请求的数量。
delete请求量?:delete请求的数量。
select请求量?:select请求的数量。
update请求量?:update请求的数量。
当前连接数?:当前连接到该mysql实例的连接数。
连接使用率?:已建立的连接数占最大连接数的百分比,不同类型的实例的最大连接数不同
5、缓存概况
表空间?: 分配给当前业务的总空间 已使用空间?: 当前业务实际使用的空间 总记录数?: 当前应用存储的记录条数,key-value对数 GET次数?: 按5分钟查询时表示最近5分钟内的读访问量。按天查询时取当天的峰值(次/秒) SET次数?: 按5分钟查询时表示最近5分钟内的写访问量。按天查询时取当天的峰值(次/秒) DELETE次数?: 按5分钟查询时表示最近5分钟内的写访问量。按天查询时取当天的峰值(次/秒) 总次数?: 按5分钟查询时表示最近5分钟内的GET/SET/DELETE访问量。按天查询时取当天的峰值(次/秒) 超时次数?: 按5分钟查询时表示最近5分钟内的GET/SET/DELETE超时次数。按天查询时取当天的峰值(次/秒)
6、流量监控
提供实时流量以及近期流量查询、展示功能
7、用户体验监控
访问量、时延与页面停留时长等监控监控RestApi访问接口,便于客户端访问
可以为其他系统提供实
文档评论(0)