0775-1.7.2-CDSW的Prometheus和Grafana功能介绍


文档编写目的



在CDSW1.7及之后版本引入了Prometheus + Grafana提供了一套可视化的Dashboard,能够监视CDSW中各个Pod是如何使用集群的CPU/GPU、内存及存储资源。Prometheus是一个内部的时序数据源,会自动记录CDSW中每一个部署资源使用数据,Grafana是一个可视化的监控仪表盘,能够自定义本身的监控图表。CDSW默认已提供了3个Grafana的Dashboards:K8 Cluster,K8s Container 和K8 Node,经过提供的基础监控仪表盘能够建立更多的自定义监控图表。本文档会介绍如何查看及使用Grafana。ruby

  • 测试环境服务器

1.CDSW1.7.2微信


功能介绍及使用




2.1 Grafana监控界面网络

1.使用管理员登陆CDSW,进入“Admin”>“Overview”页面,而后点击连接跳转oop


2.Grafana主页以下:测试


3.点击左上角的Home,能够看到Grafana默认提供的三个仪表盘:spa


2.2 K8s Containers Dashboard.net


进入K8s Containers的Dashboard界面,该监控图表主要提供了CDSW集群中全部启动的Pods监控信息(每一个pod的资源使用状况)3d

Pods使用的内存和CPU:code


Pods使用的CPU曲线图以及各进程使用的CPU状况:


Pods使用的内存曲线图以及各进程使用的内存状况:


Pods使用的网络IO曲线图以及各进程使用的网络IO状况


查看单个pod的资源使用状况(能够对应到CDSW启动的Session)


2.3 K8s Node Dashboard

进入K8s Node的Dashboard界面,该监控仪表盘主要提供了CDSW集群全部Node节点资源使用状况的监控(能够理解为服务器级别的资源使用监控),包括CPU、内存、磁盘、网络等。


2.4 K8s Cluster Dashboard

进入K8s Cluster的Dashboard界面,该监控仪表盘主要提供了对K8s Cluster全部NameSpace级别的资源使用状况监控(经过该Dashboard能够看到用户级别的资源使用状况)


指定Namespace(default-user-{userid}该类型的Namespace即为用户级别的监控)


2.5 自定义Dashboard

1.建立一个自定义的Dashboard


2.选择建立一个Graph类型的图表


3.选择Edit


4.进入图表编辑界面,选择数据源并输入查询语句完成图表的构建


5.点击右上角的保存按钮将构建的图表保存至自定义的Dashboard便可


总结



1.CDSW1.7.x的新功能Grafana,能够很好的监控CDSW上的资源使用状况,包括系统服务以及用户使用。

2.Grafana中支持告警的配置,能够针对仪表盘进行配置,触发阈值后会进行告警。

3.除了系统提供的默认Dashboard,还能够进行自定义,将想要监控的指标经过PromQL语句转化成图表便可,参考连接:

https://prometheus.io/docs/prometheus/latest/querying/basics/

本文分享自微信公众号 - Hadoop实操(gh_c4c535955d0f)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。