数据网告警异常处理方法

数据网告警异常处理方法

如果收到类似“2019-02-15 14:35:06数据网采集机66187近2小时没有上报告警”短信,需要核查。

1、短信内容说明:采集机66187表示对应采集机是10.238.66.187,如果是采集机75149那就对应采集机是10.238.75.149。

2、核查步骤:一般是由于机器重启造成的,数据网采集机均要在root下面停止、启动。

     第一步:登录对应采集机查看容器进程,如果进程没有(ps -ef|grep gframe或者gcp,ps -ef|grep ping)需重启容器以及FMping(路劲/opt/Gframe/FMping/ping/bin/startping.sh)。注意:10.238.75.147对应采集机gcp用户,其余均是gframe,容器起来后再手动重启gcp和gframe常驻。但是10.238.75.147对应的FMping在gframe用户下面,记得重启一下。

10.238.75.147(gcp)对应常驻有:

 

 

 

第二步常驻重启正常后,后台查看日志,有120输出并且入库则为正常。

 

 

注意事项:

  如果10.238.75.149机子重启了,除了重启gframe用户下面的容器和FMping还需要重启gcp用户下面GcpCollector1和GcpCollector2。gcp对应常驻界面分别是:

GcpCollector1:

 

GcpCollector2: