CLup产品文档

往前插入
往后插入
删除

报警管理

1. 数据库报警定义

数据库报警定义页面可以为不同集群下的单个数据库修改数据库报警定义的参数、是否启用该实例的报警、删除该实例的报警。

左上角的数据库列表中,可以直接看到所有数据库报警定义的状态是否启用。

在集群上线的时候会同时为集群中每个数据库添加默认的报警定义参数, 新建的数据库会自动添加报警定义,创建失败的不会添加。

如果数据库报警定义中缺少您需要的数据库,可以在数据库管理-数据库管理页面找到对应数据库,在操作中点击更多-添加报警定义

添加报警定义

修改该实例报警定义参数。在报警定义页面点击修改按钮,根据具体需求修改报警定义:

修改报警定义

在弹出框中修改需要的参数定义:

  • 检查周期: 报警检测的周期,单位为秒,默认10秒
  • WAL吞吐量: wal日志吞吐量大于此值时报警默认为,单位为MB/s
  • 事务ID回卷: 数据库最旧事务的年龄大于此值时报警,默认160000000
  • 备库延迟: 备库应用日志延迟大于此值时报警,单位为MB/s,默认100MB/s,备库没有该配置
  • 复制连接数: 数据库流复制连接数小于此值时报警,单位为个,默认2个,备库没有该配置,单实例的时候要先把该配置项改为0
  • 总连接数: 数据库总连接数大于此值时报警,单位为个,默认800个
  • 慢SQL: SQL运行时间大于此值时报警,单位为毫秒,默认500毫秒
  • 活动连接数: 数据库活动连接数大于此值时报警,单位为个
  • 磁盘使用率:数据目录所在磁盘的使用率大于此值时报警,单位为%

2. 主机报警定义

主机报警定义可以为每一个注册进来的主机定义报警的参数,是否启用该主机的报警和删除该主机的报警:

启用报警

如果主机报警定义列表中缺少您的主机,可以到监控管理-Agent状态查看页面为对应的主机添加报警定义。

修改该主机报警定义参数,在主机报警定义页面点击修改按钮:

修改

  • 检查周期: 报警检测的周期,单位秒,默认为10秒
  • CPU占用率: CPU占用率大于此值时报警,单位为%,默认为60%
  • SWAP: 主机SWAP使用空间大于此值时报警,单位为MB,默认为100MB
  • 网络入流量: 网络接收数据流量大于此值时报警,单位为MB/s,默认为100MB/s
  • 网络出流量: 网络发送数据流量大于此值时报警,单位为MB/s,默认为100MB/s

3. 报警消息配置

报警消息支持群聊机器人(钉钉)、邮箱、自定义脚本、群聊机器人(企业微信)、自建应用(企业微信)共五种通知方式,每种通知方式有三项告警可以设置,每项告警可单独定义开启或是关闭:

每项告警

在上面的配置界面中支持消息配置的修改删除
可以通过修改配置文件修改报警消息通知的间隔,修改方式查看手册4.0 CLUP主程序的配置文件。
创建消息通知配置(钉钉):

通知配置(钉钉)

钉钉通过群聊机器人的方式发送通知,在上图中需要填写群聊机器人的webhook链接。

如果您的群聊机器人配了安全设置,还需要填写设置的关键词或者加签的字符串,填写完成可以点击测试,查看钉钉消息是否发送成功。
创建消息通知配置(企业微信):

通知配置(企业微信)

企业微信通过群聊机器人的方式发送通知,只需要填写群聊机器人的webhook链接。
填写完成可以点击测试,查看企业微信消息是否发送成功。

创建消息通知配置(邮件):

通知配置(邮件)

上图中需要填写邮箱服务器、端口、用户邮箱、发件人、授权密码、收件人(可以填写多个),填写完成可以点击测试,查看邮件是否发送成功。

4. 报警查看

报警页面可以根据告警状态、告警级别、时间进行筛选,查看所有发生过的报警信息:

报警信息

界面中各列数据的解释:

  • 报警名称:发生报警的名称
  • 级别: 报警的级别。ERROR/NOTICE/FATAL
  • 状态: 报警信息的状态。已查看/未查看
  • 开始时间: 该阶段报警第一次发生的时间
  • 报警时间: 该报警最后一次发生的时间
  • 信息: 报警详细信息
  • 操作: 标记该报警为已解决,对于数据库和主机定义的报警恢复后会自动标记已解决。对于HA操作发生的报警需要手动标记已解决,数据库和主机配置的报警在恢复后会自动标记已解决,可以选择查看已查看的报警信息。

点击报警名称可以查看该项报警历史记录的时间点,该时间点是每阶段第一次发生该报警的时间:

报警的时间

选择一个开始时间点,可以查看本阶段发生报警的历史记录:

历史记录