报警管理
告警配置分为主机告警和数据库告警,并且支持多种告警发送方式(参照报警消息配置)。
1. 数据库报警定义
数据库报警定义页面可以为不同集群下的单个数据库修改数据库报警定义的参数、是否启用该实例的报警。
在集群上线的时候会同时为集群中每个数据库添加默认的报警定义参数, 新建的数据库会自动添加报警定义,创建失败的不会添加。
- 告警开关
这个页面主要功能为控制数据库实例的告警是否开启,以及告警检查周期,选择对应数据库,点击修改在弹出框中修改参数;勾选多个数据库,点击批量修改
可以批量修改数据库的告警开关和检测周期。 - 告警项配置
点击修改
,在弹出框中修改需要的参数定义,筛选告警项后,勾选多个点击批量修改
可以批量修改数据库告警参数。 - 检查周期: 报警检测的周期,单位为秒,默认10秒
- WAL吞吐量: wal日志吞吐量大于此值时报警默认为,单位为MB/s
- 事务ID回卷警告差值: 数据库最旧事务的年龄距离数据库参数
autovacuum_freeze_max_age
的值小于该设置值时报警,默认500000。 - 备库延迟: 备库应用日志延迟大于此值时报警,单位为MB,默认100MB,备库没有该配置
- 复制连接数: 数据库流复制连接数小于此值时报警,单位为个,默认2个,备库没有该配置,单实例的时候要先把该配置项改为0
- 总连接数: 数据库总连接数大于此值时报警,单位为个,默认800个
- 慢SQL: SQL运行时间大于此值时报警,单位为毫秒,默认500毫秒
- 活动连接数: 数据库活动连接数大于此值时报警,单位为个
- 磁盘使用率:数据目录所在磁盘的使用率大于此值时报警,单位为%
2. 主机报警定义
主机报警定义可以为每一个注册进来的主机定义报警的参数,是否启用该主机的报警和删除该主机的报警:
- 告警开关
这个页面主要功能为控制主机的告警是否开启,以及告警检查周期,选择对应主机,点击修改在弹出框中修改参数,勾选多个主机,点击批量修改
可以批量修改主机开关和周期值。 - 告警项配置
点击修改
,在弹出框中修改需要的参数定义,筛选告警项后,勾选多个主机,点击批量修改
可以批量修改主机告警参数。 - 检查周期: 报警检测的周期,单位秒,默认为10秒
- CPU占用率: CPU占用率大于此值时报警,单位为%,默认为60%
- SWAP: 主机SWAP使用空间大于此值时报警,单位为MB,默认为100MB
- 网络入流量: 网络接收数据流量大于此值时报警,单位为MB/s,默认为100MB/s
- 网络出流量: 网络发送数据流量大于此值时报警,单位为MB/s,默认为100MB/s
3. 报警消息配置
点击报警方式配置 -> 添加,就可进行报警消息的添加。
选择报警消息发送方式:
报警消息发送支持以下方式:
- 邮箱
- 自定义脚本
- 群聊机器人(飞书)
- 群聊机器人(钉钉)
- 群聊机器人(企业微信)
- 自建应用(企业微信)
每种通知方式有三项告警可以独立设置,每项告警可单独定义发送或是不发送:
在上面的配置界面中支持消息配置的修改
、删除
。
消息通知的间隔可以通过修改配置文件,修改方式查看手册4.0 CLup主程序的配置文件。
3.1 配置邮件通知
需要为此通知分配一个email账号,从邮箱管理员出获得邮箱服务器的域名(或IP地址)及端口、邮箱的名称、授权密码等等。
上图中需要填写邮箱服务器、端口、用户邮箱、发件人、授权密码、收件人(可以填写多个),填写完成可以点击测试
,查看邮件是否发送成功。
3.2 配置企业微信(自建应用)通知
需要企业微信管理员创建一个应用,方法见:告警通知的配置。
填写自建应用的信息。填写完成可以点击测试,查看企业微信消息是否发送成功。
添加成功后也可修改发送名单:
3.3 配置群企业微信聊机器人通知
需要企业微信管理员创建一个群聊机器人,方法见:告警通知的配置。
填写群聊机器人的webhook链接。填写完成可以点击测试,查看企业微信消息是否发送成功。
3.4 配置群聊机器人(钉钉)
需要钉钉管理员创建一个群聊机器人,方法见:告警通知的配置。
填写群聊机器人的webhook链接。如果您的群聊机器人配了安全设置,还需要填写设置的关键词或者加签的字符串,填写完成可以点击测试
,查看钉钉消息是否发送成功。
3.5 配置飞书群聊机器人通知
需要飞书管理员创建一个群聊机器人,方法见:告警通知的配置。
填写群聊机器人的webhook链接。填写完成可以点击测试,查看消息是否发送成功。
4. 报警查看
报警页面可以根据告警状态、告警级别、时间进行筛选,查看所有发生过的报警信息:
- 报警名称:发生报警的名称
- 级别: 报警的级别。ERROR/NOTICE/FATAL
- 状态: 报警信息的状态。已查看/未查看
- 开始时间: 该阶段报警第一次发生的时间
- 报警时间: 该报警最后一次发生的时间
- 信息: 报警详细信息
- 操作: 标记该报警为已解决,对于数据库和主机定义的报警恢复后会自动标记已解决。对于HA操作发生的报警需要手动标记已解决,数据库和主机配置的报警在恢复后会自动标记已解决,可以选择查看已查看的报警信息。
点击报警名称可以查看该项报警历史记录的时间点,该时间点是每阶段第一次发生该报警的时间:
选择一个开始时间点,可以查看本阶段发生报警的历史记录: