告警管理
告警配置分为主机告警和数据库告警,并且支持多种告警发送方式(参照报警消息配置)。
1. 主机报警定义
主机报警定义可以为每一个注册进来的主机定义报警的参数,是否启用该主机的报警和删除该主机的报警:
- 告警开关

这个页面主要功能为控制主机的告警是否开启,以及告警检查周期,选择对应主机,点击修改在弹出框中修改参数,勾选多个主机,点击批量修改可以批量修改主机开关和周期值;选择完集群和节点类型后,点击设置单个集群,可以修改整个集群的开关和周期值。 - 告警项配置

点击修改,在弹出框中修改需要的参数定义,筛选告警项后,勾选多个主机,点击批量修改可以批量修改主机告警参数。 - 检查周期: 报警检测的周期,单位秒,默认为10秒
- CPU占用率: CPU占用率大于此值时报警,单位为%,默认为80%
- 内存占用率: 内存占用率大于此值时报警,单位为%,默认为95%
- SWAP: 主机SWAP使用空间大于此值时报警,单位为MB,默认为100MB
- 网络入流量: 网络接收数据流量大于此值时报警,单位为MB/s,默认为300MB/s
- 网络出流量: 网络发送数据流量大于此值时报警,单位为MB/s,默认为300MB/s
2. 数据库告警定义
数据库报警定义页面可以为不同集群下的单个Segment修改数据库报警定义的参数、是否启用该实例的报警。
在集群上线的时候会同时为集群中每个Segment添加默认的报警定义参数, 新建集群和导入集群会自动添加告警定义,创建失败的不会添加。
- 告警开关
这个页面主要功能为控制数据库实例的告警是否开启,以及告警检查周期,选择对应数据库,点击修改在弹出框中修改参数;勾选多个数据库,点击批量修改可以批量修改数据库的告警开关和检测周期;选择完集群和节点类型后,点击设置单个集群,可以修改整个集群的开关和周期值。
- 告警项配置

点击修改,在弹出框中修改需要的参数定义,筛选告警项后,勾选多个点击批量修改可以批量修改数据库告警参数;选择完集群和节点类型后,点击设置单个集群,可以修改整个集群的告警参数。 - 检查周期: 报警检测的周期,单位为秒,默认10秒
- 总连接数: 数据库总连接数大于此值时报警,单位为个,默认800个
- 活动连接数: 数据库活动连接数大于此值时报警,单位为个
- 磁盘使用率:数据目录所在磁盘的使用率大于此值时报警,单位为%
3. 告警消息配置
点击告警方式配置 -> 添加,就可进行告警消息的添加。
选择告警消息发送方式:
告警消息发送支持以下方式:
- 邮箱
- 自定义脚本
- 群聊机器人(飞书)
- 群聊机器人(钉钉)
- 群聊机器人(企业微信)
每种通知方式有三项告警可以独立设置,每项告警可单独定义发送或是不发送:
在上面的配置界面中支持消息配置的修改、删除。
消息通知的间隔可以通过修改APCC参数设置。
4. 告警列表
告警列表页面可以根据告警状态、告警级别、时间进行筛选,查看所有发生过的告警信息:
- 告警名称:发生告警的名称
- 级别: 告警的级别。ERROR/NOTICE/FATAL
- 状态: 告警信息的状态。已解决/未解决/暂停提醒
- 开始时间: 该阶段告警第一次发生的时间
- 报警时间: 该告警最后一次发生的时间
- 信息: 告警详细信息
- 操作: 标记该告警为已解决,对于数据库和主机定义的报警恢复后会自动标记已解决。暂停提醒,标记之后该告警就不会发送到告警方法配置中已启用的方法。数据库和主机配置的告警在恢复后会自动标记已解决,可以选择查看已查看的报警信息。
目录