报警
uav可对所有监控指标进行报警,并提供简单的表达式对监控指标进行报警策略设置。报警策略触发后可触发邮件、短信、HTTP接口、线程分析四种报警动作。
预警策略设置
进入上帝之眼界面,点击左边栏预警策略管理进入预警策略列表视图。
预警策略列表视图
1.创建预警按钮
点击可创建预警,进入创建预警界面。
2.检索输入框
输入关键字进行检索,关键字以"*"结尾可以模糊匹配。
3.检索按钮
点击开始检索。
4.显示全部按钮
点击可显示全部预警策略。
5.预警策略概览栏
点击任意区域可查看预警策略详情(若策略属于用户,则进入修改界面)。
策略:显示策略简介。第一栏表示策略类型;第二栏表示监控指标类型;第三栏表示策略应用实例或应用实例组。
描述:显示策略的描述。
归属用户:显示策略的归属用户。用户对属于自己的策略有查看、修改和删除的权限,对不属于自己的策略只有查看权限。
修改时间:策略最后更新的时间。
6.删除按钮
点击删除策略,该操作无法撤销。
创建
点击预警策略列表视图中创建预警按钮进入添加策略页面。点击添加策略页面右上角打开预警设置帮助文档,点击退出到预警策略列表视图。
1.选择监控组
点击1处图标打开下拉选择框,如下图,选择监控组。
2.选择监控组指标系
选择监控组后,会增加一栏监控组指标系,点击右侧按钮打开下拉菜单框,如下图,选择监控组指标系。
3.输入实例名或实例组名
可直接输入实例名,若有多个实例,则输入实例组名,在下一栏输入实例名。实例名填写方式如下表。
监控指标系名 | 实例名 | 示例 |
---|---|---|
自定义指标 | 服务器地址 | http://10.143.129.64:8080 或jse://10.120.68.73/com.alibaba.rocketmq.namesrv.NamesrvStartup-8902 |
进程状态指标系 | IP_进程名或IP | 10.100.33.136_java |
容器状态指标系 | 具体IP | 10.100.33.136 |
服务状态指标系 | 具体服务url地址或上级地址 | http://10.143.129.64:8080/isign/isign/signPDF |
应用状态指标系 | 应用地址---应用ID | http://10.143.129.64:8080/isign---isign |
应用服务器状态指标系 | 服务器地址 | http://10.143.129.64:8080 |
进程死亡指标系 | 具体IP | 10.100.33.136 |
调用状态指标系 | 服务器ip:端口#应用实例名#调用服务类型(redis,http,mongo,mysql等)://调用服务ip:端口 | 10.100.30.73:9090#smsmanager#redis://10.100.30.73:6379 |
日志指标 | 日志文件位置 | /app/t7-ccsp/logs/ccsp.log |
4.输入实例名
若上一栏为实例名此栏不填写,若上一栏为实例组名,此栏填写实例名,多个实例名间用","分隔。
5.输入描述
此策略的描述,用户自定义。
6.条件定义
除进程死亡外的策略都需定义预警条件,点击添加条件定义,如下图。
点击选择条件类型,类型有流式预警条件、环比条件、同比条件三种。
流式预警条件
- 第一栏填写触发表达式,形式为 [监控指标名][比较符][值],比较符有< 、 > 、 =,示例:os.cpu.load>90。对于每种监控组指标系,只能使用对应的监控指标名。监控指标系与监控指标名的对应关系见监控指标说明。
- 第二栏填写持续时间,表示策略判断的时间长度,单位为秒。(可不填,不填表示表达式条件发生则触发预警)。
- 第三栏选择聚集操作,表示对持续时间范围内的参数值做的聚集操作类型。
流式条件定义示例图如下,表示一分钟内os.cpu.load(容器cpu使用率)的平均值大于90。
同环比概念
同环比描述的是统计数据的增/降幅度,即某一时间段(本期)的统计结果与之前另一相同长度时间段(基期)的比较结果。同比表示的是本期与上一个同期的比较,比如今年4月与去年4月比较,今天8点到9点与昨天8点到9点比较;环比表示的是本期与上期的比较,如今年4月与今年3月比较,今天8点到9点与7点到8点比较。
环比预警条件
首先选择环比计算时间
- 第一是计算区间范围,需选择24小时内的递增时间段。
- 第二是条件生效时间范围,分为日期范围、时间范围、工作日范围,表示环比策略在开始日期到结束日期的指定工作日的开始时间到结束时间范围内生效,日期/时间均为可选,不填表示无日期/时间限制,工作日默认全选。
第一栏填写预警指标项,参见 监控指标名。与流式预警不同,同环比预警可填写限制范围内其他指标系的监控指标名,填写方式见跨指标系预警。
- 第二栏填写环比增幅上限阈值,即环比计算结果增幅超过阈值则报警。可填百分比或绝对数值,填*表示无上限。以#开始表示与#后数值比较,如#5表示计算区间内的聚集值大于5。
- 第三栏填写环比降幅上限阈值,即环比计算结果降幅超过阈值则报警。可填百分比或绝对数值,填*表示无下限。以#开始表示与#后数值比较,如#5表示计算区间内的聚集值小于5。
- 第四栏选择指标时间聚集操作,表示对时间段内的参数值做的聚集操作类型(默认为平均值)。
- 第五栏选择指标范围聚集操作,表示对多个监控目标的该指标项的聚集操作结果的聚集操作(默认为平均值)。
- 第六栏填写环比间隔时间,指本期与上期的间隔时间,在下一栏选择间隔时间的单位。
环比条件定义示例图如下,表示以10-11点为基期、1小时为环比间隔对os.cpu.load(容器cpu使用率)平均值的环比值进行预警,预警阈值为环比增幅不超过50%,该环比条件的生效时间是在2018.4.1到2019.4.1期间的周一至周五的早八点到晚八点。该预警会每隔一小时执行一次,将本期时间段内的统计值与1小时(环比间隔)前的上期时间段统计值进行环比预警判断,比如容器在10-11点的cpu使用率平均值为70,在9-10点的平均值为40,增幅为(70-40)/40=75%,超过了50%的增幅上限,则会进行预警。
同比预警条件
- 首先选择同比计算时间
- 第一是计算区间范围,需选择24小时内的递增时间段。
- 第二是条件生效时间范围,分为日期范围、时间范围、工作日范围,表示同比策略在开始日期到结束日期的指定工作日的开始时间到结束时间范围内生效,日期/时间均为可选,不填表示无日期/时间限制,工作日默认全选。
- 第一栏填写预警指标项,参见 监控指标名。与流式预警不同,同环比预警可填写限制范围内其他指标系的监控指标名,填写方式见跨指标系预警。
- 第二栏填写同比增幅上限阈值,即同比计算结果增幅超过阈值则报警。可填百分比或绝对数值,填*表示无上限。以#开始表示与#后数值比较,如#5表示计算区间内的聚集值大于5。
- 第三栏填写同比降幅上限阈值,即同比计算结果降幅超过阈值则报警。可填百分比或绝对数值,填*表示无下限。以#开始表示与#后数值比较,如#5表示计算区间内的聚集值小于5。
- 第四栏选择指标时间聚集操作,表示对时间段内的参数值做的聚集操作类型(默认为平均值)。
- 第五栏选择指标范围聚集操作,表示对多个监控目标的该指标项的聚集操作结果的聚集操作(默认为平均值)。
- 第六栏选择同比周期单位,如选周表示每天的选择时间段同比上周。
同比条件定义示例图如下,表示以8:30-9:30点为基期、以周为周期对os.cpu.load(容器cpu使用率)平均值的同比值进行预警,预警阈值为同比增幅不超过20,同比降幅不超过20,该同比条件的生效时间是在2018.4.1到2019.4.1期间的周一至周五。该预警会把每天8:30-9:30的统计值与上周同一时间段统计值进行同比预警判断,比如容器在本周一的8:30-9:30的cpu使用率平均值为20,在上周一的8:30-9:30的平均值为50,降幅为50-20=30,超过了20的降幅上限,则会进行预警。
跨指标系预警
同环比预警不受预警策略监控指标系限制,可以跨指标系配置预警。填写非本策略指标系的监控指标名时,需要加上所属监控指标系的前缀(如appResp.tavg,appResp为应用实例指标系的前缀,该指标表示应用的平均相应时间),监控指标系与监控指标名的对应关系及监控指标系前缀见监控指标说明。可配置的监控指标系受预警策略监控指标系限制,具体限制如下表。
策略指标系 | 同环比预警可配置的其他指标系 |
---|---|
调用状态指标系 | 应用状态指标系(appResp)、应用服务器状态指标系(serverResp)、自定义指标系(jvm)、容器状态指标系(hostState) |
服务状态指标系 | 应用状态指标系(appResp)、应用服务器状态指标系(serverResp)、自定义指标系(jvm)、容器状态指标系(hostState) |
应用状态指标系 | 应用服务器状态指标系(serverResp)、自定义指标系(jvm)、容器状态指标系(hostState) |
应用服务器状态指标系 | 自定义指标系(jvm)、容器状态指标系(hostState) |
自定义指标 | 应用服务器状态指标系(serverResp)、容器状态指标系(hostState) |
进程状态指标系 | 容器状态指标系(hostState) |
容器状态指标系 | 无 |
7.触发策略
条件定义添加后,点击添加触发策略,如下图。
在第一个对话框,点击条件定义表达式添加进编辑框,在条件定义表达式之间添加(&&)||符号表示条件定义之间的逻辑关系;在第二个对话框,编写梯度预警收敛规则(可选),填写以","分隔的数字,代表在发生第几次预警时触发报警动作,示例如下所示。
点击保存按钮,触发策略设置成功。若填写了梯度预警收敛规则,会在策略右端进行显示,如图所示。
若触发预警包含的策略中包含了具有梯度预警收敛规则的策略,梯度预警收敛规则的选取规则如下:
1.若既有策略设置了梯度预警收敛规则,又有策略没有设置梯度预警收敛规则,以设置的梯度预警收敛规则为准来触发报警; 2.若设置了多组梯度预警收敛规则,以梯度最多的收敛规则为准来触发报警。
举例如下:
此图中,策略1具有梯度收敛规则,策略2没有梯度收敛规则,若同时触发了策略1和策略2,那么以策略1的梯度收敛规则为准触发报警;
此图中,三个策略都具有梯度收敛规则,策略1收敛规则的梯度最少,策略3收敛规则的梯度最多。若只触发了策略1,梯度收敛规则为1,3,5;若触发了策略1与策略2,梯度收敛规则为1,3,5,7;若同时触发了三个策略,梯度收敛规则为1,3,5,7,9。
8.触发动作
点击添加触发动作,如下图。
- 第一栏选择触发动作类型,有邮件(需配置HM中notifycenter的mail相关配置项)、短信(开源暂不支持)、HTTP调用三种类型可选。
- 第二栏为通知对象,动作类型对应的通知对象分别为邮箱地址、手机号码、HTTP调用地址。多个通知对象间用","隔开。
点击添加优先级添加一栏通知对象,可添加多个,优先级从高至低。
9.创建完成
点击保存按钮完成创建,并跳回策略列表视图界面。
查看
用户点击不属于自己的预警策略概览进入预警查看界面。
点击触发条件或触发动作右侧图标可查看策略详细配置。
修改
用户点击属于自己的预警策略预警策略概览进入预警修改界面。
- 可修改部分有实例名、策略描述、条件定义、触发动作。
- 实例名&策略描述:直接在输入框内修改。
- 触发条件&触发动作:点击增加条件(动作),点击修改条件(动作),点击删除条件(动作)。
复制
用户点击任意需要复制的预警策略预警策略概览进入预警修改/查看界面。
点击右上角复制按钮,进入编辑复制策略页面,填写新策略的应用实例组名与应用实例名,修改需要调整的条件定义与触发策略,点击保存,即可创建一条复制的新预警策略。
删除
点击预警列表视图中预警概览栏右侧图标删除策略。