要实现主机告警,您需要:
创建告警组:创建告警用户和告警组,用于接收告警通知。
创建告警模板:设置监控类型,自定义告警指标及告警规则。
设置通知方式:设置告警时间、告警通道数和告警组。
关联主机:为告警模板关联要监控的主机。
添加告警组
添加告警组的操作与移动告警相同,详细说明请参考“添加告警组”。
添加告警模板
在“告警模板”页面,选择模板类型“主机”,点击<新建模板>按钮编辑告警模板,如下图所示。
点击<添加告警指标>按钮定义告警条件,需要设置如下内容:
时间段:统计指标数据的时间范围,例如选择30分钟。
指标:能够触发告警的性能指标,例如选择CPU使用率。
统计方式:指标数据的统计方式,例如选择平均值。
条件:指标统计值和阈值之间的比较条件,例如选大于。
阈值:触发告警的临界值,例如设置为60%。
等级:指标触发告警的等级,例如选择较重。
根据以上举例,设置的告警条件为:如果30分钟内CPU使用率的平均值大于60%,则触发告警且告警等级为较重。
添加告警指标后,默认为开启状态,不使用该告警指标时,可点击暂停按钮暂停。
点击<保存>按钮创建告警模板,创建成功后可设置通知方式。
设置通知方式
点击创建的告警模板打开模板编辑页面,点击<设置通知>按钮设置通知方式,如下图所示。
您可以根据问题处理情况和严重程度,设置告警时间、告警通道数和告警组。
选择告警时间后,点击<添加告警组>按钮选择告警组来接收告警邮件。需要多次告警时,点击<添加>按钮增加一个告警通道,设置告警时间和告警组。
例如,设置如下两个通道:
通道一:问题发生0分钟之后立即告警,发送告警消息给Devops。
通道二:问题发生30分钟之后立即告警,发送告警消息给Leader。
则发生问题后,透视宝会立即发送告警消息给Devops;如果问题在30分钟内没有解决,则问题发生30分钟后立即发送告警消息给Leader。
通过这种方式实现对人员的分级告警,问题发生后先由普通员工处理,如果在设定的时间内没有解决,则发送告警消息给上级领导,依次逐级上报,直至问题解决为止。
关联主机
创建告警模板后,要真正应用告警模板,需要为其关联主机。关联主机后,透视宝才能根据关联主机的运行状态和告警指标向您发送告警通知。
在告警模板列表中,点击告警模板中关联主机处添加关联主机,如下图所示。
打开关联主机详情页面,根据关联状态,选择主机关联到当前告警模板,如下图所示。