当监控项目有告警消息时,您能够在平台右上方看到实时消息提醒。点击对应按钮进入告警和故障中心,您能够查看告警消息、告警通知、故障历史,设置告警通知方式并管理自定义告警线。

1557908419764454.png

查看告警消息

目前,告警消息包括任务告警消息和采集器告警消息。其中:任务告警是监控任务触发的告警消息;采集器告警是内网采集器触发的告警消息。

查看任务告警消息

在“告警消息→任务告警”页面查看任务告警消息,您可以通过时间范围和告警类型来筛选告警消息,告警类型包括故障告警、故障恢复、阈值越界和阈值恢复。

在告警消息列表中查看消息类型、监控项目状态、检查时间、监控项目名称、所在域/服务器、消息内容等。告警消息列表按时间顺序倒序显示,您能够查看最新的告警消息。有新的告警消息时,无需刷新页面,直接点击右上方告警消息提醒,实时查看告警消息。

1558359412110647.png

告警消息是指监控宝6给用户发送的站内消息,它包括以下几种类型:

  • 故障消息:用“image005.png”表示,由网站自身问题引起严重故障,导致服务中断时,您便会收到故障消息,比如网站无法打开。

  • 提醒消息:用“image007.png”表示,设置自定义告警线后,一旦触发,您便会收到提醒消息,比如当前响应时间大于1000ms。

  • 系统消息:用“image009.png”表示,当采集器无法获取性能数据时,会记录系统消息,这时候您需要进行相应的检查。

对应告警消息的类型,告警消息有如下四个状态:

  • 故障:用“1557908973551963.png”表示,对应故障消息,说明监控项目处于故障中。

  • 提醒:用“1557909011647818.png”表示,对应提醒消息,说明监控项目仍触发告警线。

  • 无法获取数据:用“1557909050148059.png”表示,对应系统消息,说明监控项目无法获取监控数据。

  • 恢复正常:用“image017.png”表示,说明监控项目已从故障、提醒、无法获取数据等状态恢复为正常状态。

点击【问题监测点】属性列中的图标查看有问题的监测点;点击【查看历史快照】属性列中的<查看>按钮查看告警消息对应的历史快照。

1557908645628627.png

此外,如果告警消息被发送给相关用户,点击“image.png”按钮能够查看对应的告警通知记录。

1558359531319931.png

查看采集器告警消息

在“告警消息→采集器告警”页面查看采集器告警消息,内网采集器心跳不上报或达到不上报时长,会触发告警,产生告警消息。

您可以通过时间范围、采集器名称、主机信息或端口号来筛选告警消息。

在告警消息列表中查看消息类型、检查时间、采集器名称、主机信息、主机端口号、消息内容等。点击【查看采集器】属性列中的<查看>按钮进入采集器列表页面查看采集器详情。

1557909233347310.png

采集器的告警消息只有故障消息,告警消息状态包含两种:

  • 故障:用“1557908973551963.png”表示,说明监控项目处于故障中。

  • 恢复正常:用“image017.png”表示,说明监控项目已从故障状态恢复为正常状态。

查看告警通知

在“告警通知”中查看告警通知历史、告警通知统计和URL回调通知历史。

查看告警通知历史

在“告警通知→告警通知历史”页面查看所有告警通知,包括Email通知、手机短信通知和语音通知。您可以通过设置时间范围和告警通知接收人来筛选告警通知。

1557909140242109.png

在告警通知列表中查看发送日期、发送时间、通知方式、短信通知内容,可以选择只查看Email通知、手机短信通知或语音通知中的一种。

点击<展开>按钮查看告警消息,包括检查时间、监控项目、所在域/服务器、消息内容。

1557909890423419.png

查看告警通知统计

在“告警通知→告警通知统计”页面查看告警通知次数的统计,您可以通过设置时间范围来筛选告警通知统计范围。

1557909346126087.png

在告警通知列表中查看发送日期、Email告警次数、短信告警次数和语音告警次数,点击次数查看对应的告警通知记录。

1557909398727681.png

查看URL回调通知历史

在“告警通知→URL回调通知历史”页面查看通过URL回调方式发送的告警通知,您可以通过设置时间范围来筛选告警通知统计范围。

1557909468776213.png

在URL回调通知列表中查看发送日期、发送时间、监控项目和回调状态。点击“查看URL回调”列中的<展开>按钮查看对应的HTTP请求内容、返回内容;点击“查看告警消息”列中的<展开>按钮查看对应的检查时间、监控项目、所在域/服务器、消息内容。

1557909560911508.png

查看故障历史

在“故障管理→故障历史”页面中,选择时间范围并查看对应故障历史(以天为单位进行显示)。您可以选择查看今天、昨天、最近一周的故障历史,也可以自定义时间范围来查看特定时间段内的故障历史,如下图所示。

1557909612308537.png

在故障列表中查看发生故障的监控项目、故障开始时间、故障恢复时间、故障持续时间、故障原因及故障分类。点击监控项目名称能够查看监控项目的监控详情;点击故障开始时间或恢复时间能够查看监控项目的历史快照。

选择故障分类

为便于查看和管理,您可以点击<选择分类>按钮为当前故障选择一个分类,如下图所示。

1557909633776807.png

点击故障分类名称为故障选择分类,点击补充内容对应的<修改>按钮可为当前故障添加补充说明,例如故障发生的具体原因、采取的处理方法等信息。完成后,点击<关闭>按钮即可。

目前故障分类包含以下几种:

  • 维护:计划内的人为事件,如计划内关机、重启、网站升级、网站维护等。

  • 网络故障:网络原因导致的故障,如主干网络发生的故障。

  • 机房故障:机房内部原因导致的故障,如机房停电、交换机故障、空调过热、网线松动等。

  • 硬件故障:服务器硬件导致的故障,如磁盘故障、内存故障、网卡故障等。

  • 软件故障:软件原因导致的故障,如操作系统故障、Web服务器运行故障、应用程序BUG、软件服务容量超载等。

  • DNS故障:域名解析导致的故障,如域名解析失败、域名解析错误等。

  • CDN故障:CDN服务导致的故障,如CDN资源下载失败。

  • 攻击:恶意攻击导致的故障,如DDOS攻击、CC攻击。

  • 其它:其它原因导致的故障。

导出故障历史

点击右上方的<导出Excel>按钮可将故障历史以Excel文件的形式保存到本地。

设置告警通方式

在“告警通知设置→网站监控”页面中,您可以设置网站监控中所有监控项目的告警通知范围和告警通知方式,如下图所示。

1558318412913672.png

在监控项目列表右上方的告警通知范围中选择告警通知的接收人员,可以是您自己,也可以是其他用户。

在监控项目列表中,设置每个监控项目发送告警通知的方式,包括Email告警、短信告警和语音告警。选择“连续告警”后,监控宝会按照一定的时间间隔连续给告警接受人员发送告警消息,直至问题处理完成。

注意:为了能够及时接收告警通知,请确保您选择的告警接收人员已经在【通知设置】的对应通知方式中开启了“允许接收告警通知”选项,并设置Email、手机号等联系方式。

管理自定义告警线

在“自定义告警→自定义告警线状态”页面中,您可以查看和管理创建监控项目时自定义的告警线,如下图所示。

1558318336291579.png

在列表中查看网站监控项目中创建的自定义告警线,包括告警线所属监控项目的状态、名称、所在域/服务器,以及告警线的指标、条件、阈值、开启状态。在左上方可以选择查看所有告警线或只查看已触发的告警线。

此外,您还能开启、关闭或删除自定义告警线。