为什么监控API?

随着越来越多的零售商、媒体、政府和金融服务公司开始公开Web API,每天都有大量的API增长。API已经成为扩展产品、获取客户,帮助合作伙伴提供高价值服务以及扩张生态系统的关键渠道。

稳定的API能帮助企业提高收入,降低成本。随着移动应用的爆发增长,未来API将会使用的越来越多,不论是提供API的服务商还是使用API的公司,都不希望发生这样的情景:

  • 利用第三方公司提供的应用程序API失败,导致业务中断,交易失败。

  • 旅游网站通过API获取机票和酒店库存信息并抽取佣金,API调用失败导致失去一个客户或是一次机会。

  • 其他数据源信息的API调用失败,影响自己的内容整合。

  • 公司内部产品之间API不稳定导致业务下滑。

  • 公司提供出去的API稳定性直接影响业务收入。

……

于是,监控宝推出“API监控服务”,用于有效监控API服务稳定性和正确性。我们希望API能够达到,在Web上每一个想要使用API的人都能调用它,并得到他们所想的结果。


什么是API监

用户使用您的产品完成一项操作时需要调用API(应用程序接口)并发起一系列API请求,API监控就是对这一系列API请求的监控,从而帮您了解应用程序接口的性能。

这一系列的API请求组成了一个有意义的业务流程时,能够帮您进行业务分析。


API监控的价值和特色

监控宝提供的API监控能够利用全球近百个监测点,实时监控API的运行状况,包括可用性、正确性、响应时间等性能数据。通过实时告警和历史统计分析,帮您快速发现并解决问题,节约企业的运维成本,减少业务损失。

为满足您的多样需求,监控宝能够:

  • 实时监控get、post、put、delete、head、options六种API请求方式,覆盖绝大部分的接口调用格式。

  • 支持JSON、XML、Text、Response Status验证及Postman脚本导入。

  • 通过“断言”功能监测正确性,可根据业务逻辑,将API的监控分成几个连续的请求监控。


API监控的指标

API监控包括可用性、正确性、响应时间、可用率、故障率、正确率、平均可用率、平均正确率、平均响应时间、错误总时长、错误总次数、故障总时长、故障总次数13个监控指标。判断和计算规则如下:

指标

规则

可用性

请求

单监测点:一次监测,返回状态码为1XX、2XX或3XX则为可用,否则为故障。

多监测点:一次监测,所有监测点都可用,则为全部可用;部分监测点可用,则为部分可用;所有监测点都不可用,则为故障。

事务

单监测点:一次监测,事务的所有请求都可用才为可用,否则为故障。

多监测点:一次监测,所有监测点都可用,则为全部可用;部分监测点可用,则为部分可用;所有监测点都不可用,则为故障。

正确性

请求

单监测点:一次监测,断言正确则为正确,否则为错误。

多监测点:一次监测,所有监测点的断言都正确,则为全部正确;部分监测点的断言正确,则为部分正确;所有监测点的断言都不正确,则为错误。

事务

单监测点:一次监测,事务的所有请求都正确才为正确,否则为错误。

多监测点:一次监测,所有监测点都正确,则为全部正确;部分监测点正确,则为部分正确;所有监测点的请都不正确,则为错误。

响应时间

请求:一次监测,请求结果返回的时间,包括DNS解析、建立连接、服务器计算、内容下载。(不可用、不正确的不计算)

事务:一次监测,事务中所有请求的响应时间总和。(不可用、不正确的不计算)

可用率

请求:在单个监测点,请求可用率=请求可用次数/请求总次数

事务:在单个监测点,事务可用率=事务可用次数/事务总次数

故障率

请求:单个监测点,请求故障率=1-请求可用率

事务:单个监测点,事务故障率=1-事务可用率

正确率

请求:在单个监测点,请求正确率=请求正确次数/请求总次数

事务:在单个监测点,事务正确率=事务正确次数/事务总次数

平均可用率

请求:多个监测点,先计算每个监测点的请求可用率,然后取所有监测点请求可用率的平均值。

事务:多个监测点,先计算每个监测点的事务可用率,然后取所有监测点事务可用率的平均值。

平均正确率

请求:多个监测点,先计算每个监测点的请求正确率,然后取所有监测点请求正确率的平均值。

事务:多个监测点,先计算每个监测点的事务正确率,然后取所有监测点事务正确率的平均值。

平均响应时间

请求

单监测点:一段时间内,某监测点、某请求响应时间的平均值。(不可用、不正确的不计算)

多监测点:先计算每个监测点的请求响应时间的平均值,然后取所有监测点的平均值。(不可用、不正确的不计算)

事务

单监测点:一段时间内,某监测点、某事务响应时间的平均值。(不可用、不正确的不计算)

多监测点:先计算每个监测点的事务响应时间的平均值,然后取所有监测点的平均值。(不可用、不正确的不计算)

错误总时长

单监测点:指定时间内,某监测点的错误总时长。

多监测点:指定时间内,所有监测点错误总时长之和。

错误总次数

单监测点:指定时间内,某监测点的错误总次数。

多监测点:指定时间内,所有监测点错误总次数之和。

故障总时长

单监测点:指定时间内,某监测点的故障总时长。

多监测点:指定时间内,所有监测点故障总时长之和。

故障总次数

单监测点:指定时间内,某监测点的故障总次数。

多监测点:指定时间内,所有监测点故障总次数之和。