故障定级标准

发布时间:2022-06-21 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了故障定级标准脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
1. 目的
前端基础是所有前端业务的基石,并保障着前端业务的稳定性和可靠性,前端基础稳定,才能保证前端业务稳定,一旦出现问题,影响范围大,所以保障前端基础的稳定性和可靠性是重中之重,但是随着前端业务量的井喷,以及基础设施的复杂性,问题的多样性,对故障处理过程的规范性、专业度要求越来越高。
因此,为了加强基础技术团队的质量意识,责任意识,提高基础团队的故障处理和协作能力,特制订本制度,规范团队的故障管理,并实现标准化、流程化。
2. 适用范围
前端基础技术团队
3. 定义解释
3.1 职责定义
序号
角色
故障责任定义
1
开发
因技术方案设计问题、代码实现bug、代码逻辑等问题导致的故障
2
运维
因基础设施变更,不稳定,异常无法提供服务等问题导致的故障
 
 
 
 
 
4. 故障标准
4.1 故障定义
1.发生的、影响业务正常运作的问题或事故,认定为“故障”
2.同一类问题发生频次超过某个数量,也可认定为故障。
4.2 故障分类
序号
类别
定义
举例
1
流程执行类
主要指因未遵照公司或部门既有规范、流程执行而导致的故障,或故障发生后未按照本制度要求处理等情况。
如发布至线上前未进行过测试;发布后未充分进行线上回归验证、未充分观察日志/监控等产生的故障;未及时发布故障通告、或其他“瞒报”、“漏报”等情况;故障响应不及时等
2
人员意识类
主要指因人为主观意识不到位、故意或抱侥幸心理未严格谨慎操作而导致的故障。
如责任意识不强、线上严谨意识不足、安全意识不足等。注:若因人员意识不到位而违反现有流程规范的故障,则直接定义为“流程执行类”故障。
3
能力经验类
主要指个人能力、经验不足,或部门相关业务或技术积累不够导致的故障。
如新业务、新技术或历史技术架构设计等遗留问题
4
监控报警类
主要指未设置监控报警、或监控报警出现问题而引发的故障。
如因告警阈值设置不合理,未及时收到告警进行处理,最终导致发生线上故障。注:未及时响应监控报警,属于流程执行类故障。
5
不可抗力类
主要指因外部不可抗力引发的故障。
如供应商故障(包括不限于机器、网络等故障)、外在环境原因(如施工挖断线路、国家封网)导致的故障等。
4.3 故障等级
4.3.1 故障定级原则
1.故障关键因素时长和影响面
2.影响面和故障时常同时满足,直接定级
3.影响面和故障时长不匹配时,取级别低的故障定级升一级作为最终故障定级1.比如影响时长5-10min,影响60%流量,按时长定级为p4,影响面定级为p1, p4和p1取较小值为p4, p4升一级,作为p3定级2.对外系统最高定级p1, 对内系统最高p2
4.流程故障遵循公司统一原则
4.3.2 通用故障等级定义
故障等级标识
故障等级名词
故障等级定义
影响面
故障时长
故障举例
备注
P1
重大故障
前端业务大部分不可访问,流量受损>=30%,并且持续时间>=60分钟
前端项目不可访问或者访问异常>=30%
>=60分钟
腾讯云slb故障导致前端页面全部无法访问
 
P2
严重故障
前端业务部分不可访问,流量受损10%~30%,并且持续时间>=30分钟
前端项目不可访问或者访问异常10%~30%
>=30分钟
   
P3
一般故障
前端业务小部分不可访问,流量受损1%~10%,并且持续时间>=10分钟
前端项目不可访问或者访问异常1%~10%
>=10分钟
istio管理面故障导致ingress无法访问到更新后的服务
 
P4
轻微故障
前端业务小部分流量访问异常,流量受损1%,持续时间>=5分钟
前端小部分流量访问异常
>=5分钟
   
 
 
 
 
 
 
 
 
 
基础设施故障定义不涉及由通用故障等级定义兜底。
4.3.3 基础设施故障等级划分定义
序号
基础设施
故障等级
故障时长
影响面
故障举例
1
Istio
P1
>=60分钟
istio管理面异常或者不可用
 
   
p2
>=30分钟
istio管理面异常或者不可用
 
   
P3
>=15分钟
部分流量转发异常
 
   
P4
>=5分钟
部分流量转发异常
 
2
k8s
p1
>=60分钟
Kubernetes master异常或者不可用
 
   
P2
>=30分钟
Kubernetes master异常或者不可用
 
   
P3
>=15分钟
部分功能异常
 
   
P4
>=5分钟
部分功能异常
 
3
Coredns
P1
>=15分钟
coredns不可用
 
   
P2
>=10分钟
coredns不可用
 
   
p3
>=30分钟
coredns部分功能异常如处理缓慢
 
4
容器网络
p1
>=15分钟
集群容器网络全部异常
 
   
P2
>=10分钟
集群容器网络全部异常
 
   
P3
>=30分钟
单点或者多点容器网络异常
 
4
Ingress
p1
>=60分钟
Ingress异常或者不可用
 
   
P2
>=30分钟
Ingress异常或者不可用
 
   
P3
>=60分钟
部分流量转发异常
 
   
P4
>=30分钟
部分流量转发异常
 
5
告警平台
P1
     
   
P2
     
   
P3
     
   
P4
     
6
网关
P1
     
   
P2
     
   
P3
     
   
P4
     
7
发布平台
P1
     
   
P2
     
   
P3
     
   
P4
     
8
任务平台
P1
     
   
P2
     
   
P3
     
   
P4
     
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4.4 故障升级
 
故障等级
故障升级
p1
----
P2
>=60分钟未解决或者未处理
p3
>=180分钟未解决或者未处理
P4
>=300分钟未解决或者未处理
 
 

脚本宝典总结

以上是脚本宝典为你收集整理的故障定级标准全部内容,希望文章能够帮你解决故障定级标准所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: