大厂晋升指南_31_30_四线复盘法怎么避免成为背锅侠
你好,我是华仔。
在事后总结阶段,正常情况下,我们主要做收获、总结和成果汇报。
但是如果发生了明显的问题,就需要做问题。
复盘复盘是一个围棋术语,他说的是对局结束以后呢,回顾记录检查招法的优劣和得失关键,并且根据分析提出更好的招法,提升以后的对局能力。
后来这个思路被引入到了管理工作中。
技术人员主要参与的是线上问题复盘,比如业务或者系统出现了线上问题,在问题解决之后往往就会组织复盘。
不管团队技术多么厉害,也不管公司多么有钱,都不能完全避免业务或者系统出现问题的可能。
比如,二零一五年五月二十七日,支付宝发生了大规模宕机的事故,二零一八年十月二十二日,github发生了宕机二十四小时的事故等。
虽然无论做什么都不可能完全杜绝问题的发生,但这并不意味着我们只能坐以待毙。
我们需要尽量降低问题发生的概率,减少问题导致的损失。
因为就算事故不可避免,一年发生三次和十年发生一次,影响和意义也是完全不同的问题。
复盘的意义就在于找到问题的原因,然后加以改进,避免同样的问题,反复出现,降低问题发生的概率和影响。
但是要做好问题,复盘可不是一件容易的事儿。
复盘会议上的各种明争暗斗,可能会让刚参加工作的萌新惊掉下巴,甚至让一些老员工也感到头疼。
尤其是一些管理比较严的公司,还会通过复盘来明确责任分配和处罚措施。
复盘会议的激烈程度,往往不亚于电视剧中的宫斗场景。
所以,怎么组织一场复盘,怎么分配责任和避免背锅,已经成了职场人的一项生存必备技能问题。
复盘的内容涵盖事实分析、定则和改进四个部分。
一次成功的问题,复盘需要达成以下四个目标。
第一个目标讲清楚事实,事实是复盘的基础。
如果连事实都没有讲清楚,就开始分析定则和改进,无异于搭建空中楼阁,做的再漂亮也是没有意义的。
第二个目标全面且深入的分析,首先需要保证没有遗漏问题。
其次,需要深入分析问题根因,否则以后问题还是会以其他方式反复出现。
第三个目标,得出让各方心服口服的定则结论。
这就需要有明确的定责标准,避免拍脑袋定责,或者按照级别和关系来定责。
第四个目标,制定可以落地的改进措施,要避免提出一些虚头巴脑的措施,看起来高大上,实际上却不知道怎么落地,后续也无法跟踪这一讲。
分享的四线复盘法就是通过时间线、问题链、责任链和改进线这四条不同的线索来展开复盘,从而实现事实分析、定则和改进这四个部分的目标。
如果你是复盘负责人,四件,复盘法可以让你不偏不倚、公平公正的组织复盘。
如果你是复盘参与人,他可以让你避免背不必要的黑锅。
当然,如果出现问题,确实是你的责任,他也不会教你怎么逃避责任,而是会告诉你怎么思考和改进。
接下来我会针对每条线索逐一讲解,说明第一条线时间线。
为了讲清楚事实,我们要明确时间线,也就是问题发生的经过,包括问题发现、问题处理过程中采取的各种关键措施,问题恢复的时间和问题影响的结果等比中时间信息非常关键。
因为它能够反映出问题发现速度、各项措施、执行时间和团队响应效率等指标。
比如运维重启三十台机器花了一个小时,通常情况下,这种处理效率肯定是有问题的。
第二条线问题链为了全面且深入的分析,我们要明确问题链,也就是问题的传导路径。
通常情况下一个问题往往不是单一原因导致的,而是多个原因碰巧组合在一起所导致的。
所以,分析整个问题的传导路径,才能全面的了解,产生问题的过程。
同时,针对单个问题的分析也不能浅尝辄止,而应该采用第二十六讲的五w根因分析法,深入分析找到根本原因,这样才能为后续制定改进措施提供有效的指导。
问题链的路径。
逻辑有两类业务流程和项目流程,业务流程是指端到端的业务处理的过程,分析的对象是各个关联的系统,项目流程是指端到端的项目开发的过程,分析的对象是项目各个阶段相关的人员,比如开发、测试、产品和运维等。
我们一般先采用业务流程的逻辑,将问题定位到单个系统。
然后再针对单个系统采用项目流程的方式,将问题定位到具体的人或者流程中的某个步骤。
第三条线责任链为了得出让各方心服口服的定责结论,我们要明确责任链,也就是问题责任人之间的关系。
我们需要结合时间线中问题影响的结果。
公司的故障定级标准和问题链的分析,最终确定哪些团队或者个人应该承担责任,分别承担多大的责任,接受什么样的处罚。
之所以叫责任链,是因为一个问题的发生,往往是整个流程上多个环节相关的人处理有问题,才会导致最终问题的发生。
比如,开发人员引入bug测试人员遗漏了,测试,产品人员没有验收到,最终才会在上线后发现问题。
这个环节中,只要有一个环节把握住了问题,就不会发生。
定责是问题复盘中最棘手的部分,因为定责的结果会直接影响团队和个人的绩效,所以做到公平公正,让各方都心服口服,是一项很大的挑战。
通常情况下,制定明确的定责标准,有利于尽量减少争议。
常见的标准包括以下四条,第一条违反公司规章制度流程的承担主责。
比如,公司规定必须要有灰度策略,才能升级某业务版本直接全量升级,导致发生问题。
第二条出现重大纰漏的承担主责。
比如测试时漏测了某个常见的业务场景,导致上线后发生问题,测试承担主责产品承担主责开发,反而规定承担责任。
第三条问题,源头承担主责。
比如a系统磁盘故障导致接口响应很慢,并且问题持续很长时间,从而进一步导致b系统对外响应也超时。
这种情况下,a系统应该承担主责,b系统承担次责第四条问题,放大者承担主责。
比如a系统磁盘故障导致接口响应很慢,但只持续了几分钟,结果诱发了b系统的设计缺陷,导致b系统瘫痪超过一个小时。
这种情况下,b系统应该承担主责第四条线改进线。
为了制定可以落地的改进措施,我们要明确改进线,也就是问题的改进计划,包括具体措施、改进责任人和时间节点等。
改进计划的思路来源于两个方面,时间线和问题链,通过时间线找到问题处理过程中不合理和可以优化的地方,通过问题链找到具体需要解决的问题。
具体措施可以是流程上的调整、技术上的手段和团队方面的措施等。
无论采取什么措施,都要求能够落地执行,比如提升团队质量意识。
这种比较虚的措施,应该细化为团队参加公司的质量规范学习和考试,推行code review.这种具体的措施,接下来我来带你拆解一个简单的线上问题复盘案例。
假设我们做了一个简单的线上商城架构,如文稿当中图片所示,某一次线上故障,导致用户下单后无法支付。
我们按照四线复盘法来复盘这个问题。
首先看时间线,我们完整的回顾问题,产生处理和收尾的整个过程,梳理了时间线。
具体呢参看文稿当中的图片,然后看问题链,我们先按照业务流程来分析问题链。
由于系统架构和这次问题都比较简单,所以问题链只涉及风控服务和支付服务。
具体呢参看文稿中的图片,针对风控服务的问题,我们再按照项目流程来分析问题链。
具体参看文稿中的图片,接下来再看责任链,根据时间线中的影响结果,这次问题导致的损失是一万元。
根据公司故障,定级标准属于轻微级别惩罚措施是贡献活动经费,结合问题链和定责标准,我们得到了最终的责任链。
具体可以看一看文稿当中的图片,最后来看改进线。
我们分析了时间线中的步骤,针对两个可以改进的地方制定了改进措施。
你可以查看一下文稿当中的图片。
然后我们又分析了问题链中的问题,针对另外两个可以改进的地方,制定了改进措施。
文稿当中的图片,展示了具体的措施。
你可以看一下。
以上就是用四线复盘法对这次问题做复盘的整个过程。
现在我们回顾一下重点内容。
第一个重点,一次成功的问题。
复盘要达成四个目标,讲清楚事实全面且深入的分析,得出让各方心服口服的定责结论,以及制定可以落地的改进措施。
第二个重点,四线复盘法是通过时间线、问题链、责任链和改进线这四条不同的线索来展开复盘。
它可以让你不偏不倚、公平公正的组织复盘,也可以让你避免背不必要的黑锅。
第三个重点时间线就是问题发生的,经过问题链就是问题的传导路径。
责任链就是问题,责任人之间的关系,改进线就是问题的改进计划。
好了,这就是今天的全部内容,留一道课后思考题给你。
你或者你的团队承担过线上问题的责任吗?如果有,主要原因是什么?你觉得处理结果是否公平?复盘过程中有没有需要改进的地方?欢迎你把答案写到留言区,和我一起讨论。
相信经过深度思考的回答,也会让你对知识的理解更加深刻。