สวัสดีครับ วันนี้จะชวนคุยเรื่อง After action review (AAR) ที่ผมใช้สรุปหลังจากเกิดปัญหาในงาน System administration
ออกตัวก่อนว่ารูปแบบ (Format) นี้ผมไม่ได้คิดเอง ผมลอกมาจาก Google Incident Report แล้วแยกหัวข้อสุดท้ายออกเป็นสองอัน ต้นฉบับลองดูได้ที่นี่ครับ https://status.cloud.google.com/incident/appengine/19007
ผมเริ่มใช้ AAR เพราะมีความต้องการว่า
- ใช้แบ่งปันความรู้ในองค์กร (KM: knownledge management)
- เพื่อความโปร่งใส (Transparent) ของตัวเอง สามารถนำไปแสดงในหน้า Status page ให้ลูกค้าดูได้(ในระดับหนึ่ง)
โดยรูปแบบจะแบ่งออกเป็น 5 ส่วนคือ
1. Summary
สรุปให้สั้น กระชับ คนที่อ่านอาจจะไม่ใช่คนในสายงานเรา ดังนั้นให้เลี่ยงคำเทคนิค (Jargon) ถ้าเป็นไปได้ให้จบใน 2–3 ประโยคในแบบ What, Where, When, Why, How
2. Impact
ปัญหาที่เกิดกระทบกับอะไรบ้าง ในงาน System administration ของผมจะลงรายละเอียดว่าระบบไหน, เว็บไหน, ผู้ใช้กลุ่มไหน ที่สำคัญให้ระบุเลยว่ากระทบอย่างไร เช่น ไม่ใช้งานไม่ได้เลย, ทำงานได้ช้า ก็ว่ากันไป
3. Root cause
เป็นส่วนที่จะมีคำเทคนิคเยอะที่สุด เล่าให้ถึงรากถึงโคนของปัญหาว่า เกิดอะไรขึ้น ไหนที่ อย่างไร เพราะอะไร ใส่เอกสารอ้างอิงได้เต็มที่
4. Remediation
อธิบายว่าเราแก้ปัญหานี้อย่างไร พยายามเขียนให้เป็น How to step จะดีมาก เพราะเมื่อเกิดปัญหานี้ซ้ำจะได้ใช้ขั้นตอนได้เลย ถ้านึกไม่ออกให้นึกถึงขั้นตอนการลงจอดเครื่องบินของนักบินก็ได้
5. Prevention
ต้นฉบับของ Google Incident Report หัวข้อนี้จะรวมอยู่กับ Remediation แต่ผมแยกออกมาเพราะผมเขียนจะเอาการแก้ปัญหากับการป้องกันมาปนกัน ดังนั้นแยกออกมาเป็นอีกบริบทไปเลย จะว่าให้เขียนอันหนึ่งด้วย Past tense และอีกอันด้วย Future tense ก็ได้
— -
ผมใช้รูปแบบนี้มา 3 ปีแล้ว และคิดว่าจะยังคงใช้ต่อไปจนกว่าจะเจอเครื่องมืออื่นที่ดีกว่า แล้วคุณผู้อ่านมีวิธีการหรือรูปแบบอย่างไร เล่าให้ผมฟังบ้างนะครับ สวัสดีครับ