lenec ru

← все теги

#incident-management

2 поста

Runbook vs playbook: что писать для on-call инженера

«Сервис недоступен», «база переключилась на реплику», «алерт HighDiskUsage сработал». Что делать в три ночи on-call инженеру? Если ответа нет — он будит других, разбирается на лету, и инцидент длится…

252 12K
Татьяна Котова

Постмортем без блейма: шаблон, который работает

Сервис вышел из строя в три ночи. Хорошие команды разбираются, что случилось, и через пару дней пишут постмортем — документ, который объясняет инцидент и закрывает выводы. Плохие команды ищут…

256 19K
Татьяна Котова