#sre

Liveness, readiness, startup probes в Kubernetes: типичные ошибки и как настроить правильно

Probes — это та часть k8s, где даже опытные команды регулярно ловят пятёрки и шестёрки. Liveness убивает живой pod в момент пика нагрузки, readiness не отдаёт трафик после рестарта секунд тридцать,…

12 мая 2026 г.

93 13K

Дмитрий Орлов

SLO, SLI и error budget: как договариваться о надёжности с цифрами

«Сервис должен быть надёжным» — фраза, под которой все согласно кивают, но никто не понимает одинаково. Для разработчика «надёжный» = «не падает при моём релизе». Для product owner — «работает, когда…

30 апреля 2026 г.

290 19K

Алексей Морозов

Runbook vs playbook: что писать для on-call инженера

«Сервис недоступен», «база переключилась на реплику», «алерт HighDiskUsage сработал». Что делать в три ночи on-call инженеру? Если ответа нет — он будит других, разбирается на лету, и инцидент длится…

25 апреля 2026 г.

252 12K

Татьяна Котова

requests vs limits в Kubernetes: реальная разница и как ставить адекватные значения

Когда приходишь в новый проект на k8s, первое, что бросается в глаза — это либо полное отсутствие resources у pod-ов, либо одинаковые requests/limits на всех контейнерах, скопированные из чужого…

8 апреля 2026 г.

155 14K

Дмитрий Орлов

Постмортем без блейма: шаблон, который работает

Сервис вышел из строя в три ночи. Хорошие команды разбираются, что случилось, и через пару дней пишут постмортем — документ, который объясняет инцидент и закрывает выводы. Плохие команды ищут…

31 марта 2026 г.

256 19K

Татьяна Котова

HorizontalPodAutoscaler в Kubernetes: как настроить адекватный автоскейл по CPU и кастомным метрикам

HPA в k8s настраивается за пять строк YAML, и в этом проблема. Приклеил к Deployment targetCPUUtilizationPercentage: 70, поставил minReplicas: 2, maxReplicas: 10 — и спишь спокойно. Через месяц…

18 марта 2026 г.

161 15K

Дмитрий Орлов