lenec ru

← все теги

#reliability

6 постов

Health checks как контракт сервиса: SLO, зависимости и что обещать наружу

«Health check» в инженерной практике обычно сводят к разговору про probes в оркестраторе. Это операционная сторона, и она важна, но в ней часто теряется главное: health check — это контракт сервиса.…

410 16K
Алексей Морозов

Координация остановки в распределённой системе: drain трафика, in-flight запросы, очереди

Когда отдельно взятый сервис умеет завершаться корректно, это половина дела. Вторая половина начинается, когда таких сервисов десять, между ними сетевые вызовы и общие очереди, и кто-то нажал…

71 15K
Алексей Морозов

Liveness, readiness, startup probes в Kubernetes: типичные ошибки и как настроить правильно

Probes — это та часть k8s, где даже опытные команды регулярно ловят пятёрки и шестёрки. Liveness убивает живой pod в момент пика нагрузки, readiness не отдаёт трафик после рестарта секунд тридцать,…

93 13K
Дмитрий Орлов

SLO, SLI и error budget: как договариваться о надёжности с цифрами

«Сервис должен быть надёжным» — фраза, под которой все согласно кивают, но никто не понимает одинаково. Для разработчика «надёжный» = «не падает при моём релизе». Для product owner — «работает, когда…

290 19K
Алексей Морозов

Graceful shutdown: как корректно гасить сервис под нагрузкой

Сервис должен уметь умирать спокойно. На демках и в локальных тестах это выглядит непрактично — приложение работает, ну и пусть работает. В проде разница между корректным завершением и резким kill-9…

219 14K
Ирина Лисицына

Health checks: liveness, readiness и startup probes на практике

Когда первый раз настраиваешь health checks в Kubernetes, кажется, что разница между liveness и readiness — формальность. Оба возвращают 200, оба смотрят на «жив ли сервис». Через пару инцидентов…

388 14K
Ирина Лисицына