Name: Sobes.tech
Rating: 4.9 (250 reviews)

Мониторинг и логирование. Метрики здоровья, ошибки, производительность. Распределенная трассировка. Синтетические тесты и пробы готовности/живости (readiness/liveness probes).

Мониторинг: Сбор метрик работы сервиса.
- HTTP-коды ответов (2xx, 4xx, 5xx).
- Время отклика Latenсy).
- QPS (Queries Per Second).
- Использование ресурсов: CPU, память, сеть, диск.
- Метрики специфичные для приложения (например, количество обработанных запросов, глубина очереди).
Логирование: Централизованный сбор логов. Анализ логов на наличие ошибок, предупреждений, критических событий. Использование структурированного логирования.
Проверки готовности (Readiness Probes): Определяют, готов ли сервис принимать трафик. Если проверка не проходит, оркестратор (например, Kubernetes) перестает направлять на него запросы.
Проверки живости (Liveness Probes): Определяют, жив ли процесс сервиса. Если проверка не проходит, оркестратор перезапускает под.
Распределенная трассировка (Distributed Tracing): Отслеживание пути запроса через несколько микросервисов. Помогает выявлять узкие места и ошибки в цепочке вызовов. Инструменты: Jaeger, Zipkin, OpenTelemetry.
Синтетическое тестирование: Имитация пользовательских сценариев извне, отправляя запросы к сервисам и проверяя ответы.
Предохранители (Circuit Breakers): Паттерн, который предотвращает каскадные сбои. Если сервис-зависимость недоступен, предохранитель размыкается, и сервисы перестают посылать к нему запросы, давая ему время на восстановление.
Графы зависимостей сервисов: Визуализация связей между микросервисами. Помогает понять, какие сервисы влияют друг на друга при сбоях.

Примеры метрик и запросов (Prometheus Query Language):

# Среднее время отклика для запросов к сервису "my-service"
rate(http_request_duration_seconds_sum{service="my-service", status!="5xx"}[5m]) / rate(http_request_duration_seconds_count{service="my-service", status!="5xx"}[5m])

# Количество ошибок 5xx за последнюю минуту
sum(rate(http_requests_total{service="my-service", status="5xx"}[1m]))

# Использование CPU подом
sum(rate(container_cpu_usage_seconds_total{namespace="my-namespace", pod="my-pod-..."}[5m])) by (pod)

Как определить исправность работы микросервисов?