Prometheus, Grafana и Loki — это связка инструментов для мониторинга и логирования, которую я использовал в нескольких проектах.

Prometheus отвечает за сбор метрик с приложений и инфраструктуры. Он позволяет настраивать алерты на основе этих метрик. Grafana используется для визуализации данных из Prometheus и других источников, создавая удобные дашборды. Loki — это система для сбора и поиска логов, интегрированная с Grafana, что позволяет связывать метрики и логи.

Пример нестандартного алерта:

В одном проекте я настроил алерт, который срабатывал не просто при превышении порога CPU, а при сочетании нескольких условий: если средняя загрузка CPU за 5 минут выше 80% и одновременно количество ошибок в логах (собираемых через Loki) превышает заданный уровень. Это помогало выявлять ситуации, когда нагрузка действительно влияет на стабильность, а не просто пиковые значения CPU.

Пример правила алерта в Prometheus (упрощённо):

- alert: HighCpuAndErrorRate
  expr: avg_over_time(cpu_usage[5m]) > 0.8 and sum by (job) (rate({job="app"} |= "error"[5m])) > 10
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "Высокая загрузка CPU и рост ошибок"
    description: "CPU > 80% и количество ошибок > 10 за последние 5 минут"

Такой подход позволяет уменьшить ложные срабатывания и быстрее реагировать на реальные проблемы.

Расскажи про опыт с observability стеком Prometheus, Grafana, Loki. Приведи пример нестандартного алерта.