Метрики — это количественные показатели, используемые для измерения и мониторинга производительности, состояния и поведения приложения или системы.
Они нужны для:
- Оценки производительности: Измерение времени ответа, пропускной способности, использования ресурсов (CPU, память и т.д.).
- Выявления проблем: Обнаружение аномалий, сбоев, узких мест и других потенциальных источников проблем.
- Контроля состояния: Мониторинг доступности сервисов, количества ошибок, здоровья компонентов.
- Принятия решений: Анализ данных для оптимизации, масштабирования и планирования развития.
- Соблюдения SLO/SLA: Проверка соответствия установленным уровням сервиса.
Примеры ключевых метрик:
- RPS (Requests Per Second) - Количество запросов в секунду.
- Latency - Время выполнения запроса (например, p95, p99).
- Error Rate - Процент ошибочных запросов.
- CPU Usage - Процент использования процессора.
- Memory Usage - Объем используемой оперативной памяти.
- Disk I/O - Операции чтения/записи на диск.
- Network Traffic - Объем передаваемых данных.
- Queue Length - Длина очереди обработки запросов.
Метрики собираются инструментами мониторинга (Prometheus, Grafana, Zabbix и т.д.) и используются для построения графиков, алертов и дашбордов.