Какие метрики используются для оценки качества системы?
Answer from AI
sobes.tech AI
-
Доступность (Availability): Процент времени, в течение которого система полностью работоспособна и доступна для пользователей. Часто измеряется как "количество девяток" (например, 99.999%).
-
Надежность (Reliability): Способность системы выполнять свои заявленные функции при определенных условиях в течение заданного периода времени. Может измеряться метриками типа MTBF (Mean Time Between Failures) и MTTR (Mean Time To Recover).
-
Производительность (Performance): Насколько быстро и эффективно система обрабатывает запросы и выполняет задачи. Включает:
- Время отклика (Response Time): Время между отправкой запроса и получением ответа.
- Пропускная способность (Throughput): Количество запросов или транзакций, обработанных за единицу времени.
- Использование ресурсов (Resource Utilization): Загрузка CPU, памяти, диска, сети.
-
Масштабируемость (Scalability): Способность системы справляться с увеличением нагрузки (пользователей, данных, запросов) путем добавления ресурсов без потери производительности или доступности.
-
Безопасность (Security): Наличие уязвимостей, успешных атак, соответствие политик безопасности.
-
Восстанавливаемость (Recoverability): Как быстро система может быть восстановлена после сбоя. Измеряется метрикой MTTR.
-
Частота ошибок (Error Rate): Процент запросов или операций, завершившихся ошибкой.
-
Latency (Задержка): Время, необходимое для передачи данных из одной точки в другую. Может быть сетевой, дисковой и т.д.
-
Cost Efficiency (Экономическая эффективность): Стоимость эксплуатации системы при достижении заданных уровней других метрик.
-
Customer Satisfaction (Удовлетворенность клиентов): Может быть измерена через опросы, отзывы или анализ поведения пользователей.
// Пример метрик, собираемых через Prometheus и визуализируемых в Grafana
// up - статус сервиса (1=доступен, 0=недоступен)
// http_requests_total - общее количество HTTP запросов
// http_request_duration_seconds - гистограмма времени обработки HTTP запросов
// node_cpu_utilization - использование CPU на узле
// alerta_alerts_total - количество алертов из Alerta