Name: Sobes.tech
Rating: 4.9 (250 reviews)

Доступность (Availability): Процент времени, в течение которого система полностью работоспособна и доступна для пользователей. Часто измеряется как "количество девяток" (например, 99.999%).
Надежность (Reliability): Способность системы выполнять свои заявленные функции при определенных условиях в течение заданного периода времени. Может измеряться метриками типа MTBF (Mean Time Between Failures) и MTTR (Mean Time To Recover).
Производительность (Performance): Насколько быстро и эффективно система обрабатывает запросы и выполняет задачи. Включает:
- Время отклика (Response Time): Время между отправкой запроса и получением ответа.
- Пропускная способность (Throughput): Количество запросов или транзакций, обработанных за единицу времени.
- Использование ресурсов (Resource Utilization): Загрузка CPU, памяти, диска, сети.
Масштабируемость (Scalability): Способность системы справляться с увеличением нагрузки (пользователей, данных, запросов) путем добавления ресурсов без потери производительности или доступности.
Безопасность (Security): Наличие уязвимостей, успешных атак, соответствие политик безопасности.
Восстанавливаемость (Recoverability): Как быстро система может быть восстановлена после сбоя. Измеряется метрикой MTTR.
Частота ошибок (Error Rate): Процент запросов или операций, завершившихся ошибкой.
Latency (Задержка): Время, необходимое для передачи данных из одной точки в другую. Может быть сетевой, дисковой и т.д.
Cost Efficiency (Экономическая эффективность): Стоимость эксплуатации системы при достижении заданных уровней других метрик.
Customer Satisfaction (Удовлетворенность клиентов): Может быть измерена через опросы, отзывы или анализ поведения пользователей.

// Пример метрик, собираемых через Prometheus и визуализируемых в Grafana
// up - статус сервиса (1=доступен, 0=недоступен)
// http_requests_total - общее количество HTTP запросов
// http_request_duration_seconds - гистограмма времени обработки HTTP запросов
// node_cpu_utilization - использование CPU на узле
// alerta_alerts_total - количество алертов из Alerta

Какие метрики используются для оценки качества системы?