Для обработки пиковых нагрузок (25k чтений и 5k записей в секунду) и обеспечения масштабируемости при 120k одновременных запросах, предлагается микросервисная архитектура с распределённым хранилищем данных и асинхронной обработкой записей.

Основные компоненты решения:

База данных: Использовать масштабируемое распределённое хранилище (например, Cassandra, ScyllaDB или CockroachDB) с поддержкой горизонтального масштабирования и репликации для отказоустойчивости и согласованности.
Кэширование: Внедрить распределённый кэш (Redis Cluster или Memcached) для снижения задержек чтения и разгрузки базы.
Очереди сообщений: Для обработки записей использовать очередь (Kafka, RabbitMQ) с гарантией доставки и повторной попыткой, что обеспечит асинхронность и устойчивость к сбоям.
Механизм согласованности: Использовать паттерн "Event Sourcing" или "CQRS" для разделения чтения и записи, что позволит оптимизировать производительность и обеспечить согласованность данных.
Мониторинг и трассировка: Внедрить распределённую трассировку (Jaeger, Zipkin) и метрики (Prometheus + Grafana) для полного мониторинга жизненного цикла заказа, включая задержки, ошибки и пропускную способность.

Механизм обработки сбоев:

Автоматическое переключение на резервные узлы базы данных при отказе.
Повторная отправка сообщений в очередь при временных ошибках.
Таймауты и circuit breaker для предотвращения каскадных сбоев.
Логирование и алерты при превышении порогов задержек или ошибок.

План миграции:

Анализ текущей архитектуры и выявление узких мест.
Постепенное внедрение кэширования для снижения нагрузки на базу.
Внедрение очередей для асинхронной обработки записей.
Миграция данных в распределённую базу с минимальным временем простоя.
Интеграция системы трассировки и мониторинга.
Тестирование под нагрузкой и оптимизация.

Улучшения:

Повышение отказоустойчивости за счёт репликации и автоматического failover.
Снижение задержек чтения благодаря кэшу.
Гарантированная доставка и обработка записей через очередь.
Полная прозрачность жизненного цикла заказа через трассировку.
Масштабируемость под рост пользователей и объёма данных.

Пример упрощённого кода на Go для записи в очередь с повторной попыткой:

func writeToQueue(ctx context.Context, msg Message) error {
    const maxRetries = 3
    var err error
    for i := 0; i < maxRetries; i++ {
        err = queue.Publish(ctx, msg)
        if err == nil {
            return nil
        }
        time.Sleep(time.Duration(i) * time.Second) // экспоненциальная задержка
    }
    return fmt.Errorf("failed to publish message after retries: %w", err)
}