Для масштабирования ML-сервиса с ручкой Predict, которая должна отвечать быстро (до 60 секунд), можно использовать следующий подход:

Вертикальное масштабирование — увеличить ресурсы сервера (CPU, RAM), чтобы модель работала быстрее.
Горизонтальное масштабирование — развернуть несколько инстансов сервиса за балансировщиком нагрузки (например, Nginx или AWS ELB).
Кэширование — если предсказания повторяются для одних и тех же входных данных, использовать кэш (Redis, Memcached).
Асинхронная обработка — если предсказание занимает много времени, можно принимать запросы, ставить их в очередь (RabbitMQ, Kafka) и отдавать результат позже.
Оптимизация модели — использовать легковесные модели или модели с ускорением (ONNX, TensorRT).

Пример схемы:

Client --> Load Balancer --> ML Service Instances --> Model Storage
                              |
                              --> Cache (Redis)

Балансировщик распределяет запросы между несколькими инстансами сервиса, которые используют кэш для ускорения ответов и обращаются к модели, хранящейся в быстром хранилище.

Системный дизайн: ML-сервис с ручкой Predict (60 секунд на ответ). Как масштабировать? Нарисуй схему.