Sobes.tech
Назад к вопросам
Middle
10

Какой масштаб данных в базе и кликстриме?

Компании, где спрашивали
IGaming

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

Ожидают услышать не абстрактный ответ, а понимание порядка величин: сколько строк, событий в сутки, какой объём в гигабайтах или терабайтах и как это влияет на архитектуру. Важно показать, что масштаб оценивается отдельно для базы и для кликстрима, потому что у них обычно разные паттерны записи и чтения. Хороший ответ связывает объём данных с выбором хранилища, партиционированием и способом обработки.

Определение:

Масштаб данных — это ориентир по объёму и скорости роста данных: сколько записей хранится сейчас, сколько добавляется за единицу времени и насколько тяжело с этим работать. Для базы данных обычно смотрят на количество строк, размер таблиц, число запросов и частоту обновлений. Для кликстрима — на число событий в секунду или в сутки, средний размер события, общий объём за день и срок хранения.

Пример использования:

Например, в продуктовой аналитике база может содержать 50–100 миллионов пользовательских записей, а кликстрим — 20–100 миллионов событий в день. Если одно событие в среднем занимает 300–800 байт, то дневной объём кликстрима быстро уходит в десятки гигабайт и выше.

База:
- 80 млн строк
- 30 ГБ данных
- 5 тыс. запросов в минуту

Кликстрим:
- 50 млн событий в день
- 500 байт на событие
- ~25 ГБ сырых данных в день
- хранение 90 дней => ~2.25 ТБ до сжатия и оптимизаций

Пояснение кода:

Код не требуется, потому что здесь оценивается не алгоритм, а способ прикидки масштаба. Разберём пример по шагам: сначала берётся число событий в день, затем умножается на средний размер события, после этого оценивается объём за выбранный период хранения. Для базы аналогично: количество строк умножается на средний размер записи, после чего добавляется запас на индексы, служебные поля и рост нагрузки на запросы.

Ключевые моменты:

  • Масштаб данных лучше называть в конкретных метриках: строки, события/сутки, ГБ/ТБ, QPS, retention.
  • Для базы важны не только объём, но и характер доступа: чтение, запись, обновления, индексы.
  • Для кликстрима ключевое — скорость поступления событий и объём за сутки, а не только общий размер.
  • Объём на диске обычно больше “сырого” из-за индексов, метаданных и особенностей хранения.
  • Правильный ответ на собеседовании — это оценка порядка величин и её влияние на архитектуру, а не точное число до байта.