Сжатие данных обычно работает лучше в колоночном хранении, чем в строчном. Причина в том, что в колоночных базах данных данные одного столбца хранятся последовательно, и значения часто имеют схожие характеристики (например, одинаковый тип, близкие по значению или повторяющиеся данные). Это позволяет алгоритмам сжатия эффективно использовать повторения и шаблоны, достигая высокой степени сжатия.

В строчном хранении данные разных столбцов перемешаны, что снижает эффективность сжатия, так как значения разных типов и с разной статистикой встречаются подряд.

Пример: если в колонке "Страна" много повторяющихся значений "Россия", "США" и т.п., то сжатие будет очень эффективным, а в строчном формате эти значения разбросаны по разным строкам и смешаны с другими данными.

Где лучше работает сжатие данных — в колоночном или строчном хранении и почему?