Apache Iceberg — это открытый формат таблиц для аналитических данных, который решает проблемы традиционных файловых хранилищ, таких как Hive или Parquet, особенно в контексте стриминга и больших данных.

Iceberg обеспечивает:

ACID-транзакции на уровне таблиц
Поддержку версионирования данных
Эффективное управление метаданными
Возможность инкрементальных обновлений и удаления данных

В отличие от "файлового хранилища-помойки", Iceberg структурирует данные и метаданные так, чтобы обеспечить консистентность и производительность при работе с потоковыми данными и большими объёмами.

Пример использования Iceberg с Apache Spark для чтения таблицы:

val df = spark.read.format("iceberg").load("db.table_name")
df.show()

Таким образом, Iceberg — это современный и мощный инструмент для организации хранения и обработки больших данных, особенно в сценариях стриминга и аналитики.

Со streaming, Iceberg работал, слышал? Это файловое хранилище-помойка.