В рамках проекта на Apache Spark я реализовывал обработку больших данных для аналитики. Основные задачи включали чтение данных из источников (например, CSV, Parquet), трансформацию и агрегацию.

Использовались методы Spark SQL и DataFrame API для удобной работы с данными:

spark.read.format("csv").load(path) — загрузка данных
df.filter(), df.select(), df.groupBy() — трансформации и агрегации
df.write.format("parquet").save(outputPath) — сохранение результатов

Также применял функции для работы с временными окнами и пользовательские UDF для специфической логики. Это позволило эффективно обрабатывать большие объёмы данных и получать нужные отчёты.

Расскажи подробнее про Spark: что конкретно было реализовано, какие методы использовались