Data Engineer
Даны две таблицы t1 и t2. Задача выписать все виды джойнов, которые знаешь, и результат запроса select * from t1 <join> t2 on t1.t = t2.t для каждого из них. |t1.t| ------ 1 2 4 null ------ |t2.t| ------ 1 3 null null
SELECT * FROM table1 AS t1 LEFT JOIN table2 AS t2 ON t1.date_start > t2.date_start d = { True: 42, 1: 2, 1.0: 100500 } print(d)
Где лучше работает сжатие данных — в колоночном или строчном хранении и почему?
SELECT * FROM table1 AS t1 LEFT JOIN table2 AS t2 ON t1.date_start > t2.date_start
Расскажи, что ты знаешь про колоночное и строчное хранение данных. Когда и какое надо выбирать и почему?
Чем отличается цикл по строке от цикла по tuple в Python? Какие типы являются базовыми и как это влияет на производительность?
Где можно посмотреть логи задач в Airflow?
В чём отличие RANK() от DENSE_RANK()?
Начиная с каких особенностей можно сказать, что хранилище данных нужно?
Как подойти к ситуации, когда бизнес просит отчёт с визуализацией данных по новой акции?
Что такое индексы в базах данных, зачем они нужны и какова их внутренняя структура?
Как Pandas обрабатывает пропущенные данные?
С оптимизацией запросов приходилось работать? С чего вообще начинается оптимизация?
Расскажи о своём опыте работы: задачи, стек технологий
Чем Pandas лучше обычных списков и словарей в Python?
Расскажите о вашем опыте работы с Greenplum, DBT и Data Vault. Почему перешли от модели снежинки к Data Vault?
Как работали с Impala?
Сколько дополнительной памяти требует решение со словарём, не считая возвращаемых данных?
За какое время будет работать решение с использованием встроенного sorted? Можно ли придумать более быстрое решение?
Как будет читаться файл из HDFS, например Parquet — целиком или по блокам?