Data Engineer
Даны две таблицы t1 и t2. Задача выписать все виды джойнов, которые знаешь, и результат запроса select * from t1 <join> t2 on t1.t = t2.t для каждого из них. |t1.t| ------ 1 2 4 null ------ |t2.t| ------ 1 3 null null
SELECT * FROM table1 AS t1 LEFT JOIN table2 AS t2 ON t1.date_start > t2.date_start d = { True: 42, 1: 2, 1.0: 100500 } print(d)
SELECT * FROM table1 AS t1 LEFT JOIN table2 AS t2 ON t1.date_start > t2.date_start
В чём отличие RANK() от DENSE_RANK()?
Где лучше работает сжатие данных — в колоночном или строчном хранении и почему?
Расскажи, что ты знаешь про колоночное и строчное хранение данных. Когда и какое надо выбирать и почему?
Чем отличается цикл по строке от цикла по tuple в Python? Какие типы являются базовыми и как это влияет на производительность?
Расскажи о своём опыте работы: задачи, стек технологий
Как подойти к ситуации, когда бизнес просит отчёт с визуализацией данных по новой акции?
Сколько дополнительной памяти требует решение со словарём, не считая возвращаемых данных?
Как работали с Impala?
Где можно посмотреть логи задач в Airflow?
Расскажите о вашем опыте работы с Greenplum, DBT и Data Vault. Почему перешли от модели снежинки к Data Vault?
Что такое индексы в базах данных, зачем они нужны и какова их внутренняя структура?
Где появляется параллелизм в Airflow?
С оптимизацией запросов приходилось работать? С чего вообще начинается оптимизация?
Чем Pandas лучше обычных списков и словарей в Python?
Начиная с каких особенностей можно сказать, что хранилище данных нужно?
Как Pandas обрабатывает пропущенные данные?
Как решить задачу за линейное время O(n), используя словарь? Что нужно хранить в словаре, чтобы потом собрать отсортированную строку? Как обработать символы, которых нет в order?