Data Engineer
Как записать JSON в папку (в контексте Airflow DAG)
Как прочитать файл размером 100 гигабайт в Python?
Партицирование в базах данных: для чего нужно, как работает?
Как будет решаться работа с рисками расхождения данных и ответственность за данные?
Как правильно определить поле дистрибьюции в Greenplum? Что происходит при Motion?
Как ORDER BY влияет на таблицу ClickHouse и какие ключи лучше выбирать?
Какими типами таблиц в Greenplum пользовался? В каких случаях использовался heap, а в каких Append-Optimized?
Что такое динамическая типизация?
Расскажи про опыт в X5: чем занимался по части DWH?
Расскажите о себе, где работали, чем занимались, какие были интересные задачи и фейлы.
Каковы ваши зарплатные ожидания?
Как можно удалить данные из ClickHouse?
Расскажи про использование Airflow: какие нестандартные элементы применял
Схему самой базы данных ты как правил — прям руками в базе или скрипты где-то хранил, или вообще в Liquibase сидел, какой процесс был?
Джобы из dbt в Airflow — ты руками писал или как-то автоматизировал, были шаблоны?
Какие были потребители данных и как строились витрины?
Имеется ли у вас опыт работы с веб-фреймворком Gin? Расскажите подробнее, какие задачи вы решали с его помощью?
Таблица notifications содержит поле status, в котором значения: 'sent', 'delivered', 'read'. Какой из запросов корректен? select * from notifications where status like '%sent%' order by created_at desc limit 5 select * from notifications where status = 'read' order by created_at desc limit 5 select * from notifications order by status desc limit 5 select * from notifications where status not in ('sent', 'delivered') order by created_at asc limit 5 select * from notifications where status in ('sent', 'delivered') order by created_at desc limit 5
В чём разница между == и is в Python?
Что такое Hive и чем он отличается от традиционных реляционных баз данных?