Data Engineer
У тебя есть запрос, который работает плохо, медленно или падает — как его оптимизировать?
Напиши простой DAG для Apache Airflow
Задача по Kafka: продюсер отправляет изменения цены товара (200 руб, затем 300 руб), консюмер реплицирован в 3 пода. Будут ли проблемы в дефолтной конфигурации?
Что такое партицирование? Что такое шардирование? Что такое репликация?
Как прочитать файл размером 100 гигабайт в Python?
Вы обнаружили, что в истории основного репозитория Git присутствуют коммиты, содержащие критически важные конфиденциальные данные. Эти данные необходимо полностью удалить из всей истории репозитория. Оцените, насколько правильно и безопасно будет использовать следующую стратегию: создать новый коммит, который удалит конфиденциальные данные из текущей версии файлов, и отправить его в main. - Правильно, но не оптимально. Лучше использовать git revert для отмены коммитов - Условно правильно. Это временное решение, пока не будет найдено более радикальное средство для удаления данных - Неправильно и небезопасно. Данные будут удалены из текущей версии, но останутся доступными в истории репозитория - Неправильно. Такой коммит может привести к новым конфликтам при слиянии с другими ветками - Правильно и безопасно. Этот способ гарантирует, что данные будут удалены и больше не появятся в репозитории
Что такое Materialized View и чем он отличается от обычного View?
Можешь рассказать, что здесь в итоге у нас получится? Нужно прокомментировать каждый шаг, как это работает.
Как работает Nested Loop Join и какова его алгоритмическая сложность? Какова сложность всех трёх алгоритмов?
Расскажи про партиционирование. Какие интересные операции приходилось делать?
Схему самой базы данных ты как правил — прям руками в базе или скрипты где-то хранил, или вообще в Liquibase сидел, какой процесс был?
Расскажи про использование Airflow: какие нестандартные элементы применял
Насколько вам интересна данная роль, учитывая тесную работу с аналитиками, ревью их кода и консультирование?
Чем CTE отличается от подзапроса?
Почему не стоит делать много маленьких инсертов в ClickHouse?
Можно ли посмотреть схему таблицы перед выполнением запроса в Hive?
Как правильно определить поле дистрибьюции в Greenplum? Что происходит при Motion?
Как разбивать запрос на этапы? Что для этого делаем?
В PostgreSQL заголовок версии строки включает параметр xmax. Какова его роль в управлении транзакциями? - Для создания уникального идентификатора строки в таблице - Для проверки видимости строки другими транзакциями - Для обозначения номера транзакции, которая удалила или обновила строку - Для блокировки строки от одновременных изменений несколькими транзакциями - Для указания максимального значения, которое может быть записано в числовую колонку
Как вы видите своё участие в проекте с учётом описанного состава команды?