Data Engineer
Какие виды физического соединения таблиц существуют (Hash Join, Merge Join, Nested Loop)?
Какую задачу на Python вы решали последней в продакшене?
Для чего нужны оконные функции?
В чём разница между == и is в Python?
Какие движки таблиц в ClickHouse знаешь и использовал?
Что такое первичный ключ в ClickHouse и чем он отличается от первичного ключа в обычных БД?
Расскажи про партиционирование. Какие интересные операции приходилось делать?
В команде из 4 человек был какой-то лид или кто-то другой руководил ей?
С аналитическими функциями (window functions) как работал?
Какое выражение на месте пропуска [...] автоматически приведет к созданию индекса? На мобильной платформе присутствует горизонтальный скролл кода create table some_table( col_name [...] ); unique references other_table(col_name) not null serial integer check (col_name > 0)
Что ты на Python писал, помимо Airflow DAG?
Iceberg — это движок, который позволяет с S3 сделать базу данных, он даже соблюдает ACID. В чем его минус?
Как удалить подмодуль и связанные с ним файлы из проекта? git submodule remove <path-to-submodule> git rm --cached <path-to-submodule>; удалить секцию из .gitmodules; git commit git clean --submodules <path> git submodule delete <path> git remove submodule <path>
Джобы из dbt в Airflow — ты руками писал или как-то автоматизировал, были шаблоны?
Схему самой базы данных ты как правил — прям руками в базе или скрипты где-то хранил, или вообще в Liquibase сидел, какой процесс был?
Как можно удалить данные из ClickHouse?
Расскажите о себе, где работали, чем занимались, какие были интересные задачи и фейлы.
Задача по Kafka: продюсер отправляет изменения цены товара (200 руб, затем 300 руб), консюмер реплицирован в 3 пода. Будут ли проблемы в дефолтной конфигурации?
Всегда ли план выполнения из EXPLAIN соответствует тому, что реально выполняется?
Что для Вас важно в будущей работе?