Data Engineer
Что такое первичный ключ в ClickHouse и чем он отличается от первичного ключа в обычных БД?
Какие движки таблиц в ClickHouse знаешь и использовал?
Какие типы JOIN знаешь? (логические)
Из-за чего возникают дедлоки и какой механизм в базах данных отвечает за консистентность данных при параллельных запросах?
Создана структура таблиц указанная на изображении. Необходимо выполнить запрос указанный изображении. Какой вид join необходимо использовать на месте пропуска [...], чтобы в результате для записей с type = 'table_aw' была заполнена колонка 'naming', а для записей с type = 'table2' — колонка 'serial_number'? create table multirelation( type varchar not null, entity_id integer not null ); create table table_aw( id integer primary key, naming varchar not null ); create table table2( id integer primary key, serial_number varchar not null ); -- структура таблиц select m.type,m.entity_id, ta.naming, t2.serial_number from multirelation m [...] join table_aw ta on m.entity_id = ta.id and m.type='table_aw' [...] join table2 t2 on m.entity_id = t2.id and m.type='table2'; -- запрос Оставить пустым inner cross right left
Какой формат работы вас устраивает — удалёнка, гибрид или офис?
Задача по проектированию микросервисной архитектуры: как предоставить данные для таблицы заказов (товары, цены, заказы) фронтенду при наличии трёх отдельных микросервисов?
Чем отличается WHERE от HAVING в SQL?
Какие типы JOIN ты знаешь? Расскажи 2-3 основных.
Вы обнаружили, что в истории основного репозитория Git присутствуют коммиты, содержащие критически важные конфиденциальные данные. Эти данные необходимо полностью удалить из всей истории репозитория. Оцените, насколько правильно и безопасно будет использовать следующую стратегию: создать новый коммит, который удалит конфиденциальные данные из текущей версии файлов, и отправить его в main. - Правильно, но не оптимально. Лучше использовать git revert для отмены коммитов - Условно правильно. Это временное решение, пока не будет найдено более радикальное средство для удаления данных - Неправильно и небезопасно. Данные будут удалены из текущей версии, но останутся доступными в истории репозитория - Неправильно. Такой коммит может привести к новым конфликтам при слиянии с другими ветками - Правильно и безопасно. Этот способ гарантирует, что данные будут удалены и больше не появятся в репозитории
Как работает Hash Join?
Как данные из внешней таблицы заливались в целевые таблицы?
Это real-time, нужно как-то между Kafka и ClickHouse Spark включить — как это реализовать?
С Kafka ничего сложного нет, главное обработать данные — какие нюансы нужно учитывать?
Данные из Greenplum и Trino перегружались в ClickHouse — каким образом можно передать данные туда?
Напрямую со Spark приходилось работать? В чем его минус?
С Git приходилось работать? Что в Git хранили?
В плане запроса можем посмотреть, что происходит с данными, в том числе какие типы джойнов — какие типы джойнов мы можем там увидеть?
## задачка на моду # Есть список чисел. Напишите функцию, которая находит моду этого списка. # find_mode([1, 2, 3, 3, 4, 5]) #> 3
У вас Data Science и большие данные обрабатывают — есть замена в этой библиотечке, написанной на Rust, многопоточная, в отличие от Pandas, очень быстрая. Не знаешь таких?