Вопросы для интервью Data Lake и Форматы Файлов (Parquet, ORC, Iceberg, Hudi, Delta Lake)

🚩 1. Концепции Data Lake

🚩 2. Форматы Файлов (Parquet, ORC, Avro)

Parquet

ORC

Avro

🚩 3. Современные Архитектуры Data Lake

Apache Iceberg

Apache Hudi

Delta Lake

Что такое Delta Lake и как он улучшает традиционные Data Lakes?
Как Delta Lake обеспечивает поддержку ACID транзакций?
Что такое версионирование в Delta Lake и как оно поддерживает откат и восстановление данных?
Объясните, как Delta Lake работает с schema enforcement и schema evolution.
Как Delta Lake оптимизирует запросы с помощью Z-Ordering?

🚩 4. Оптимизация производительности Data Lake

Какие техники можно использовать для оптимизации производительности Data Lake?
Как форматы столбцовых файлов, такие как Parquet и ORC, улучшают производительность запросов?
Каковы лучшие практики для партиционирования данных в Data Lake?
Как такие форматы как Delta Lake, Iceberg и Hudi оптимизируют производительность с использованием метаданных?

🚩 5. Сравнение форматов файлов и архитектур Lakehouse

Когда выбрать Delta Lake, Apache Iceberg или Apache Hudi?
Каковы ключевые различия между Parquet, ORC и Avro в отношении хранения и эффективности запросов?
Можно ли использовать разные форматы файлов (Parquet, ORC, Avro) в одном Data Lake?
Чем Delta Lake, Iceberg и Hudi отличаются по обработке обновлений, удалений и вставок?

🚩 6. Реальные сценарии использования и внедрение

Как бы вы спроектировали архитектуру Data Lake для аналитики в реальном времени?
Какие форматы файлов и архитектуры вы бы выбрали для системы ввода больших данных IoT?
Какие соображения вы бы приняли во внимание при миграции от традиционного хранилища данных к архитектуре Data Lake?
Как вы обеспечите управление данными и безопасность в Data Lake?
Опишите сценарий, в котором вы бы предпочли гибридный подход (например, Delta Lake + традиционное DWH) вместо использования только Data Lake.

🚩 7. Инструменты для Data Lake и Lakehouse

Какие инструменты можно использовать для эффективного управления и запроса данных в Data Lake?
Как инструменты, такие как Apache Spark, Presto (Trino) и Apache Drill, интегрируются с Data Lake?
Как автоматизировать ввод данных и каталогизацию в Data Lake?
Как бы вы реализовали отслеживание происхождения данных (data lineage) в среде Data Lake?

🪴 BLOG IT