Версионирование данных

DataOps — это совместная практика управления данными, направленная на улучшение коммуникации, интеграции и автоматизации потоков данных между управляющими данными и потребителями данных внутри организации. В эпоху культуры, ориентированной на данные, DataOps становится ключевым элементом.

В центре эффективной практики DataOps находится версионирование — создание, управление и отслеживание различных версий наборов данных. Версионирование важно по нескольким причинам:

Оно позволяет изолировать изменения, давая командам возможность параллельно работать с данными без помех.
Поддерживает создание сред без копирования данных, в которых можно экспериментировать и анализировать без риска повредить оригинальные данные.
Обеспечивает возможность тегирования версий для воспроизводимости, что важно для аудита и соответствия требованиям.
Поддерживает мульти-табличные транзакции, позволяя применять сложные изменения сразу ко множеству таблиц как к единой атомарной операции.

Эти возможности не просто полезны — они критически необходимы в современных условиях, где важны целостность, надежность и воспроизводимость данных.

Суть версионирования в Data Lakehouse

Data Lakehouse — это архитектура, сочетающая лучшие черты хранилищ данных и озёр данных. Она предлагает масштабируемость и гибкость Data Lake с управляемостью и производительностью хранилищ. В этой архитектуре версионирование играет ключевую роль:

Оно обеспечивает прозрачное управление изменениями и историю преобразований данных.
Поддерживает динамичные среды, где схемы данных часто меняются.
Делает возможными безопасные изолированные изменения, не затрагивая продакшен-данные.
Стимулирует инновации и эксперименты, позволяя быстро тестировать гипотезы и откатываться при необходимости.

Среди популярных решений по версионированию — LakeFS (версионирование файлов), Apache Iceberg (версионирование таблиц) и Nessie (версионирование каталога).

Версионирование каталогов с помощью Nessie

Nessie — это революционный подход к управлению озёрами данных, основанный на принципах Git. Он предоставляет согласованный и актуальный вид данных по всем датасетам, изолируя незавершённые изменения (например, от батч-джобов), пока они не будут полностью применены — аналогично коммиту в Git.

Как работает Nessie

Архитектура Nessie отслеживает изменения на уровне каталога, а не дублирует сами данные. Коммиты в Nessie фиксируют метаданные объектов (таблиц, пространств имён, представлений). Это позволяет:

Добавлять контекст к изменениям;
Обеспечивать постоянную согласованность;
Изолировать изменения в ветках для экспериментов.

Ключевые функции Nessie

Коммиты и ветки — изменения можно коммитить и вносить в изолированные ветки без риска сломать продакшен;
Теги — фиксированные версии можно легко тегировать и использовать для отчётности или воспроизводимости;
Автоматическое управление файлами — отслеживание и удаление неиспользуемых файлов (GC) выполняется автоматически.

Примеры использования Nessie

Изолированные эксперименты — создание веток для гипотез без влияния на основную среду;
Аудит и соответствие требованиям — возможность быстро получить версию данных, актуальную на момент анализа;
Упрощение операций — упрощает управление схемами, файлами, сборку мусора и другие задачи DataOps.

Преимущества и недостатки Nessie

Преимущества:

Согласованный вид данных;
Упрощение управления озером данных;
Поддержка нескольких сред разработки и CI/CD;
Отлично работает с неизменяемыми файлами данных.

Недостатки:

Требуется понимание концепций контроля версий (но SQL-интерфейс упрощает вход);
Может потребоваться настройка для интеграции в существующую архитектуру

Версионирование таблиц с Apache Iceberg

Apache Iceberg предлагает инновационный подход к версионированию данных в озёрах, используя метаданные таблиц для ведения журнала снапшотов (snapshot log). Этот журнал играет ключевую роль, позволяя реализовать такие функции, как изоляция чтения и запросы к данным во времени (time travel), что делает Iceberg выдающимся выбором для управления большими объёмами данных.

Ветвление и тегирование в Iceberg

Журнал снапшотов Iceberg фиксирует все исторические изменения таблицы, где каждый снапшот представляет конкретное состояние данных.

Ветки и теги

Iceberg поддерживает ветки (branches) и теги (tags) для более гибкого управления снапшотами. Это именованные ссылки на снапшоты, каждая из которых имеет собственный жизненный цикл:

Ветки — как в системах контроля версий, представляют независимые линии истории снапшотов. Каждая ветка указывает на “голову” своей истории, что позволяет параллельную разработку и эксперименты.
Теги — позволяют пометить важные снапшоты (например, для соответствия нормативам или аудита) без необходимости вести отдельную ветку.

Свойства хранения (retention policies) управляют временем хранения веток, тегов и связанных с ними снапшотов.

Примеры использования версионирования в Iceberg

Гибкость ветвления и тегирования в Iceberg позволяет реализовать разнообразные стратегии управления данными:

Исторические теги

Для целей аудита можно настроить хранение снапшотов по правилам, например:

еженедельные снапшоты — на месяц;
ежемесячные — на полгода;
годовые — бессрочно.

Эти состояния таблиц можно пометить тегами и хранить согласно политике, обеспечивая соответствие требованиям и возможность обращения к важным версиям данных в будущем.

Временные ветки для тестов

Временные ветки, например test-branch, позволяют тестировать изменения без риска для основной таблицы. Они хранятся ограниченное время, после чего могут быть автоматически удалены.

Аудиторские ветки

Отдельная ветка может использоваться для валидации операций записи. Изменения сначала направляются в audit-branch, проходят проверки, и только после этого попадают в основную таблицу. Это обеспечивает контроль качества данных перед продакшеном.

Преимущества Iceberg

Независимость от каталога — работает со всеми каталогами Iceberg (Hive, AWS Glue, Dremio, Nessie и др.).
Без дополнительного сервиса — не требует отдельного компонента для версионирования.
Облачная и хранилищная независимость — не привязан к конкретному облаку или типу хранилища.
Поддержка сложных транзакций — с опциями вроде write.wap.enabled, поддерживает мульти-табличные транзакции.

Недостатки Iceberg

Ограничено одной таблицей — ветки и теги применимы только к отдельным таблицам, что усложняет координацию версий между несколькими таблицами.
Узкая применимость — специфичен для формата Iceberg, не может использоваться с другими форматами данных.

🪴 BLOG IT

Explorer