шардированная архитектура

Что такое шардированная архитектура?

Шардированная архитектура — это техника масштабирования баз данных, при которой данные горизонтально разделяются между несколькими серверами (шардами). Каждый шард содержит подмножество всех данных, что снижает нагрузку на отдельный экземпляр базы данных и позволяет добиться лучшей производительности, масштабируемости и отказоустойчивости.

Как работает шардирование?

Данные делятся на меньшие части (шарды) на основе заранее определенной стратегии.
Каждый шард хранится на отдельном узле базы данных, что позволяет распределить запросы по нескольким машинам.
Когда выполняется запрос, система определяет, какие шарды содержат необходимые данные, и эффективно извлекает результаты.

Типы стратегий шардирования

Тип шардирования	Как работает	Преимущества	Недостатки
Шардирование по диапазону	Данные делятся по диапазонам значений (например, user_id 1-1000 — Shard 1, 1001-2000 — Shard 2)	Простота реализации, эффективные запросы по диапазонам	Может привести к образованию горячих точек (неравномерное распределение данных)
Шардирование по хешу	Хеш-функция определяет, какой шард хранит каждую запись (например, HASH(user_id) % num_shards)	Равномерное распределение данных, предотвращает горячие точки	Сложнее выполнять запросы через шарды, перераспределение данных сложно
Шардирование по списку	Данные распределяются по категориям (например, данные США в Shard 1, данные ЕС в Shard 2)	Полезно, когда данные естественно разделены на категории	Неравномерная нагрузка, если некоторые категории более активны
Шардирование по географии	Пользователи распределяются по шартам на основе местоположения (например, Азия в Shard 1, Европа в Shard 2)	Улучшает производительность за счет снижения задержки	Требует тщательной карты регионов
Комбинированное (гибридное) шардирование	Комбинация двух или более техник шардирования (например, по географии + по хешу)	Гибкость, оптимизация для масштабных данных	Усложнение системы

Пример шардирования в действии

Предположим, у нас есть приложение для электронной коммерции с миллионами пользователей и заказов. Вместо того чтобы хранить все в одной базе данных, шардирование может разделить данные между несколькими базами данных.

До шардирования (одна база данных):

User ID	Имя	Заказы
1	Alice	5
2	Bob	3
3	Carol	8

Проблема: Одна база данных перегружается, запросы замедляются.

После шардирования (по хешу):

Shard 1 (User ID 1)	Shard 2 (User ID 2)
User ID 1 (Alice)	User ID 2 (Bob)
User ID 3 (Carol)	User ID 4 (David)

Преимущество: Запросы распределяются между несколькими шардми, что улучшает производительность.

Шардирование в ClickHouse

ClickHouse поддерживает шардирование с использованием движка распределенных таблиц:

Запросы автоматически отправляются на соответствующие шарды.
Каждый шард — это независимый узел ClickHouse, который обрабатывает свои данные.
ClickHouse использует репликацию + шардирование для обеспечения масштабируемости и отказоустойчивости.

Пример создания распределенной таблицы в ClickHouse:

CREATE TABLE distributed_table 
ENGINE = Distributed(cluster_name, database_name, local_table_name, user_hash_function);

cluster_name: Имя кластера ClickHouse.
database_name: База данных, в которой хранится таблица.
local_table_name: Реальное имя таблицы в каждом шарде.
user_hash_function: Определяет, как данные распределяются.

Сравнение: Шардирование vs. Репликация

Характеристика	Шардирование	Репликация
Цель	Распределение данных между узлами для масштабируемости	Копирование данных между узлами для избыточности
Улучшения	Масштабируемость как для чтения, так и для записи	Отказоустойчивость, производительность чтения
Хранение данных	Каждый узел хранит часть данных	Каждый узел хранит полную копию данных
Применение	Большие наборы данных, которые превышают емкость одного узла	Обеспечение высокой доступности и отказоустойчивости
Пример	Распределенные таблицы ClickHouse	ReplicatedMergeTree ClickHouse

Преимущества и недостатки шардированной архитектуры

✅ Масштабируемость — эффективно обрабатывает огромные объемы данных и запросов.
✅ Производительность — запросы выполняются быстрее, поскольку каждый шард обрабатывает меньший набор данных.
✅ Отказоустойчивость — если один шард выходит из строя, остальные продолжают работать.

❌ Сложность — управление несколькими шардми требует тщательного планирования.
❌ Запросы через шарды — соединения между шардами могут быть медленными.
❌ Проблемы с перераспределением — если шарды становятся несбалансированными, перераспределение данных может быть дорогим.

🪴 BLOG IT

Explorer