✅ **Базовые вопросы
⚙️ **Средний уровень
-
Как настроить ограничение ресурсов для задачи (CPU, GPU, RAM)?
-
Как работает планирование задач в SLURM? Какие существуют приоритеты?
-
Как использовать SLURM для обучения моделей на нескольких GPU?
-
Как задать зависимости между заданиями (job dependencies)?
-
Что делать, если узел выходит из строя во время выполнения задания?
🧠 **Продвинутый уровень
-
Как работает slurmctld и что происходит при его отказе?
-
Что такое SLURM job arrays? В каких сценариях они полезны?
-
Как реализовать учёт ресурсов и биллинг с помощью slurmdbd?
-
Как организовать elastic кластер с auto-scaling через SLURM + AWS/GCP?
-
Что такое cgroups и как они используются в SLURM?
-
Опиши процедуру обновления SLURM в прод-среде без остановки задач.
-
Как интегрировать SLURM с MLFlow или другими ML pipeline системами?
🛠️ Практические кейсы (Problem Solving)
-
Пользователи жалуются на долгие очереди. Что ты проверишь?
-
Один пользователь потребляет все ресурсы. Как ограничить?
-
Как ты настроишь SLURM-кластер с GPU-нодами и обычными CPU-нодами?
-
Как организовать логгинг и мониторинг задач?
-
Опиши схему CI/CD для деплоя обучающих ML-заданий через SLURM.