✅ **Базовые вопросы

  1. Что такое SLURM и зачем он используется?

  2. Какие основные компоненты входят в архитектуру SLURM?

  3. Чем отличается srun от sbatch?

  4. Что делает команда squeue?

  5. Как отменить задание в SLURM?

  6. Что такое partition в контексте SLURM?

  7. Пример простого sbatch-скрипта.


⚙️ **Средний уровень

  1. Как настроить ограничение ресурсов для задачи (CPU, GPU, RAM)?

  2. Как работает планирование задач в SLURM? Какие существуют приоритеты?

  3. Что такое preemption и как её можно настроить?

  4. Как использовать SLURM для обучения моделей на нескольких GPU?

  5. Как задать зависимости между заданиями (job dependencies)?

  6. Что делать, если узел выходит из строя во время выполнения задания?


🧠 **Продвинутый уровень

  1. Как работает slurmctld и что происходит при его отказе?

  2. Что такое SLURM job arrays? В каких сценариях они полезны?

  3. Как реализовать учёт ресурсов и биллинг с помощью slurmdbd?

  4. Как организовать elastic кластер с auto-scaling через SLURM + AWS/GCP?

  5. Что такое cgroups и как они используются в SLURM?

  6. Опиши процедуру обновления SLURM в прод-среде без остановки задач.

  7. Как интегрировать SLURM с MLFlow или другими ML pipeline системами?


🛠️ Практические кейсы (Problem Solving)

  1. Пользователи жалуются на долгие очереди. Что ты проверишь?

  2. Один пользователь потребляет все ресурсы. Как ограничить?

  3. Как ты настроишь SLURM-кластер с GPU-нодами и обычными CPU-нодами?

  4. Как организовать логгинг и мониторинг задач?

  5. Опиши схему CI/CD для деплоя обучающих ML-заданий через SLURM.