Вперед: 2.9.3. Работа с вычислительными ресурсами через диспетчерскую систему
Назад: 2.9.1. Общая характеристика систем управления заданиями
К содержанию: Оглавление


2.9.2. Конфигурация PBS на кластерах ЦКП ЮГИНФО ЮФУ

В настоящее время системой PBS в суперкомпьютерном центре ЮФУ обслуживаются следующие вычислительные ресурсы:

В соответствии с этим создано три очереди, по одной для каждой архитектуры с именами TP, IBMX, WSD. Внутри каждой из очередей дополнительного разбиения (например, по времени решения задачи) не сделано. Используется устанавливаемый по умолчанию планировщик FIFO (первый вошел первый вышел), сконфигурированный для эксклюзивного выполнения одного счетного процесса на каждом из узлов. PBS автоматически распределяет задания по свободным узлам заданной архитектуры.

Каждую из программ, запускаемую на кластере можно отнести к одному из четырех типов.

  1. Обычная однопроцессорная последовательная программа занимает один узел и задействует одно ядро, и ни каким образом не может использовать дополнительные ядра.
  2. Параллельная многонитевая OpenMP программа. Занимает один узел и задействует несколько ядер. По умолчанию захватывает все ядра узла. Не всегда использование программой всех ядер в узле позволяет получить максимальную производительность. Регулируется количество ядер занимаемых программой переменной окружения OMP_NUM_THREADS. Она может быть задана либо в конфигурационном файле пользователя .bashrc или в запускающем скрипте.
  3. Параллельная многоузловая MPI программа. Захватывает несколько узлов, в каждом из которых может быть задействовано либо одно, либо несколько ядер. (Это возможно, если на узле запускается несколько MPI процессов. Например, можно заказать 2 узла, но командой mpirun запустить 4 процесса).
  4. Гибридная многоузловая многонитевая MPI+OpenMP программа. Захватывает несколько узлов, в каждом из которых может быть задействовано несколько ядер (путем выполнения многонитевого процесса). Для таких программ только эмпирическим путем можно установить оптимальное число нитей на узле.

Описанное выше многообразие типов программ и вычислительных кластеров прекрасно управляется единой диспетчерской системой семейства OpenPBS (Torque), установленной на специально выделенном сервере, не входящего в состав ни одного из кластеров.



Вперед: 2.9.3. Работа с вычислительными ресурсами через диспетчерскую систему
Назад: 2.9.1. Общая характеристика систем управления заданиями
К содержанию: Оглавление