Вперед: 2.9.2. Конфигурация PBS на кластерах ЦКП ЮГИНФО ЮФУ
Назад: 2.8.4. Утилита make
К содержанию: Оглавление


2.9. Система управления заданиями на вычислительных кластерах

Общая характеристика системы PBS

При запуске задания на вычислительных узлах кластера необходимо указывать список узлов, на которых будет выполняться задание. Этот список формируется либо непосредственно в командной строке запускающей команды, либо в командной строке указывается имя файла, содержащего список узлов. Такой запуск задания называется прямым запуском. Прямой запуск заданий имеет множество недостатков. Во-первых, он не позволяет буферизовать задания, во-вторых,в таком подходе на пользователя возлагается обязанность определять свободные в данный момент узлы и из этого набора выделять узлы для запуска своего задания. Но, даже если пользователь определил каким-то образом список свободных на данный момент узлов, то может оказаться, что пока он готовил свой файл со списком, ситуация на кластере уже изменилась. Зачастую, это приводит к тому, что какие-то узлы оказываются перегружеными процессами, а какие-то в это время простаивают. Очевидно, что наиболее разумным подходом является автоматизация выделения узлов каждому заданию. Как правило, эта функция возлагается на диспетчерские системы.

Для управления заданиями на высокопроизводительных вычислительных системах используется различные диспетчерские системы, назначение которых предоставить вычислительные ресурсы для задачи и осуществлять контроль над процессом выполнения задания. Как правило, все диспетчерские системы построены таким образом, что они устанавливают признак <занято> для тех узлов, на которых уже выполняется какое-то задание и, если для вновь поступившего задания нет свободных ресурсов, то оно буферизуется и ставится в очередь. Кроме того, диспетчерские системы позволяют проводить некоторую политику лимитов. К таким лимитам относятся - количество одновременно запущенных одним пользователем заданий; максимальное количество узлов, которое может одновременно захватить один пользователь; максимальное время решения задания и т. д. Наиболее широкое распространение на сегодняшний день получили различные реализации системы PBS (Portable Batch System). Имеются как коммерческие реализации, например, AltairR PBS ProfessionalT 7.0 , так и Open Source продукты - OpenPBS, Torque [26]. Основные характеристики свободно распростаняемой диспетчерской системы Torque:

PBS состоит из четырех основных модулей, каждый из которых может устанавливаться на одном или нескольких вычислительных узлах, обслуживаемых системой:



Вперед: 2.9.2. Конфигурация PBS на кластерах ЦКП ЮГИНФО ЮФУ
Назад: 2.8.4. Утилита make
К содержанию: Оглавление