[Hpc-forum] Max. wall time?

Kristof Bajnok bajnokk at niif.hu
2012. Sze. 14., P, 14:39:49 CEST


Kedves kollégák,

már sokadszorra kerülünk abba a helyzetbe, hogy egy-egy worker node-ot
hibajavítás miatt le kellene állítani, de van néhány felhasználói job,
amiknél nem tudjuk, mikor érnek véget, ill. újra lehet-e őket indítani.

Arra gondoltunk, hogy egy implicit maximum wall time-ot állítanánk be
(mondjuk 72 órát), amit felül lehetne bírálni, ámde ebben az esetben
"erősen javasoljuk" valamilyen checkpointing alkalmazását, mert a queue
letiltása után ennyi idővel nekilátunk a karbantartásnak.

Az a kérdésem, hogy ezt más HPC központokban hogy oldják meg?
Elfogadható lenne egy fentihez hasonló policy?

Üdv,
Kristóf



További információk a(z) Hpc-forum levelezőlistáról