[Hpc-forum] Max. wall time?
Kristof Bajnok
bajnokk at niif.hu
2012. Sze. 14., P, 14:39:49 CEST
Kedves kollégák,
már sokadszorra kerülünk abba a helyzetbe, hogy egy-egy worker node-ot
hibajavítás miatt le kellene állítani, de van néhány felhasználói job,
amiknél nem tudjuk, mikor érnek véget, ill. újra lehet-e őket indítani.
Arra gondoltunk, hogy egy implicit maximum wall time-ot állítanánk be
(mondjuk 72 órát), amit felül lehetne bírálni, ámde ebben az esetben
"erősen javasoljuk" valamilyen checkpointing alkalmazását, mert a queue
letiltása után ennyi idővel nekilátunk a karbantartásnak.
Az a kérdésem, hogy ezt más HPC központokban hogy oldják meg?
Elfogadható lenne egy fentihez hasonló policy?
Üdv,
Kristóf
További információk a(z) Hpc-forum levelezőlistáról