[Hpc-forum] Max. wall time?
Tamas Hegedus
tamas at hegelab.org
2012. Sze. 14., P, 16:26:05 CEST
Kedves Kristóf,
Én olyan HPC-ken dolgoztam, ahol eltérő queue-k voltak definiálva a maximum idő
szempontjából. Day és week volt a legáltalánosabb. S ezeket nem lehetett
felülírni. Azt gondolom, hogy ez kényszeríti a felhasználókat racionálisabb
tervezésre, illetve a felhasználók egyenlőbb erőforrás elosztását/felhasználását
is biztosítja. (Ha nem lehet felülbírálni, akkor a 72h kevés.)
Viszont a karbantartási dolgok miatt való kill-job extrém ritka volt. Félévente
egyszer ha előfordult... :-(
Nem a saját job-jaimra gondolok, hanem ott is jött olyankor egy email, hogy
ez-meg-az a node le lesz állítva... Az egy nagy szívfájdalmam, hogy ennyi
probléma van a magyar rendszerekkel. De persze tudom (gondolom), hogy a
rendszergazdáknak ez még kellemetlenebb.
Jó hétvégét,
Tamás
Kristof Bajnok wrote:
> Kedves kollégák,
>
> már sokadszorra kerülünk abba a helyzetbe, hogy egy-egy worker node-ot
> hibajavítás miatt le kellene állítani, de van néhány felhasználói job,
> amiknél nem tudjuk, mikor érnek véget, ill. újra lehet-e őket indítani.
>
> Arra gondoltunk, hogy egy implicit maximum wall time-ot állítanánk be
> (mondjuk 72 órát), amit felül lehetne bírálni, ámde ebben az esetben
> "erősen javasoljuk" valamilyen checkpointing alkalmazását, mert a queue
> letiltása után ennyi idővel nekilátunk a karbantartásnak.
>
> Az a kérdésem, hogy ezt más HPC központokban hogy oldják meg?
> Elfogadható lenne egy fentihez hasonló policy?
>
> Üdv,
> Kristóf
>
> _______________________________________________
> Hpc-forum mailing list
> Hpc-forum at listserv.niif.hu
> https://listserv.niif.hu/mailman/listinfo/hpc-forum
--
Tamas Hegedus, PhD
phone: (36) 1-459 1500/60233
fax: (36) 1-266 6656
mailto: tamas at hegelab.org
url: http://www.hegelab.org
További információk a(z) Hpc-forum levelezőlistáról