[Hpc-forum] Max. wall time?

Tamas Hegedus tamas at hegelab.org
2012. Sze. 14., P, 16:26:05 CEST


Kedves Kristóf,

Én olyan HPC-ken dolgoztam, ahol eltérő queue-k voltak definiálva a maximum idő 
szempontjából. Day és week volt a legáltalánosabb. S ezeket nem lehetett 
felülírni. Azt gondolom, hogy ez kényszeríti a felhasználókat racionálisabb 
tervezésre, illetve a felhasználók egyenlőbb erőforrás elosztását/felhasználását 
is biztosítja. (Ha nem lehet felülbírálni, akkor a 72h kevés.)

Viszont a karbantartási dolgok miatt való kill-job extrém ritka volt. Félévente 
egyszer ha előfordult... :-(
Nem a saját job-jaimra gondolok, hanem ott is jött olyankor egy email, hogy 
ez-meg-az a node le lesz állítva... Az egy nagy szívfájdalmam, hogy ennyi 
probléma van a magyar rendszerekkel. De persze tudom (gondolom), hogy a 
rendszergazdáknak ez még kellemetlenebb.

Jó hétvégét,
Tamás

Kristof Bajnok wrote:
> Kedves kollégák,
> 
> már sokadszorra kerülünk abba a helyzetbe, hogy egy-egy worker node-ot
> hibajavítás miatt le kellene állítani, de van néhány felhasználói job,
> amiknél nem tudjuk, mikor érnek véget, ill. újra lehet-e őket indítani.
> 
> Arra gondoltunk, hogy egy implicit maximum wall time-ot állítanánk be
> (mondjuk 72 órát), amit felül lehetne bírálni, ámde ebben az esetben
> "erősen javasoljuk" valamilyen checkpointing alkalmazását, mert a queue
> letiltása után ennyi idővel nekilátunk a karbantartásnak.
> 
> Az a kérdésem, hogy ezt más HPC központokban hogy oldják meg?
> Elfogadható lenne egy fentihez hasonló policy?
> 
> Üdv,
> Kristóf
> 
> _______________________________________________
> Hpc-forum mailing list
> Hpc-forum at listserv.niif.hu
> https://listserv.niif.hu/mailman/listinfo/hpc-forum


-- 
Tamas Hegedus, PhD
phone:  (36) 1-459 1500/60233
fax:    (36) 1-266 6656
mailto: tamas at hegelab.org
url:    http://www.hegelab.org



További információk a(z) Hpc-forum levelezőlistáról