[Hpc-forum] Max. wall time?

milan.szori at gmail.com milan.szori at gmail.com
2012. Sze. 14., P, 17:22:23 CEST


Kedves Kollegák!

Gondolataim a felvetésről általánosságban:
(1) Szerintem a szuperszámítógép a felhasználók számítási igényeinek 
kielégítésére szolgál. A karbantartás kényelme is fontos, de nem lehet 
fontosabb a felhasználók igényeinél. Az ilyen limitet nem erre találták ki.
(2) Ha ilyen limitet választanánk, akkor is inkább a felhasználók jobjainak 
sorban állásának rövidítésére kellene szolgálnia (erre tudok példát). 
Viszont a tapasztalataim szerint ez egyenlőre nem jellemző.
(3) Csatlakoznék Hegedűs Tamáshoz, szerintem is a problémát inkább 
nagygyakoriságú rendszerkarbantartási igény okozza.

A felvetésben személyesen is megszólíttatva érzem magam, hiszen pár órája 
kaptam egy ide vonatkozó levelet. Azt szeretném ha tudnák hogy a válaszom 
NEM a rendszergazdák irányult. A konkrét esetemben a számolás során 
használok checkpoint-ot (chk).  Azért kértem hogy ne állítsák le a 
jobjaimat, mert
(0) nemsokára befejeződnek és nem szeretnék 1 hónapos számítást kockáztatni, 
mert
(1) a szegedi HPC gépen erre nem teszteltem a számításaimat:
(a) egy nem normális terminációjú számítás esetén merre lelek a chk filera, 
van-e a könyvtárhoz hozzáférési jogom (ezt jelenleg ellenőrzöm).
(b) egy leállítás után automatikusan törlődik-e a chk file.
(c) egy megállított számolásnál a számítást melyik lépéstől kezdi újra.
Ígérem, amint lehetőségem nyílik ezen opciók leellenőrzésére, megteszem.

Üdv:
Milán

-----Original Message----- 
From: Kristof Bajnok
Sent: Friday, September 14, 2012 2:39 PM
To: hpc-forum at listserv.niif.hu
Subject: [Hpc-forum] Max. wall time?

Kedves kollégák,

már sokadszorra kerülünk abba a helyzetbe, hogy egy-egy worker node-ot
hibajavítás miatt le kellene állítani, de van néhány felhasználói job,
amiknél nem tudjuk, mikor érnek véget, ill. újra lehet-e őket indítani.

Arra gondoltunk, hogy egy implicit maximum wall time-ot állítanánk be
(mondjuk 72 órát), amit felül lehetne bírálni, ámde ebben az esetben
"erősen javasoljuk" valamilyen checkpointing alkalmazását, mert a queue
letiltása után ennyi idővel nekilátunk a karbantartásnak.

Az a kérdésem, hogy ezt más HPC központokban hogy oldják meg?
Elfogadható lenne egy fentihez hasonló policy?

Üdv,
Kristóf

_______________________________________________
Hpc-forum mailing list
Hpc-forum at listserv.niif.hu
https://listserv.niif.hu/mailman/listinfo/hpc-forum 




További információk a(z) Hpc-forum levelezőlistáról