[Hpc-forum] Max. wall time?
milan.szori at gmail.com
milan.szori at gmail.com
2012. Sze. 14., P, 17:22:23 CEST
Kedves Kollegák!
Gondolataim a felvetésről általánosságban:
(1) Szerintem a szuperszámítógép a felhasználók számítási igényeinek
kielégítésére szolgál. A karbantartás kényelme is fontos, de nem lehet
fontosabb a felhasználók igényeinél. Az ilyen limitet nem erre találták ki.
(2) Ha ilyen limitet választanánk, akkor is inkább a felhasználók jobjainak
sorban állásának rövidítésére kellene szolgálnia (erre tudok példát).
Viszont a tapasztalataim szerint ez egyenlőre nem jellemző.
(3) Csatlakoznék Hegedűs Tamáshoz, szerintem is a problémát inkább
nagygyakoriságú rendszerkarbantartási igény okozza.
A felvetésben személyesen is megszólíttatva érzem magam, hiszen pár órája
kaptam egy ide vonatkozó levelet. Azt szeretném ha tudnák hogy a válaszom
NEM a rendszergazdák irányult. A konkrét esetemben a számolás során
használok checkpoint-ot (chk). Azért kértem hogy ne állítsák le a
jobjaimat, mert
(0) nemsokára befejeződnek és nem szeretnék 1 hónapos számítást kockáztatni,
mert
(1) a szegedi HPC gépen erre nem teszteltem a számításaimat:
(a) egy nem normális terminációjú számítás esetén merre lelek a chk filera,
van-e a könyvtárhoz hozzáférési jogom (ezt jelenleg ellenőrzöm).
(b) egy leállítás után automatikusan törlődik-e a chk file.
(c) egy megállított számolásnál a számítást melyik lépéstől kezdi újra.
Ígérem, amint lehetőségem nyílik ezen opciók leellenőrzésére, megteszem.
Üdv:
Milán
-----Original Message-----
From: Kristof Bajnok
Sent: Friday, September 14, 2012 2:39 PM
To: hpc-forum at listserv.niif.hu
Subject: [Hpc-forum] Max. wall time?
Kedves kollégák,
már sokadszorra kerülünk abba a helyzetbe, hogy egy-egy worker node-ot
hibajavítás miatt le kellene állítani, de van néhány felhasználói job,
amiknél nem tudjuk, mikor érnek véget, ill. újra lehet-e őket indítani.
Arra gondoltunk, hogy egy implicit maximum wall time-ot állítanánk be
(mondjuk 72 órát), amit felül lehetne bírálni, ámde ebben az esetben
"erősen javasoljuk" valamilyen checkpointing alkalmazását, mert a queue
letiltása után ennyi idővel nekilátunk a karbantartásnak.
Az a kérdésem, hogy ezt más HPC központokban hogy oldják meg?
Elfogadható lenne egy fentihez hasonló policy?
Üdv,
Kristóf
_______________________________________________
Hpc-forum mailing list
Hpc-forum at listserv.niif.hu
https://listserv.niif.hu/mailman/listinfo/hpc-forum
További információk a(z) Hpc-forum levelezőlistáról