[Hpc-forum] GMX at Debrecen2 - Received the TERM signal
Ferenc Bartha
barthaf at sol.cc.u-szeged.hu
2016. Már. 2., Sze, 09:23:38 CET
Kedves Attila!
Az orp lista aktualis.
Elnezve a gepen fellelheto nyomokat latom, hogy nem az altalam ajanlott script-tel es GMX csomaggal szamolsz.
Igy nem sokat tudok hozzatenni.
Raktam egy acct parancsot a /tmp/barthaf helyre. Masold a bin-edbe es add ki, hogy acct. Nem art es magaert beszel, par soros, megerted az esetleges opciok (pl. acct -d <days_ago> -u <username> -j <JOB_ID>) szerepet.
Azt fogod latni, hogy 200 GB koruli memoriat probaltal hasznalni.
Az scontrol show job 57811 alapjan azt latom, hogy a default 1GB / SLOT a foglalasod. Ez okozhatja a hibat.
UdvFeri
----- Original Message -----
From: Fekete Attila
To: hpc-forum at listserv.niif.hu
Sent: Wednesday, March 02, 2016 9:05 AM
Subject: [Hpc-forum] GMX at Debrecen2 - Received the TERM signal
Kedves Ferenc,
Nem tudom, lehetséges, attól függ mennyire up-to-date az orphan -os lista. a cn004 node, például most nem szerepel ott, viszont nekem tegnap ami oda bekerült az ki is jött. a tegnapi kb 6 futásból 2 maradt meg mára, az egyik az előbb állt le a cn026 -on. Ez pl egy zsír új dinamika volt a slurm.out-ban ez :
slurmstepd: *** JOB 57782 CANCELLED AT 2016-03-02T08:48:58 DUE TO NODE cn026 FAILURE ***
más joboknál is ugyanez szerepel a slurm output végén, ezekkel a node -okkal: a cn047, cn012, cn004, cn003 fordul elő gyakran. minden leállt ezeken a node-okon.
Köszi,
A.
------------------------------------------------------------------------------
_______________________________________________
Hpc-forum mailing list
Hpc-forum at listserv.niif.hu
https://listserv.niif.hu/mailman/listinfo/hpc-forum
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: <https://listserv.niif.hu/pipermail/hpc-forum/attachments/20160302/2fe13de0/attachment-0001.html>
További információk a(z) Hpc-forum levelezőlistáról