[Hpc-forum] GMX at Debrecen2 - Received the TERM signal

Ferenc Bartha barthaf at sol.cc.u-szeged.hu
2016. Már. 2., Sze, 09:23:38 CET


Kedves Attila!

Az orp lista aktualis.

Elnezve a gepen fellelheto nyomokat latom, hogy nem az altalam ajanlott script-tel es GMX csomaggal szamolsz. 
Igy nem sokat tudok hozzatenni.

Raktam egy acct parancsot a /tmp/barthaf helyre. Masold a bin-edbe es add ki, hogy acct. Nem art es magaert beszel, par soros, megerted az esetleges opciok (pl. acct -d <days_ago> -u <username> -j <JOB_ID>) szerepet.
Azt fogod latni, hogy 200 GB koruli memoriat probaltal hasznalni.

Az scontrol show job 57811 alapjan azt latom, hogy a default 1GB / SLOT a foglalasod. Ez okozhatja a hibat.

UdvFeri
  ----- Original Message ----- 
  From: Fekete Attila 
  To: hpc-forum at listserv.niif.hu 
  Sent: Wednesday, March 02, 2016 9:05 AM
  Subject: [Hpc-forum] GMX at Debrecen2 - Received the TERM signal


  Kedves Ferenc,


  Nem tudom, lehetséges, attól függ mennyire up-to-date az orphan -os lista. a cn004 node, például most nem szerepel ott, viszont nekem tegnap ami oda bekerült az ki is jött. a tegnapi kb 6 futásból 2 maradt meg mára, az egyik az előbb állt le a cn026 -on. Ez pl egy zsír új dinamika volt a slurm.out-ban ez :
  slurmstepd: *** JOB 57782 CANCELLED AT 2016-03-02T08:48:58 DUE TO NODE cn026 FAILURE ***


  más joboknál is ugyanez szerepel a slurm output végén, ezekkel a node -okkal: a cn047, cn012, cn004, cn003 fordul elő gyakran. minden leállt ezeken a node-okon.


  Köszi,
  A.






------------------------------------------------------------------------------


  _______________________________________________
  Hpc-forum mailing list
  Hpc-forum at listserv.niif.hu
  https://listserv.niif.hu/mailman/listinfo/hpc-forum
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: <https://listserv.niif.hu/pipermail/hpc-forum/attachments/20160302/2fe13de0/attachment-0001.html>


További információk a(z) Hpc-forum levelezőlistáról