ALICE: piano CCRC, stato,
risultati, problemi
Stefano Bagnasco, ALICE
April running profile
April se availability
Some issues from mar -apr running
●
Average file sizes too low (inefficient tape writing)
■ RAW data chunks size 1GB->10GB
•
Subsequently ESDs 0.1 GB->1GB (without any further consolidation)●
Too many (repeat) mounts of same tapes (inefficient robot usage)
■ Pre-staging of datasets targeted for FTS replication
•
For ‘late’ transfers – files no longer in disk buffer■ Optimization of MSS mount points
•
Separate for RAW data and ESDs■ Use of file archives
•
Betev
Offline tasks in May CCRC 08
●
Registration of data in CASTOR2 (T0) and on the GRID
●
Replication T0->T1
●
Conditions data gathering and publication on the GRID
●
Quasi-online reconstruction – Special emphasis
■ Pass 1 at T0
■ Pass 2 at T1s
■ Replication of ESDs to CAF/T2s
●
Quality control
●
MC production and user analysis at CAF/T2s – Scaling up of CAF
Storage requirement at Tier 1s
●
Additional resources needed for May
■
80% pp scenario
●
Disk will store ESDs from RAW
■
Assuming ESD+other files 20% of RAW
Tier 1 site Disk space (TB) Tape space (TB)
CCIN2P3 (15%) 3 14
CNAF (15%) 3 14
GridKA (45%) 9 44 (already deployed)
NDGF (15%) 3 14
RAL (5%) 1 5
T1-NL (5%) 1 5
Betev
CASTOR mountpoints
CNAF: Stato CE e SE
●
Stato servizi: OK
■ dopo qualche problema con la configurazione dell’utente alicesgm
●
CE: I job sono ripartiti correttamente venerdì pomeriggio (figura)
●
SE: Attualmente non abbiamo fatto ancora nessuna prova di FTS
■ un problema di configurazione sull’endpoint al CNAF che dovrebbe essere stato risolto da Dejan)
Class Staged:
GB (Files)
Migrated:
GB (Files)
T1D0 825.870 (2966)
3214.648 (7364)
F. Noferini
Cnaf: Stato vo-box
●
È stato aggiornato il sistema operativo alla versione SLC4 e a glite3.1 con il supporto del farming.
●
Installazione dei pacchetti Castor 2.1.6 (Dejan)
●
Per ragioni di tempo la macchina è stata installatata a mano e sarà da quattorizzare in tempi brevi (CCRC
permettendo).
●
Il problema di ‘kernel panic’ delle settimane scorse, dovuto all’esplosione "
del numero di jobs sulla "
VOBox, sembra essere "
rientrato a seguito di "
aggiornamenti di AliEn.
■ Attualmente il numero dei "
processi FTD è sotto " oferini
Tier-2: stato upgrade vobox
●
Torino: OK
■ Ancora con solo 30 job slot per lavori in sala macchine
●
Catania: OK
■ Problemi minimi rapidamente risolti
●
Bari: OK
■ La VO-Box è x86_64, l’upgrade ha richiesto qualche operazione in più per far funzionare i pacchetti gLite (P. Mendez)
●
Cagliari: downtime
■ Ma l’upgrade dovrebbe essere stato completato
●
Legnaro: OK
■ Piccola riconfigurazione necessaria per il cambio dell’hostname.
Problema di reporting del numero di job running, risolto (C.
Tier-2: stato storage
●
Torino (DPM)
■
Running, è stato brevemente in produzione
●
Cagliari (DPM)
■
Installato e funzionante, ma non in produzione
●
Bari (dCache)
■
Un problema con la configurazione di un nuovo pool
■
Lo splitting del database richiede la temporanea migrazione dei dati in un altro sito
●
Legnaro (dCache)
■
Necessario/utile anche qui lo splitting del DB?
Attivita in maggio
●
Generali
■ «Graduale» introduzione del WMS
■ In ritardo rispetto al previsto (settimana in corso)
■ Decommissioning dei RB
■ Quasi-online reconstruction
●
Tier-1
■ Upgrade server xrootd (hardware)
■ Verifiche della performance
■ Test di accesso
■ Esportazione dei dati dal T-0
■ Ricostruzione (pass 2)
●
Tier-2
■ Test di accesso allo storage
■ Miglioramento della stabilità degli SE