Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
Aggiornamento situazione al 12 gennaio 2018
CNAF-INFN
1
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM
Aggiornamento della situazione
• Dopo l’emergenza dei primissimi giorni l’azione di recupero e riavviamento del centro sta proceduta su due linee principali:
• Analisi dell’incidente e definizione delle contromisure
• Recupero infrastrutture tecniche (Elettriche, Idrauliche, Edili, Calcolo e storage)
2
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM
Analisi dell’incidente e contromisure
• L’analisi dell’incidente sta seguendo 4 indirizzi
• Analisi della zona nell’intorno del punto di rottura della condotta per verificare
l’esistenza di ulteriori voragini e indirizzare i lavori di consolidamento al fine di evitare futuri allagamenti provenienti dal lato strada (geo-radar, 22/12)
• Analisi di tutti i pozzetti, vasche di raccolta e tubature che intercettano il sito del data center con il fine di mapparne la rete, pulirne ed eventualmente consolidarne la
struttura. (mappatura fatta, test in pressione dove possibile, alcune tubature sospette)
• Analisi di possibilità di infiltrazioni dai pavimenti del data center (geo-radar, 22/12)
• Analisi delle possibilità di infiltrazioni dalle pareti perimetrali del data center (verifica della porosità delle pareti a breve)
3
VERIFICA OK
DEFINITO UN PIANO
DI INTERVENTI
VERIFICA OK
IN PROGRAMMA
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM 4
1 3 2
1 2 3
Intervento sulla rete di tubature interne al centro.
Deviazione di tutte le tubature di acque piovane
Nessun contatto tra rete acque piovane e rete recupero condense Verifica impermeabilizzazione
murature esterne
Verifica infiltrazioni dai pavimenti
4
4
Analisi geofisica area sotterraneanell’intorno della rottura della condotta
Acque piovane
Recupero condense Pozzetti
IN ATTO
IN PROGRAMMA OK
OK, MA DA PROGETTARE BARRIERA DI BLOCCO INFILTRAZIONI DALLA STRADA
Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
3 Fasi di Intervento per il recupero totale del Power Center
• FASE 1: Garantire Potenza nelle sale tramite linea 1
• Ripristino quadro elettrico BT linea 1. Ordinato
• Inizio lavori 8/12/2017; fine lavori (previsione): 21/12/2017
• FASE 2: Garantire Continuità alla linea 1
• Ripristino quadro elettrico UPS 1
• Ordine in via di processamento
• Noleggio di un UPS statico da 300 kW (diesel in corso di verifica) per avere continuità su tutto lo storage
• FASE 3: Ridondare potenza nelle sale tramite linea 2
• Ripristino quadro elettrico BT linea 2. Da ordinare
• FASE 3: Garantire potenza e continuità alla linea 2 definendo una strategia di riavvio del centro che tenga presente :
• Rimborso dell’assicurazione sulla parte infrastrutturale al 100%
• Necessità di manutenzione straordinaria gruppi rotanti nel 2019
• Possibilità di trasloco al Tecnopolo
5
UR G EN TE SUB IT O D O PO
OK
Ordine ok, lavori iniziati, consegna fine febbraio
OK
• Indagine di mercato per UPS statico da 1.2 MW, TCO su 10 anni
• Anticipo manutenzione KS e configurazione mista (ENEL + KS)
Da ordinare
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM
Centrale Frigorifera
Infrastruttura elettrica: situazione Power Center prima del 9/11
6
Cella Gen.
15kV
QG-CA1 QGCF
Cella TR3 Cella
TR1
GE
Gruppi Frigo 1-3 APPARATI IT
2500 kVA
UPS-1 + GE
QG
UPS-1 UPS-2 +
GE UPS-2QG
QG-CA2
QGCF
Gruppi Frigo 4-6
APPARATI IT
Cella TR2
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM
Power line 2
Situazione al 12/01
7
Cella Gen.
15kV
QG-CA1 QGCF
Cella TR3 Cella
TR1
GE
Gruppi Frigo 1-3 APPARATI IT
UPS-1 + GE
QG
UPS-1 UPS-2 +
GE UPS-2QG
QG-CA2
QGCF
Gruppi Frigo 4-6
APPARATI IT
Cella TR2
Centrale Frigorifera
Da ordinare
Analisi per il da farsi
In tensione dal 19/12 Consegna 28/2
QG-CA1
UPS
Installato dal 11/01
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM
Infrastrutture idrauliche
• Gruppi frigoriferi principali in tensione, riavviamento lunedi 15/01
• Ripristinati i chiller interni (In-Row APC)
8
Update Situazione CNAF, Riunione dei Direttori, Presidenza INFN, 21 dicembre 2017, GM
Allarmistica
• Ripristinato sistema supervisione infrastrutture tecnologiche
• Sistema antincendio attivo dopo completa revisione e sostituzione di tutti i sensori rovinati dall’acqua
• Sistema antiallagamento (attivo e passivo) in corso di progettazione.
9
Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
Aggiornamento della time line per le infrastrutture
10
Feb 28
Power Line 1 No UPSON
Dec 19
Power Line 1 ON+
300 kW UPS + GE
Jan 8
Power Line 2 No UPSON
Power Line 1 ON
1.2 MW UPS + GE
25 Jan
Consolidamento Infrastruture idrauliche e edili
Jan 15 Jan 11
X
Jan 10X
Feb 15X
Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
Storage damages (December 2017)
• Nearly all storage disk systems involved
• 11 DDN JBODs (LHC, AMS)
• RAID parity affected
• 2 Huawei JBODs (all non-LHC experiments excepting AMS, Darkside, Virgo)
• 2 Dell JBODs including controllers (Darkside and
Virgo)
• Most critical - 2 trays out of 5 went underwater.
High probability of losing the data
• 4 disk-servers (4 Alice)
• All components ordered before Xmas break
12 Jan 2018 11
System PB JBODs Disks Involved experiments
Huawei 3.4 2 150 x 6 TB All CSN2 and 3 experiments excepting AMS, Darkside e Virgo
Dell 2.2 2 120 (48) x 4
TB Darkside and Virgo
DDN 1,2 1.8 4 ATLAS, Alice and LHCb
DDN 8 2.7 2 LHCb
DDN 9 3.8 2 CMS
DDN 10, 11 10 3+2 252 x 8 TB ATLAS, Alice and AMS
Total 23.9 9 ~4 PBytes
Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
Storage recovery roadmap
• Dell systems recovered
• Replacement of damaged parts only
• Compromised disks replaced during normal operations
• LUNs show optimal conditions
• Ready to be switched on (next week)
• DDN replacement parts to be delivered on 22/1
• Huawei replacement parts to be delivered not before 27/1
• DDN1, DDN2: damaged components replaced with spare parts: to be tested!
• Data on DDN8 (out of maintenance) will be moved onto new storage
• Disks of DDN8 will be used to replace wet disks of DDN9
• New storage (2017 tender) ~installed (cabling not completed)
• Delay for acceptance tests (at least 2 weeks)
12 Jan 2018 12
Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
Storage recovery status
(*) Replacement procedure: replacement of crates, switching on with old disks, verification of the integrity of the data and then replacement, one by one, of the disks
12 Jan 2018 13
System PB Strategy Involved experiments Status
Huawei 3.4 Replacement of damaged components
All CSN2 and 3 experiments excepting
AMS, Darkside e Virgo ETA> 27/1 Dell 2.2 Replacement of
damaged
components Darkside and Virgo OK
DDN1,2 1.8 Move data to
new storage ATLAS, Alice and LHCb To be tested DDN 8 2.7 Move data to
new storage LHCb DDN 9 3.8 Repaired using
DDN8 disks CMS DDN 10, 11 10 Replacement of
damaged
components ATLAS, Alice and AMS ETA: 22/1
Total 23.9
Briefing settimanale stato Tier1, CNAF, 12 gennaio 2017, LD, GM
Tape library recovery status
• Floating floor substituted
• Internal cleaning completed
• Remount operations will be completed on 17/1
• Recertification of the system (in order to reenter in standard maintenance support) will start on 17/1
• Replacement of damaged components (probably) not blocking
• 2 arms of the library can be replaced after recertification
• Recovery of wet tapes started
12 Jan 2018 14