• Non ci sono risultati.

La gestione dei dati per l'esperimento AMS

N/A
N/A
Protected

Academic year: 2021

Condividi "La gestione dei dati per l'esperimento AMS"

Copied!
4
0
0

Testo completo

(1)

SCIENZE

4 BOLLETTINO DEL CILEA N. 78 GIUGNO 2001

La gestione dei dati per l'esperimento AMS

Matteo Boschini

CILEA, Segrate

Abstract

Viene presentato lo stato del progetto CILEA-AMS, con particolare attenzione alle tecnologie di banche dati e agli applicativi di rete che sono alla base del prototipo di quanto verrà usato a bordo della

International Space Station Alpha.

Keywords: Scienze,Database, Networking

Introduzione

Dal 1997 il CILEA partecipa in maniera attiva al progetto AMS ([1],[2]) in collaborazione con la sezione di Milano dell’I.N.F.N.; in particolare l’attività si sta attualmente concentrando su quanto sarà necessario alla presa dati a bordo della International Space Station Alpha. In tale ottica quanto svolto per la missione a bordo dello Shuttle STS-91 del 1998 è servito da banco di prova, esattamente come per lo spettrometro.

L’esperimento AMS

L’esperimento AMS (Anti Matter Spectrometer) [3] è un esperimento di fisica delle alte energie a bordo di vettori spaziali, volto alla misura di alcune grandezze cosmologiche di notevole importanza per la loro ricaduta sui diversi modelli teorici. In particolare la misura del rapporto materia-antimateria e la rivelazione della cosiddetta materia oscura giocano un ruolo chiave nei diversi modelli di formazione dell’universo. L’esperimento ha avuto una prima fase di presa dati nel giugno 1998 a bordo del volo STS-91 dello Space Shuttle. Tale missione aveva come scopo primario la messa a punto dell’apparato e delle procedure di analisi dati in vista della missione di 3 anni a bordo della ISSA (International Space Station Alpha). Tale approccio si applica anche a quanto svolto dal C.I.L.E.A. in collaborazione con la sezione di Milano dell’I.N.F.N. in materia di gestione dei dati ([4]).

Tuttavia l’ampio campione di dati raccolti durante la missione STS-91 ha permesso alcune interessanti misure. In particolare è stato possibile effettuare misure dei flussi di

diversi tipi di particelle o nuclei leggeri primari in funzione della posizione nel campo geomagnetico ([5]-[7]).

La missione a bordo di ISSA, nota come AMS-02, dovrebbe iniziare la presa dati nella seconda metà del 2004. Lo spettrometro sarà dotato di un più sofisticato sistema di tracciamento e di un nuovo sistema di riconoscimento delle particelle.

Il flusso dei dati

Come per qualsiasi esperimento delle alte energie, il flusso dei dati, sia fisico che logico, riveste un ruolo importante anche per AMS-02, con la peculiarità del fatto che trattandosi di un esperimento spaziale, la trasmissione dall’apparato al sistema di analisi è meno lineare. Tale flusso può essere brevemente riassunto nel seguente modo:

1) raccolta dei dati da parte dell’apparato sperimentale (dati RAW);

2) trasferimento da ISSA al Point of Control a terra;

3) trasferimento dal POC al sistema di ricostruzione1 centrale, CPF;

4) distribuzione dei dati ai collaboratori. Un simile flusso, ma in senso inverso, devono seguire i cosiddetti tele-comandi, ovvero l’insieme di comandi che da terra controllano l’apparato sperimentale a bordo di ISSA. A differenza di quanto accaduto durante la missione STS-91, AMS-02 sarà abilitata a

1 Per ricostruzione si intende qui tutto il processo

che, a partire dai dati raccolti dall’apparato, restituisce grandezze di tipo fisico, quali massa o carica, necessarie alle analisi di fisica.

(2)

SCIENZE

BOLLETTINO DEL CILEA N. 78 GIUGNO 2001 5

trasmettere da ISSA a terra solo durante alcune finestre temporali, con una ampiezza di banda variabile tra 2 e 15 Mbit/s. Tuttavia ci si aspetta che, mediando sulla durata dell’intera missione, il rate con cui AMS-02 invierà dati a terra sarà di circa 2 Mbit/s. Sarà quindi questo il valore minimo rispetto al quale andranno tarate le procedure di trasmissione e analisi dati. Il campione totale di dati RAW attesi è di circa 45 Tbyte per i 3 anni di missione.

Per quanto riguarda invece i cosidetti dati ricostruiti, poiché le variabili ricostruite sono più complesse dei segnali raccolti dallo spettrometro e sono soggette all’algoritmo di ricostruzione che potrebbe venir modificato e migliorato nell’arco dei 3 anni, ci aspetta un campione di circa 150 Tbyte per i 3 anni di missione, corrispondenti a un flusso medio di circa 8 Mbit/s, rispetto al quale andranno dimensionate le procedure di distribuzione dei dati ricostruiti.

Ad oggi si prevede che:

ü il POC sarà presso il Marshal Space Center della NASA a Hunstville, USA;

ü i dati verranno da lì trasferiti al MIT di Boston e poi al CERN a Ginevra;

ü CPF sarà presso il CERN a Ginevra.

La collaborazione intera ed in particolare i suoi membri italiani ritengono utile, se non necessario, avere in Italia una copia completa di tutto il campione di dati (sia RAW che ricostruiti). Questo da un lato costituisce una copia di back-up dei dati dell’esperimento, dall’altro permette un più facile accesso ai dati da parte dei membri italiani della collaborazione. Ad oggi si prevede che tale centro sarà presso il centro ESRIN dell’Agenzia Spaziale Italiana a Frascati. Il flusso appena descritto è schematizzato nella seguente figura.

Fig. 1 - Schema del flusso dei dati

La ricostruzione dei dati

La ricostruzione dei dati avverrà presso la Central Production Facility, al CERN di Ginevra. I dati saranno trasferiti dal POC per mezzo del sistema TreK (Telescience Resource Kit) ([9]), che si basa su tecnologie standard di trasmissione dati e hardware di uso comune, quali PC.

Man mano che i dati arriveranno al CERN verranno sottoposti al sistema di ricostruzione. Tale sistema, completamente sviluppato dalla collaborazione, è costituito da un insieme di programmi (f77 e C++) che “trasformano” le informazioni dello spettrometro in quantità fisiche. E’ costituito da una farm di PC Linux, dalla potenza di calcolo complessiva di circa 40000 SPECInt2000 e si basa su una architettura di tipo CORBA che permette la “comunicazione” tra i vari PC, il sistema di archiviazione dati e il database (Oracle) contenente tutte le quantità necessarie alla ricostruzione2. Il

sistema esiste in forma ridotta e nel Giugno 2001 verrà usato per processare il campione di dati di AMS-01.

Per il sistema di ricostruzione, il C.I.L.E.A. e la sezione di Milano dell’I.N.F.N. hanno studiato alcune caratteristiche di Oracle 8i, in particolare l’efficienza in termini di uso di spazio disco dei Binary Large Objects e dei Binary Indexes ([10]). In particolare si sono studiati gli effetti sull’occupazione di spazio disco dei parametri di block-size interni di Oracle rispetto a quelli del file system su cui la banca dati risiede. Inoltre, sempre in collaborazione con l’AMS Software Group, è stata sviluppata una interfaccia grafica (in Perl5 e GTK [11],[12]) al sistema di produzione e al database.

La distribuzione dei dati

Al fine di non sovraccaricare il sistema di produzione, si è deciso che l’accesso ai dati, sia RAW che ricostruiti, avverrà non direttamente dalla CPF, bensì da un Scientific Data Center, che, almeno per la collaborazione italiana, sarà presso una sede dell’Agenzia Spaziale Italiana.

2Essenzialmente dati di calibrazione dell’apparato e

informazioni su ISSA.

MSC-MIT

AMS High Rate Data Link AMS Slow Rate Data Link AMS REconstructed, M.C. and Raw Data Telecommands

AMS Data/Commands Management

CERN Scientific Data Management INFN-Milano INFN-Pisa INFN-Perugia INFN-Bo GARR Network INFN-ASI data repository INFN CERN Scientific Data Source

(3)

SCIENZE

6 BOLLETTINO DEL CILEA N. 78 GIUGNO 2001

Attualmente il Scientific Data Center italiano è ancora in una primissima fase di definizione e di progettazione.

E’ invece in stato avanzato di implementazione, da parte C.I.L.E.A. e I.N.F.N. - Milano, il sistema che si dovrà occupare di trasferire i dati e di organizzarli in una banca dati.

Fig.2 - Schema del sistema di trasferimento Il prototipo del pacchetto software dedicato al trasferimento realizzato a tutt’oggi, si basa su un’architettura a client/server TCP/IP (vedi figura), che garantisce una totale flessibilità, ovvero può essere utilizzato per qualsiasi tipo di dati (e formato di dati) e per qualsiasi tipo di piattaforma (sia SW che HW). Il client, installato presso il Data Source (cioè al CERN) e operante in modalità daemon, viene notificato della disponibilità di dati nuovi. Con tale informazione viene aggiornato un database locale. Contemporaneamente invia questa informazione al server, installato presso il Data Target (cioè al Centro Regionale o presso un laboratorio), che inizia il trasferimento dei dati. In maniera sincrona il server aggiorna un transfer-DB, contenente il path al file trasferito, il suo checksum ed eventuali errori o ri-trasferimenti.

L’implementazione attuale si basa su programmi Perl5 e ANSI-C che fanno uso di socket TCP/IP. Il protocollo di trasferimento effettivo dei dati è, al momento, OpenSsh-scp ([13]), che, oltre alla criptazione, permette anche un risparmio in termini di uso di banda passante grazie all’efficace algoritmo di compressione. Per ragioni di possibile compatibilità con NASA, il sistema di DB fa uso di MySql ([14]), uno dei più affidabili ed

efficienti RDBMS OpenSource. Grazie alla flessibilità del Data Base Driver DBI/DBD ([15]) di Perl5 è possibile passare in maniera trasparente da un RDBMS all’altro. Questa funzionalità è stata provata passando da Oracle a MySql e viceversa modificando solo una opzione da linea di comando.

Il sistema è in fase di test da diverse settimane, durante le quali sono stati trasferiti dal CERN a Milano circa 13000 file di AMS-01, per un totale di circa 300 Gbyte. La seguente figura mostra un esempio dell’occupazione di banda durante il trasferimento, rendendo evidenti l’effetto della compressione (banda utilizzata media 2 Mb/s con un effective throughput di 12 Mb/s) e la presenza di alcuni picchi corrispondenti alle procedure di recovery automatica che assicurano un ritrasferimento di file che per un qualche motivo sono andati persi.

Fig.3 - Occupazione di banda3 per 3 settimane di trasferimenti. Si noti l’uso di banda raddoppiato in caso di recovery.

Attualmente è in fase di sviluppo una nuova versione del client/server che invece di far uso di socket tradizionali ed affidare la parte di criptazione e trasferimento ad OpenSsh, fa uso del Secure Socket Layer OpenSsl attraverso la sua interfaccia Perl5. Tale soluzione, che richiede tra l’altro l’uso di una Certification Authority che, ad oggi, si prevede verrà implementata per mezzo di OpenCA([16]), permette di scegliere il livello di criptazione più consono all’applicazione

3Figura ottenuta con RRD Tool

(http://people.ee.ethz.ch/~oetiker/webtools/rrdtool/) e Cricket (http://cricket.sourceforge.net/)

(4)

SCIENZE

BOLLETTINO DEL CILEA N. 78 GIUGNO 2001 7

(ovvero, della sola parte di transazione iniziale tra client e server) e di utilizzare un protocollo di trasferimento di basso livello e quindi più veloce.

Si stanno inoltre implementando i tool grafici di gestione e monitoraggio dell’intero sistema, necessari per poter gestire in maniera semplice un trasferimento di circa 200 Tbyte su 3 anni.

Parallelamente si stanno sviluppando le procedure di “catalogazione” dei dati. L’esperienza di AMS-01 ha infatti dimostrato come non sia fondamentale immagazzinare i dati stessi in un DataBase, bensì creare una “infrastruttura a catalogo” che consenta di accedere in maniera rapida ed efficace ad un particolare sottoinsieme di dati, selezionandolo tra l’enorme campione a disposizione. L’implementazione attuale è in grado di organizzare i dati RAW in un DB a circa 20 Mbit/s e i dati ricostruiti a circa 15 Mbit/s, consentendo quindi la creazione di una struttura di banca dati in tempo reale, non appena i dati siano disponibili presso il Scientific Data Center.

Conclusioni

La prima fase del progetto, dal 1997 al 2000, relativa alla presa dati AMS-01 è stata un fondamentale banco di prova per metodi di gestione e catalogazione dei dati.

E’ stato quindi possibile implementare le versioni prototipali di tutte le procedure che saranno necessarie per la presa dati a bordo della International Space Station Alpha. In particolare il sistema di trasferimento, basato su ben noti e consolidati pacchetti OpenSource è alla base di quanto verrà utilizzato anche da parte dell’ASI per implementare il Scientific Data Center Italiano.

Bibliografia

[1] M. Boschini, L. Trombetta, “Un DataBase Oracle per l'esperimento AMS”, Bollettino del C.I.L.E.A., Settembre 1998

[2] M. Boschini, L. Trombetta “Il DataBase per AMS a un anno dal volo dello Space Shuttle STS-91”, Bollettino del C.I.L.E.A., Giugno 1999

[3] http://ams.cern.ch

[4] M. Boschini et al., ”An Oracle (c) database for the AMS experiment”, NUCL PHYS B-PROC SUP 78: 727-731, Aug. 1999

[5] J. Alcaraz, B. Alpat, G. Ambrosi et al.,”Helium in near Earth orbit”, PHYS LETT B 494: (3-4) 193-202, Nov. 30 2000

[6] J. Alcaraz, B. Alpat, G. Ambrosi et al., “Cosmic protons”, PHYS LETT B 490: (1-2) 27-35, Sep. 28 2000

[7] J. Alcaraz, B. Alpat, G. Ambrosi et al., “Leptons in near earth orbit”, PHYS LETT B 484: (1-2) 10-22 Jun. 29 2000

[8] J. Alcaraz, D. Alvisi, B. Alpat et al., “Protons in near earth orbit”, PHYS LETT B 472: (1-2) 215-226 Jan. 13 2000

[9] http://payloads.msfc.nasa.gov/trek

[10] M. Boschini, M. Mezzadri “AMS Data Organization Milano Group Progress Report”, AMS Internal Note, September 2000.

[11] http://www.perl.org [12] http://www.gtk.org [13] http://www.openssh.org [14] http://www.mysql.com [15] http://www.cpan.org [16] http://www.openca.org

Figura

Fig. 1 - Schema del flusso dei dati

Riferimenti

Documenti correlati

• • Se il risultato del test di ipotesi SUPERA Se il risultato del test di ipotesi SUPERA il il valore critico, allora la valore critico , allora la differenza fra i gruppi

Per misurare lo spettro Compton, la lettura dell’ampiezza di impulso nel cristal- lo pu`o essere comandata dalla coincidenza tra il segnale dell’elettrone di rinculo nello

Maugis, hanno realizzato pi` u serie d’esperimenti su tali basi, cercando di capire come evolvesse la frattura sotto opportune condizioni iniziali, in par- ticolare come fosse legata

I dati personali richiesti e da Lei forniti sono oggetto di raccolta, registrazione, organizza- zione, conservazione, consultazione, elaborazione, modificazione, selezione,

Ai sensi dell'articolo 13 del regolamento UE 2016/679 del Parlamento europeo e del Consiglio del 27 Aprile 2016 (Regolamento generale sulla protezione dei dati) desideriamo

Fonti di stato - censimenti Fonti di flusso - stato civile... Caratteristiche

L’algoritmo proposto, a seguito della definizione della legge di risposta della superficie riflettente e della legge di divergenza del raggio emesso dal laser terrestre, corregge

Anche nel 2007 si registra nelle Costruzioni il numero più elevato di malattie professionali fra tutti i settori di attività dell’Industria e Servizi: circa 1.000 i casi ricono-