• Non ci sono risultati.

Boosted Decision Tree (BDT )

migliore è dove la quantità S/√S + B ha un massimo: l’obiettivo è di mas- simizzare il numero di eventi rispetto all’errore commesso nella misura degli eventi totali.

L’algoritmo di classificazione utilizzato in questo lavoro di tesi é il Boosted Decision Tree ( BDT), descritto nel paragrafo successivo.

4.2

Boosted Decision Tree (BDT )

Un decision tree (BDT ) è una struttura ad albero in cui vengono effet- tuate ripetute scelte di tipo booleano fino a quando non viene soddistatto un criterio di arresto [32].

Figura 4.2: schema di un decision tree. Partendo da un nodo sorgente, viene applicata una sequenza di tagli sulle variabili discriminanti xi. Il taglio viene fatto sulla variabile che fornisce la migliore separazione tra segnale e fondo. I nodi terminali (foglie) si definiscono B (fondo) o S (segnale) in base alla prevalenza di eventi di fondo o segnale dopo la selezione. Immagine presa da [32].

Dato un insieme di variabili discriminanti, il BDT esamina la prima variabile e studia cosa si ottiene se il campione di addestramento viene diviso in due parti, destra e sinistra, in base al valore della variabile; quindi viene scelto come valore di taglio quello che fornisce da una parte una prevalenza di se- gnale e dall’altra una prevalenza di fondo. Questa operazione viene ripetuta

4.2 Boosted Decision Tree (BDT ) 33

per ciascuna variabile, in modo da poter scegliere la variabile ed il taglio che offrono la migliore separazione tra segnale e fondo.

Partendo dunque da una situazione in cui l’insieme di eventi è contenuto in un nodo, si ottengono due rami. Per ogni ramo viene ripetuto l’algoritmo descritto in precedenza: il BDT esamina ogni variabile rimasta per gli even- ti contenuti nel ramo, in modo da trovare la variabile ed il valore di taglio ottimali. La procedura di separazione continua fino ad ottenere un numero di insiemi finali, detti foglie; l’algoritmo si arresta quando un ramo contiene eventi di solo segnale o di solo fondo, oppure quando gli eventi contenuti in una foglia sono insufficienti per continuare la selezione (fig. 4.2).

All’interno del BDT è possibile configurare diversi criteri per stabilire la qua- lità della separazione tra il segnale ed il fondo. Ogni criterio è funzione della purezza (P ) del campione esaminato; la purezza di un campione è definita come P = P sWs P sWs+ P bWb

doveWi è il peso che viene attribuito a ciascun evento,

P

s è la somma sugli

eventi di segnale e P

b è la somma sugli eventi di fondo.

Il criterio di separazione più diffuso è il Gini Index. Si costruisce la quantità G =

n

X

i=1

WiP (1 − P ) (4.1)

dove n è il numero di eventi in un ramo; l’obiettivo di questo criterio è di minimizzare, per ogni nodo, la quantità

Gson left+ Gson right

doveGson left (Gson right) è la quantità 4.1 calcolata nel ramo sinistro (destro)

generato dal nodo considerato. Per determinare l’aumento della qualità nella separazione di deve massimizzare la quantità

C = Gfather− Gson left− Gson right

Al termine della procedura, se una foglia ha una purezza del segnale maggio- re di 0.5 (o di un valore di stabilito), allora viene chiamata segnale (S); se la purezza del segnale è inferiore al valore stabilito la foglia viene chiamata di fondo (B).

Il metodo BDT presenta alcune instabilità, perché una piccola modifica nel campione di addestramento può produrre grandi cambiamenti all’interno del- l’intero albero. Per ovviare a questo problema si ricorre alla tecnica del boo- sting: per migliorare le prestazioni di classificazione, il BDT viene applicato

4.2 Boosted Decision Tree (BDT ) 34

ripetutamente usando ad ogni iterazione lo stesso campione di addestramen- to, che è costituito di volta in volta da eventi ripesati. In questo modo vengono generati diversi alberi, che vanno a formare una foresta.

L’algoritmo di boosting più comune è l’Ada Boost, basato su una modifica dei pesi degli eventi classificati in modo sbagliato. Partendo dai pesi originali con cui vengono analizzati gli eventi nel primo albero, gli alberi successivi utilizzano un insieme di eventi modificato, in cui gli eventi classificati in modo sbagliato nel precedente albero vengono moltiplicati per un fattore corretti- vo, il boost weight ; per l’i-esimo albero il boost weight è definito nel seguente modo:

αi=

1− erri

erri

dove la quantità erri è

erri= P jw misc j,i P jwj,i dove wmisc

j,i è il peso del j-esimo evento classificato nel modo sbagliato all’in-

terno dell’i-esimo albero.

Il classificatore dell’algoritmo di boosting per un dato evento è:

yboost(~x) = β N

X

i

ln(αi)· hi(~x) (4.2)

dove ~x è il vettore costituito dalla variabili di ingresso, β è una costante di normalizzazione; la somma viene effettuata sugliN alberi e hi(~x) rappresenta

il risultato dell’i-esimo albero: hi(~x) =



1 per gli eventi classificati come segnale −1 per gli eventi classificati come fondo

Un valore piccolo di yboost indica che l’evento è di tipo fondo, mentre un

Capitolo 5

Identificazione e ricostruzione

delle particelle nel rivelatore

5.1

Tracciatura

Il sistema di tracciatura di BaBar si basa sulla DCH e sul SVT ; la trac- ciatura delle particelle cariche è stata studiata utilizzando dei campioni di muoni da raggi cosmici, eventi e+e, µ+µ, τ+τed eventi multi-adronici.

Le tracce cariche sono definite attraverso cinque parametri (d0, φ0, ω, z0 e

tan λ) e la matrice degli errori associati; questi parametri sono misurati nel punto di massimo avvicinamento all’asse z. dˆ 0 e z0 sono le distanze di que-

sto punto dall’origine del sistema di coordinate (nel piano xy e sull’asse ˆˆ z, rispettivamente), l’angolo φ0 è l’azimuth della traccia, λ è l’angolo rispetto

al piano trasverso e ω è la curvatura.

La procedura che identica e fa il fit della traccia utilizza un algoritmo basato sul filtro di Kalman, considerando la descrizione dettagliata del materiale nel rivelatore e la mappa completa del campo magnetico. Inizialmente le tracce sono ricostruite con gli hit nella DCH utilizzando l’algoritmo di ricostruzione stand-alone e le tracce risultanti sono poi estrapolate nel SVT, aggiungendo le informazioni sulla traccia fornite da quest’ultimo; quindi viene fatto un fit di Kalman sugli hit combinati della DCH e del SVT. Gli altri hit rimanen- ti nel SVT vengono utilizzati nell’algoritmo di riconoscimento delle tracce stand-alone del SVT.

Infine viene fatto un tentativo di combinare le tracce che sono trovate da un solo sistema di tracciatura e quindi di recuperare le tracce diffuse nel mate- riale del tubo di supporto.

L’efficienza per la ricostruzione delle traccia nella DCH è stata misurata, in eventi con molte tracce, in funzione dell’impulso trasverso e degli angoli

5.1 Tracciatura 36

polare ed azimutale. L’efficienza di tracciatura assoluta nella DCH è stima- ta dal rapporto tra il numero di tracce ricostruite nella DCH ed il numero di tracce rivelate nel SVT, con la richiesta che queste si trovino all’interno dell’accettanza della DCH.

Nel grafico a sinistra di fig. 5.1 è riportata l’efficienza nella DCH in funzione dell’impulso trasverso, determinata in eventi multi-adronici.

Figura 5.1: Plot a sinistra: studio MC di tracce a basso impulso nel SVT in eventi D∗+ → D0π+ a) confronto con dati in eventi B ¯B e b) efficienza di rivelazione per

pioni lenti presi da eventi simulati. Plot a destra: risoluzione per i parametri d0 e

z0 in funzione dell’impulso trasverso in eventi multi-adronici. Immagini prese da

[27].

Gli algoritmi di tracciatura stand-alone del SVT hanno un’alta efficienza per le tracce con basso impulso trasverso, estendendo la capacità di ricostruzione delle particelle cariche fino ad impulso trasverso di circa 50 MeV/c, come mostrato nel grafico a sinistra della fig. 5.1.

La risoluzione per i cinque parametri della traccia è monitorata utilizzando eventi con stato finale e+e

e µ+µ

: la risoluzione è stimata dalla differenza dei parametri misurati per le tracce prodotte dai raggi cosmici che attra- versano la DCH ed il SVT. Per determinare la dipendenza della risoluzione dall’impulso trasverso, si utilizza un campione di eventi multi-adronici; la risoluzione è determinata dall’ampiezza della distribuzione della differenza tra i parametri misurati (d0 e z0) e le coordinate dei vertici ricostruiti dalle

Documenti correlati