• Non ci sono risultati.

4.3 ICICLE

4.3.4 Debolezze del programma

Nonostante la sua versatilit`a e la sua potenza, ICICLE presenta delle debolezze e delle mancanze. La principale debolezza di ICICLE sono le importanti conseguenze dell’arbitrariet`a di alcuni parame- tri, completamente regolabili dall’utente nel file Input.dat. Questa libert`a da un lato permette all’utente di adattare il codice a una moltitudine di classificazioni diverse. D’altra parte, c’`e un ele- vato rischio di interpretare male i risultati prodotti dal codice se non si conosce in modo approfondito la teoria soggiacente.

Un’importante mancanza di ICICLE `e l’assenza nel file Input.dat di un’opzione che permetta all’u- tente di scegliere la composizione del training set, del test set di ottimizzazione e del test set vero e proprio. Allo stato attuale, infatti, `e possibile scegliere soltanto quanti elementi di ciascuna classe faranno parte di ciascun dataset, e non quali. La possibilit`a di scegliere la composizione dei vari insiemi ridurrebbe il bias nelle classificazioni. Ad esempio, l’utente potrebbe decidere di inclu- dere nel training set un numero di casi esiguo ma molto differenziati, cosicch´e le classificazioni risultino migliori.

Nella prossima sezione, dove saranno esposti i risultati prodotti da ICICLE per alcuni casi studio, `

e opportuno che il lettore tenga conto delle limitazioni di ICICLE appena esposte per una migliore comprensione di quanto si affermer`a.

Sezione 5

Risultati

5.1

Introduzione

La messa a punto di ICICLE `e stata la preoccupazione principale del presente lavoro. Prima che ICI- CLE potesse dirsi operativo sono state necessarie lunghe fasi di test, si sono dovute introdurre numerose modifiche e opzioni aggiuntive ed `e stato necessario verificare il corretto funzionamento del programma quali che fossero le impostazioni introdotte tramite il file Input.dat. Dopo lunghe sessioni di lavoro, ICICLE pu`o ora dirsi funzionante. I risultati pi`u rilevanti ai fini del presente lavoro saranno illustrati nei prossimi paragrafi.

Come abbiamo visto nella sezione precedente, ICICLE `e altamente flessibile e dispone di numerose impostazioni regolabili liberamente dall’utente. Ciascuna di queste impostazioni deve essere inserita cautamente, perch´e le classificazioni date dal codice dipendono fortemente dalle scelte iniziali. Infatti, anche se l’insieme di spettri fosse lo stesso, le accuratezze delle classificazioni prodotte da ICICLE potrebbero variare notevolmente a seconda delle impostazioni. In particolare, hanno un notevole influsso le seguenti variabili:

1. Il numero di feature utilizzate, la loro posizione nello spettro e la loro identit`a. Le feature possono essere temperature di brillanza o differenze tra temperature di brillanza.

2. La presenza o meno di un errore sui dati di radianza.

3. La consistenza numerica del training set e del test set di ottimizzazione. 4. I valori minimi e massimi di C e γ per la cosiddetta fase di cross validation. 5. La somma minima e la differenza massima ammesse tra le accuratezze.

6. La durezza della soglia che esclude alcuni spettri perch´e troppo vicini all’iperpiano ottimale. Questo tipo di dati, avulsi dall’identit`a del caso studio, saranno detti parametri estrinseci. I para- metri estrinseci hanno un grande effetto sull’accuratezza del risultato, e un utente che utilizzi ICICLE per la prima volta potrebbe rimanere spiazzato dagli scarsi risultati ottenuti utilizzando le im- postazioni di default. I parametri estrinseci determinano anche la durata del run, che nel peggiore dei casi potrebbe addirittura non concludersi a causa degli overflow. Il tempo impiegato dalla routine Ottimizzazione, in particolare, `e molto sensibile al numero di combinazioni di feature possibili. Se ad esempio fossero disponibili 30 canali e tramite la routine Ottimizzazione si desiderasse ottenere

74 SEZIONE 5. RISULTATI

Figura 5.1: Output su linea di comando prodotto da ICICLE in Matlab.

i 15 canali ottimali, la routine dovrebbe effettuare un ciclo sulle Ncomb = 15!15!30! = 155117520

combinazioni possibili. Questo porterebbe alla creazione di una matrice enorme, che potrebbe ren- dere impossibile concludere il run. Il codice ha quindi dei limiti intrinseci di cui si deve sempre tenere conto.

I parametri intrinseci sono invece direttamente relazionati all’identit`a delle classi e degli spettri utilizzati. Tra di essi, abbiamo:

1. Il numero delle classi.

2. Le stringhe che identificano le classi. 3. Eventuali gruppi di spettri esclusi. 4. La variet`a e il numero degli spettri.

Evidentemente, se i parametri intrinseci sono gli stessi, stiamo esaminando lo stesso caso studio. Infatti, modificando i parametri estrinseci, stiamo solo cercando di raffinare i risultati ottenibili tramite ICICLE. Se modifichiamo i parametri intrinseci, invece, stiamo esaminando un diverso caso studio. Per comprendere il concetto, supponiamo di voler identificare i cieli sereni e cieli nuvolosi in un determinato test set. Se scegliamo di utilizzare 10, 15 o 20 canali degli spettri disponibili, il nostro caso studio non `e mutato: stiamo semplicemente decidendo quanti dei dati disponibili utilizzare. Se invece decidiamo di escludere arbitrariamente alcuni spet- tri che reputiamo problematici il nostro caso studio `e mutato, perch´e il test set `e differente. Nella presente sezione saranno illustrati i risultati prodotti da ICICLE per 2 casi studio, e ne sar`a studiata la sensibilit`a ai parametri estrinseci. Per un confronto pi`u proficuo, sono stati utilizzati gli stessi canali di RFTS per tutti i casi studio. Tali canali sono riportati nelle figure 5.2 e 5.3.

5.1. INTRODUZIONE 75

Figura 5.2: Canali di RFTS utilizzati dai run di ICICLE nei casi studio nel FIR. Lo spettro (in rosso) `e la differenza tra una radianza simulata in cielo sereno e una radianza simulata in presenza di un cirro subvisible. I canali sono segnalati con degli asterischi blu. I canali corrispondono ai numeri d’onda di 294.5 cm−1, 366 cm−1, 388.5 cm−1, 410 cm−1, 439 cm−1, 457.5 cm−1, 472.5 cm−1, 497 cm−1, 531.6 cm−1, 560 cm−1e 583.4 cm−1.

Figura 5.3: Canali di RFTS utilizzati dai run di ICICLE nei casi studio nel MIR. Lo spettro (in rosso) `e la differenza tra una radianza simulata in cielo sereno e una radianza simulata in presenza di un cirro subvisible. I canali sono segnalati con degli asterischi blu. I canali corrispondono ai numeri d’onda di 680 cm−1, 825 cm−1, 862 cm−1, 900 cm−1, 950 cm−1, 984 cm−1, 1095 cm−1, 1130 cm−1, 1160 cm−1, 1285.2 cm−1e 1384 cm−1.

76 SEZIONE 5. RISULTATI

Figura 5.4: Accuratezze relative al run di controllo del primo caso studio. Per effettuare la classificazione sono stati utilizzati i 22 canali indicati nel paragrafo precedente. Come si pu`o intuire dalla figura, nel pannello inferiore sono rappresentate le accuratezze ottenute rimuovendo via via un canale, partendo da un massimo di 22 e arrivando a un minimo di 18. I pallini blu indicano le accuratezze relative alla classe dei cieli sereni, mentre le croci rosse indicano le accuratezze relative alla classe dei cieli nuvolosi.