Debolezze del programma - Proprieta delle nubi e lontano infrarosso. Studio del contenuto infor

4.3 ICICLE

4.3.4 Debolezze del programma

Nonostante la sua versatilità e la sua potenza, ICICLE presenta delle debolezze e delle mancanze. La principale debolezza di ICICLE sono le importanti conseguenze dell’arbitrarietà di alcuni parametri, completamente regolabili dall’utente nel file Input.dat. Questa libertà da un lato permette all’utente di adattare il codice a una moltitudine di classificazioni diverse. D’altra parte, c’è un ele- vato rischio di interpretare male i risultati prodotti dal codice se non si conosce in modo approfondito la teoria soggiacente.

Un’importante mancanza di ICICLE è l’assenza nel file Input.dat di un’opzione che permetta all’u- tente di scegliere la composizione del training set, del test set di ottimizzazione e del test set vero e proprio. Allo stato attuale, infatti, è possibile scegliere soltanto quanti elementi di ciascuna classe faranno parte di ciascun dataset, e non quali. La possibilità di scegliere la composizione dei vari insiemi ridurrebbe il bias nelle classificazioni. Ad esempio, l’utente potrebbe decidere di inclu- dere nel training set un numero di casi esiguo ma molto differenziati, cosicché le classificazioni risultino migliori.

Nella prossima sezione, dove saranno esposti i risultati prodotti da ICICLE per alcuni casi studio, `

e opportuno che il lettore tenga conto delle limitazioni di ICICLE appena esposte per una migliore comprensione di quanto si affermer`a.

Sezione 5

Risultati

5.1 Introduzione

La messa a punto di ICICLE è stata la preoccupazione principale del presente lavoro. Prima che ICI- CLE potesse dirsi operativo sono state necessarie lunghe fasi di test, si sono dovute introdurre numerose modifiche e opzioni aggiuntive ed è stato necessario verificare il corretto funzionamento del programma quali che fossero le impostazioni introdotte tramite il file Input.dat. Dopo lunghe sessioni di lavoro, ICICLE può ora dirsi funzionante. I risultati più rilevanti ai fini del presente lavoro saranno illustrati nei prossimi paragrafi.

Come abbiamo visto nella sezione precedente, ICICLE `e altamente flessibile e dispone di numerose impostazioni regolabili liberamente dall’utente. Ciascuna di queste impostazioni deve essere inserita cautamente, perch´e le classificazioni date dal codice dipendono fortemente dalle scelte iniziali. Infatti, anche se l’insieme di spettri fosse lo stesso, le accuratezze delle classificazioni prodotte da ICICLE potrebbero variare notevolmente a seconda delle impostazioni. In particolare, hanno un notevole influsso le seguenti variabili:

1. Il numero di feature utilizzate, la loro posizione nello spettro e la loro identit`a. Le feature possono essere temperature di brillanza o differenze tra temperature di brillanza.

2. La presenza o meno di un errore sui dati di radianza.

3. La consistenza numerica del training set e del test set di ottimizzazione. 4. I valori minimi e massimi di C e γ per la cosiddetta fase di cross validation. 5. La somma minima e la differenza massima ammesse tra le accuratezze.

6. La durezza della soglia che esclude alcuni spettri perché troppo vicini all’iperpiano ottimale. Questo tipo di dati, avulsi dall’identità del caso studio, saranno detti parametri estrinseci. I parametri estrinseci hanno un grande effetto sull’accuratezza del risultato, e un utente che utilizzi ICICLE per la prima volta potrebbe rimanere spiazzato dagli scarsi risultati ottenuti utilizzando le impostazioni di default. I parametri estrinseci determinano anche la durata del run, che nel peggiore dei casi potrebbe addirittura non concludersi a causa degli overflow. Il tempo impiegato dalla routine Ottimizzazione, in particolare, è molto sensibile al numero di combinazioni di feature possibili. Se ad esempio fossero disponibili 30 canali e tramite la routine Ottimizzazione si desiderasse ottenere

74 SEZIONE 5. RISULTATI

Figura 5.1: Output su linea di comando prodotto da ICICLE in Matlab.

i 15 canali ottimali, la routine dovrebbe effettuare un ciclo sulle Ncomb = _15!15!30! = 155117520

combinazioni possibili. Questo porterebbe alla creazione di una matrice enorme, che potrebbe ren- dere impossibile concludere il run. Il codice ha quindi dei limiti intrinseci di cui si deve sempre tenere conto.

I parametri intrinseci sono invece direttamente relazionati all’identit`a delle classi e degli spettri utilizzati. Tra di essi, abbiamo:

1. Il numero delle classi.

2. Le stringhe che identificano le classi. 3. Eventuali gruppi di spettri esclusi. 4. La variet`a e il numero degli spettri.

Evidentemente, se i parametri intrinseci sono gli stessi, stiamo esaminando lo stesso caso studio. Infatti, modificando i parametri estrinseci, stiamo solo cercando di raffinare i risultati ottenibili tramite ICICLE. Se modifichiamo i parametri intrinseci, invece, stiamo esaminando un diverso caso studio. Per comprendere il concetto, supponiamo di voler identificare i cieli sereni e cieli nuvolosi in un determinato test set. Se scegliamo di utilizzare 10, 15 o 20 canali degli spettri disponibili, il nostro caso studio non è mutato: stiamo semplicemente decidendo quanti dei dati disponibili utilizzare. Se invece decidiamo di escludere arbitrariamente alcuni spettri che reputiamo problematici il nostro caso studio è mutato, perché il test set è differente. Nella presente sezione saranno illustrati i risultati prodotti da ICICLE per 2 casi studio, e ne sarà studiata la sensibilità ai parametri estrinseci. Per un confronto più proficuo, sono stati utilizzati gli stessi canali di RFTS per tutti i casi studio. Tali canali sono riportati nelle figure 5.2 e 5.3.

5.1. INTRODUZIONE 75

Figura 5.2: Canali di RFTS utilizzati dai run di ICICLE nei casi studio nel FIR. Lo spettro (in rosso) `e la differenza tra una radianza simulata in cielo sereno e una radianza simulata in presenza di un cirro subvisible. I canali sono segnalati con degli asterischi blu. I canali corrispondono ai numeri d’onda di 294.5 cm−1, 366 cm−1, 388.5 cm−1, 410 cm−1, 439 cm−1, 457.5 cm−1, 472.5 cm−1, 497 cm−1, 531.6 cm−1, 560 cm−1e 583.4 cm−1.

Figura 5.3: Canali di RFTS utilizzati dai run di ICICLE nei casi studio nel MIR. Lo spettro (in rosso) `e la differenza tra una radianza simulata in cielo sereno e una radianza simulata in presenza di un cirro subvisible. I canali sono segnalati con degli asterischi blu. I canali corrispondono ai numeri d’onda di 680 cm−1, 825 cm−1, 862 cm−1, 900 cm−1, 950 cm−1, 984 cm−1, 1095 cm−1, 1130 cm−1, 1160 cm−1, 1285.2 cm−1e 1384 cm−1.

76 SEZIONE 5. RISULTATI

Figura 5.4: Accuratezze relative al run di controllo del primo caso studio. Per effettuare la classificazione sono stati utilizzati i 22 canali indicati nel paragrafo precedente. Come si pu`o intuire dalla figura, nel pannello inferiore sono rappresentate le accuratezze ottenute rimuovendo via via un canale, partendo da un massimo di 22 e arrivando a un minimo di 18. I pallini blu indicano le accuratezze relative alla classe dei cieli sereni, mentre le croci rosse indicano le accuratezze relative alla classe dei cieli nuvolosi.

Nel documento Proprieta delle nubi e lontano infrarosso. Studio del contenuto informativo negli spettri simulati per RFTS (REFIR Fourier Transform Spectrometer). (pagine 79-84)