• Non ci sono risultati.

Analisi multivariata delle immagini e delle informazion

2. STATO DELL’ARTE

2.3 Analisi multivariata delle immagini e delle informazion

Le immagini, come le informazioni da esse estratte, sono complessi array di dati, spesso a più variabili (multivariati).

Tra le moderne tecniche di analisi dei dati, anche sotto forma di immagini, abbiamo quelle complessivamente indicate come tecniche di analisi multivariata o

Queste tecniche sono state utilizzate in tutti i lavori sperimentali riportati nella presente tesi, per tale motivo si riporta di seguito una breve presentazione delle principali analisi multivariate.

Le tecniche di analisi multivariata sono generalmente suddivise in due principali categorie: quelle non supervisionate e quelle supervisionate. Nelle tecniche non supervisionate il raggruppamento o la suddivisione in cluster degli elementi multivariati (Xblock) è effettuata sulla base di relazioni funzionali tra gli elementi stessi (distanze, varianze). Esse non necessitano nella fase di training della conoscenza del campione analizzato. Nelle tecniche supervisionate, invece, il riferimento di attribuzione di classe è dato da una variabile risposta singola o multipla (Yblock). In tal senso, i modelli multivariati forzano l’attribuzione verso una prestabilità classe e sono, in genere, più performanti dei sistemi non supervisionati. Le tecniche non supervisionate, sono maggiormente utlizzate in senso esplorativo, quando l’obiettivo sia quello di analizzare o visualizzare (es. PCA) le relazioni di aggregrazione non forzata (supervisionata) tra gli elementi.

Relativamente alla tecniche di classificazione e clustering supervisionate, è possibile distinguere due approcci di base: il modellamento e la classificazione vera e propria (Forina, 2006i). Nella classificazione, il modello attribuisce l’elemento analizzato ad una delle classi predeterminate. E’ necessario che siano previste almeno due classi di attribuzione. Nel modellamento, invece, è possibile attribuire l’elemento considerato ad una delle classi predeterminate o a nessuna di esse; in questo caso se il campione non è attribuito alla classe si indica come outlier. Nel modellamento, si calcola la “probabilità di predizione” e una soglia di classificazione per ciascuna classe modellata.

L’efficienza di modellamento è indicata dai parametri statistici di sensibilità e specificità. La sensibilità (sensitivity) è la percentuale di specie della categoria accettata dal modello di classe. La specificità (specificity) è la percentuale di specie di categorie differenti dal modello, quindi rigettate dal modello di classe.

Nella classificazione, invece, si utilizza la confusion matrix o matrice di corretta classificazione.

I modelli supervisionati includono generalmente una fase di calibrazione (training) ed una di test di validazione, e per entrambe le fasi, possono essere calcolati i parametri di classificazione ed efficienza.

Per questioni di sintesi, si riportano di seguito alcuni cenni relativi ai due principali classificatori utilizzati nella tecniche di analisi delle immagini: la PCA – Principal component analysis – tipo non supervisionato e la PLS partial least square – tipo supervisionato.

La PLS è una tecnica utilizzata per operazioni di predizione quantitativa, ma nella funzione PLS-DA (partial least square – Discriminant Analysis) è impiegata per la classificazione qualitativa.

Principal Component Analysis - PCA

Lo scopo della PCA (Wold, 1987) è di descrivere un pattern di dati in uno spazio le cui dimensioni siano più piccole del numero di features (variabili). La riduzione deve limitarsi a uno spazio a due o tre dimensioni per visualizzare facilmente similarità o differenze. Le differenti coordinate dello spazio ridotto sono non correlate e

ortogonali e rappresentano informazioni completamente indipendenti.

La tecnica della PCA consiste nella trasformazione lineare della matrice X di dati in un sub-set che rappresenta l’intera informazione di X. Ciò è reso possibile dal fatto che i dati sono “centrati” rispetto alla media (normalizzati) e che quindi tutta

l’informazione è trasferita nella matrice di covarianza. Si assume anche che il data-set sia distribuito normalmente. Attraverso la matrice di covarianza è possibile

ridistribuire i vettori dati (pattern) un un sottospazio i cui assi sono combinazione dello spazio di origine (Principal component). Praticamente la PCA lavora sulle varianze interne dei vettori misura (pattern).

Rispetto la matrice di dati la PCA fornisce due informazioni principali: loading e score. Lo score riguarda la misura ed è la coordinata del vettore di misura nello spazio delle componenti principali. Il loading concerne la singola variabile x (la feaures) e indica quanto questa contribuisce alla varianza delle PC (componenti principali). Il Residual rappresenta la variabilità non spiegata, ossia indica il rumore. Attraverso la PCA è, pertanto, possibile verificare il grado di distribuzione in

sottogruppi del data set, operata in maniera autonoma dal modello, senza apportare conoscenza a priori in merito alla ipotesi sperimentale di separazione in gruppi.

Partial Least Squares (PLS) e Partial Least Squares Discriminant Analysis (PLS-DA)

La Partial Least Squares (PLS) (Geladi and Kowalski, 1986) rappresenta una delle tecniche statistiche più affidabili, utilizzate per cercare le correlazioni tra i segnali di uscita di uno strumento multicanale e le informazioni contenute nelle N misure stesse. In particolare il modello è utilizzato in senso predittivo per stimare quantitativamente il valore dei parametri chimici di riferimento.

Il modello opera attraverso apposito algoritmo (SIMPLS, De Jong 1993 ) sull’insieme delle informazioni, che nel nostro caso erano di tipo spettrale (variabili di input, matrice X, Xblock) e sia sui valori quantitativi di riferimento (parametri chimici) sia sulle classi funzionali osservate (classe di stagionatura, Y). Poiché i valori

appartenenti ad uno stesso data-set sono legati da complessi rapporti funzionali, il modello, attraverso una procedura iniziale di calcolo di massime correlazioni, determina, tramite un processo ricorsivo, l’insieme minimo di n variabili di stima (latent and score variable) le quali sono rappresentabili in uno spazio n-dimesionale e che sono utilizzate dalla PLS per calcolare la miglior matrice di regressione (B) tra le X e le Y. La matrice B ottima è quella che minimizza la matrice degli errori di stima del modello (E), secondo l’equazione matriciale:

Y = BX + E (1)

Il modello comprende una fase di trainig e una fase di test di validazione, e per entrambe è possibile calcolare gli errori per ciascuna fase. L’andamento degli errori è, in genere, decrescente per la fase di training (RMSEC) e crescente per la fase di crossvalidazione (RMSECV). Il numero di variabili latenti utilizzato si basa sulla minimizzazione contemporanea di questi due tipi di errori, oppure sulla migliore performance del test.

Attraverso la matrice B, sono stimati i nuovi valori di Y (valori stimati, matrice Y’) espressi o come etichetta di classe - class label oppure come valore quantitativo. Il confronto tra i valori osservati Y e i calcolati Y’ consente di valutare il grado di corretta classificazione a priori o l’efficienza di predizione dei valori osservati. L’algoritmo di base PLS può essere utilizzato per due tipologie analitiche:

1) predizioni quantitative

2) classificazioni o modellamenti.

Il primo caso, è rappresentato tipicamente dalla stima di un parametro quantitativo, chimico o mfisico (misurato in modo tradizionale), tramite le misure multicanale (in questo caso, spettrali) che sono state rilevate sul medesimo campione. Il grado di correttezza della stima deve essere dedotto tramite il confronto diretto delle Y misurate con quello delle Y’ stimate, calcolando differenti parametri indicativi della efficienza di predizione, come:

• coefficiente di correlazione (r) tra valori predetti e misurati • RMSE (Root Mean Square Error)

2 1 ) ˆ ( 1 i i I i y y n RMSE p − =

= (2)

• SEP (standard error of prevision)

o 2 1 ) ˆ ( 1 bias y y n SEP i i I i p − − =

= (3) dove:

 yˆi- è il valore predetto di ogni osservazione;

 yi - è il valore misurato di ogni osservazione;

 n – numero di osservazioni nel set dei valori predetti;  Bias - differenza sistematica tra I valori misurati e predetti. essendo: (4) ) ˆ ( 1 1 i I i i y y n bias p − =

=

In altre situazioni, si ha la necessità di sviluppare un modello PLS che sulla base delle informazioni multicanale (spettro) possa attribuire il campione di misura a:

1) ad una ed una sola delle classi predeterminate (classificazione);

2) ad una delle classi predeterminate o a nessuna di esse (modellamento); in questo caso se il campione non è attribuito alla classe si indica come outlier.

Per questa tipologia di analisi, il modello multivariato è più correttemente chiamato PLSDA, Partial least Square Discriminate Analysis.

La PLSDA non è altro che un’analisi di regressione PLS nella quale la variabile “risposta” è categorica (y-block; sostituito da un set di dummy-variables (1,0) per ogni categoria) esprimendo la classe di appartenenza delle unità statistiche (Costa et.al., 2008).

In classificazione, la PLSDA non ammette, come variabili risposta, altre che non siano quelle che definiscono i gruppi di individui (i modelli costruiti dalla PLS sono resi, dalla PLSDA, categorici, quindi discriminanti). Come conseguenza, tutte le variabili misurate giocano lo stesso ruolo rispetto alla classe assegnata. La PLSDA stabilisce la percentuale di corretta classificazione e il peso di ogni pixel in ciascun latent vector (LV) (vale a dire nei parametri principali che descrivono il modello). L’abilità di predizione della PLSDA dipende anche dal numero (k) di LV usati nel modello. Il valore ottimale di k viene determinato dalla predizione dei risultati per gruppi indipendenti di campioni (test set) per differenti valori di k, e determinando quel valore per il quale la più alta percentuale di corretta classificazione è stata trovata nel test set.

Nel modellamento, la PLSDA calcola la “probabilità di predizione” e una soglia di classificazione per ciascuna classe modellata. Queste sono calcolate usando il metodo Bayesiano che essenzialmente prende i valori y predetti dal modello PLSDA, adatta ad essi una distribuzione normale e poi usa ciò per calcolare la probabilità di osservare un dato valore y. Il metodo stabilisce la percentuale di corretta classificazione ed il peso di ciascuna specie in ogni LV. Questa analisi esprime anche i parametri statistici indicanti l’efficienza di modellazione segnalata dalla sensibilità e dalla specificità dei parametri. La sensibilità (sensitivity) è la percentuale di specie della categoria accettata dal modello di classe. La specificità (specificity) è la

percentuale di specie di categorie differenti dal modello, quindi rigettate dal modello di classe.

Anche nella PLSDA, il modello include una fase di calibrazione (training) ed una di test di validazione, e per entrambe le fasi, può essere determinata la percentuale di corretta classificazione calcolando gli errori residui.

Documenti correlati