• Non ci sono risultati.

4.2 Metodi statistici multivariati

4.2.2 Partial Least Square Regression (PLSR)

4.2.2.1 Strumenti di validazione del metodo PLS

Una caratteristica tipica della modellizzazione mediante il metodo PLS e’ la spiccata tendenza dell’algoritmo ad avere delle ottime prestazione in fase di calibrazione ma spesso fallire nel momento in cui e’ chiamato a prevedere i dati incogniti, ovvero dati che, pur essendo omogenei alle misure utilizzate per la calibrazione del modello, non sono stati usati in fase di calcolo.

Il motivo di questo comportamento del modello risiede nella logica dell’algoritmo di calcolo che, par- tendo dagli spettri di calibrazione crea uno spazio delle misure di cui conosce tutti i dettagli e quindi riesce a fare delle previsioni corrette; e’ possibile che i dati contenuti nell’insieme di validazione non siano com- pletamente descritti nello spazio delle misure di calibrazione (a causa di modestissime variazioni nella firma spettrale) e che quindi i valori calcolati in predizione sui campioni incogniti risultino errati. Per evitare questo fenomeno, piuttosto comune nei modelli PLS, si deve cercare di scegliere, mediante una metodo euristico a tentativi, l’insieme di dati di calibrazione che “spieghi” completamente tutte le misure ottenute, comprese quelle del set di validazione, effettuando una stima degli outliers1.

Strumenti matematici in calibrazione - SIMCA + Questo software e’ il piu’ completo e rigoroso dal punto di vista matematico nella ricerca degli outliers e nelle definizione del modello di calibrazione ed utilizza una serie di grafici che sono di seguito presentati e commentati.

1Misure sperimentali che si possono, a seguito di una analisi statistica, rimuovere dall’insieme dei dati in quanto anomale rispetto

Figura 4.10: Grafico DModX e T2

Il grafico DModX mostra la distanza delle osservazioni contenute nei dati di calibrazione rispetto al- l’iperpiano X; questa misura risulta essere proporzionale al residuo della standard deviation della misura. Il valore critico di DModX, la linea rossa del grafico, viene calcolato mediante la distribuzione F mentre i dati sono sono espressi in unita’ normalizzate. Le misura che hanno valori di DModX almeno due volte superiori al valore critico sono considerati outlier certi mentre le misure comprese tra DModX e 2*DModX sono da considerarsi outlier sospetti.

Il grafico di T2di Hoteling mostra la distanza dall’origine nello spazio dei punteggi delle singole misure e valori elevati di questo valore indica una grande differenza rispetto alla popolazione di tutte le misure. Valori maggiori di 0.05 indicano delle misure che sono sospette di essere di un outlier mentre misure che si trovano al di sopra del limite di 0.01 sono da considerarsi con estrema probabilita’ degli outlier. Il, campo di variazione di T2viene calcolato come la somma dei quadrati dei punteggi delle singole misure diviso per

la standard deviation al quadrato. Le informazioni relative all’individuazione di un outlier mediante il test del T2di Hoteling deve essere incrociato anche con i grafici di DModX e ORisk per avere la conferma che il

valore puo’ essere eliminato dal dataset.

Figura 4.11: Grafico ORisk e di Probabilita’/Residui

Il grafico ORisk indica il rischio dell’osservazione ovvero la sensibilita’ del modello di predizione, mis- urato mediante il cambiamento dei residui, nel caso in cui una misura del set di calibrazione sia inclusa o meno all’interno del modello. I valori superiori a 1.5 sono da considerarsi sospetti mentre valori superiori a

2 indicano un misure importanti. Dal punto di vista pratico indica che piu’ e’ alto e’ il valore di ORisk e’ alto maggiore sara’ l’errore in predizione nel caso in cui si esclude la misura.

Il grafico di probablita’ normalizzata mostra i residui standardizzati (ovvero il residuo diviso per la stan- dard deviation residuale) su una scala logaritmica su entrambi gli assi. In condizioni di assenza di outlier i dati si dispongono con andamento rettilineo nell’intervallo -4/+4 e le misure che sono esterne a tale andamento possono indicate come outliers.

Figura 4.12: Grafico di validazione per permutazione delle matrice Y

Il grafico di validazione accerta il rischio che il modello PLS sia spurio cioe’ che il modello prevede in modo corretto i dati di calibrazione ma non e’ in grado di determinare in modo accurato i valori di vali- dazione. L’idea alla base di questa validazione e’ quella di comparare la bonta’ del modello (R2e Q2) con altri modelli in cui la matrice delle osservazione Y e’ permutata in modo casuale mentre la matrice X rimane immutata. Per avere un modello corretto si dovranno avere che la linea di regressione blu rappresentativa di Q2deve intersecare l’asse delle ordinate a valori negativi.

Se il modello, al termine del controllo dei parametri indicati dai grafici, risulta corretto si ha una cali- brazione PLS che e’ formalmente corretta nell’insieme di calibrazione essendo priva di outliers

Strumenti matematici in calibrazione- InSilico Il programma InSilico Spectralab usa un approccio piu’ semplice impiegando una cross-calibrazione di tipo LOO (Leave One Out) . Con questo metodo viene effettuata una stima della bonta’ della calibrazione, impiegando, a rotazione, una singola misura del set di calibrazione come dato di validazione e calcolando il modello statistico con le rimanenti n-1 misure.

Figura 4.13: Studio degli outlier InSilico

Il leverage e’ usato in connessione con l’analisi di regressione in particolare per mettere in evidenza quali sono le misure che hanno maggiore influenza sul modello di regressione; in generale sono di interesse solo le misure che hanno valori estremi.

La quantita’ del residuo studentizzato (studentized residual) e’ costituita dal quoziente dei residui con una stima della standard deviation degli stessi. La standard deviation dei residui nei campioni in genere varia molto da una misura all’altra anche se gli errori hanno tutti la stessa standard deviation, in particolare nell’analisi di regressione, per cui e’ necessario applicare prima la statistica T di Student.

Dall’unione delle due informazioni si possono individuare i potenziali outliers: in particolare i candidati ad essere outlier sono i punti che hanno un alto leverage ed un alto residuo studentualizzato.

Strumenti matematici in previsione Per verificare la bonta’ del modello PLS praticamente tutti i pro- grammi disponibili sintetizzano i dati mediante un grafico in cui sugli assi vengono rispettivamente riportati i valori effettivamenti misurati ed i valori predetti dal modello PLS; minore e’ la differenza della posizione dei punti rappresentativi delle misure, o meglio della retta di regressione ai minimi quadrati che interpola i punti, rispetto alla retta y = x, maggiore risultera’ l’accuratezza in previsione del modello.

L’esempio riportato nel grafico precedente, appartenente alla serie dati Mugello, mostra che la retta rossa di regressione dei punti sperimentali e’ quasi coincidente con la retta azzurra y = x. Si deve notare che, pur mostrando un modello PLS correttamente elaborato, si tratta di una condizione necessaria ma non sufficiente perche’ il modello statistico elaborato sia effettivamente utile; infatti si dovra’ procedere come passo conclusico all’analisi dei residui.

Figura 4.15: Esempio di validazioni PLS errate.

Ulteriori esempi di elaborazioni PLS errate sono riportate di Fig.4.15. Sia la serie di punti rossi che quella blu sono disposti una retta e quindi mostrano una ottima correlazione lineare ai minimi quadrati ma nel primo caso l’andamento dei dati predetti sottostima in modo costante il valore vero dei valori attesi (pendenza della retta di regressione inferiore ad 1) mentre nel secondo caso si ha una intercetta con l’asse delle y negativa che genera un offset costante (la linea nera rappresenta la retta y = x che corrisponde alla calibrazione ottimale). In entrambi i casi il modello PLS induce un errore sistematico nella predizione della grandezza esaminata.

Documenti correlati