Aspetti matematici dei modelli di predizione

8.3 Calibrazione multivariata e modelli di predizione

8.3.2 Aspetti matematici dei modelli di predizione

Un modello è dato da un’equazione matematica che definisce una relazione causale tra diverse variabili indipendenti (predittori) e una, o più, variabile risposta.

Marco Caredda. Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino. Tesi di dottorato in Scienze chimiche, Ciclo XXVI, Università degli studi di Sassari.

Le variabili indipendenti sono rappresentate da una matrice denominata X mentre le variabili dipendenti sono rappresentate da una matrice denominata Y. Le due matrici sono utilizzate nel caso in cui il valore di una serie di variabili, le indipendenti, determinino il valore di un’altra serie di variabili, le dipendenti. La matrice X è definita “blocco X dei predittori” mentre la matrice Y “blocco Y delle risposte”. Il numero delle osservazioni (n) delle due matrici è ovviamente identico. Se i campioni provengono da diverse popolazioni o appartengono a categorie differenti è possibile inserire questa informazione nel set di dati tramite la variabile categoria, rappresentata da un vettore che presenta numeri interi che designano le classi. In presenza di più categorie, il vettore diventa una matrice usualmente denominata matrice C (Figura 8.12).

Figura 8.12 – Schema di un set di dati multivariato.

In un sistema di questo tipo, l’elaborazione delle matrici permette di ottenere un modello di predizione qualitativa, attraverso il quale i campioni incogniti possono essere assegnati ad una classe di appartenenza, o quantitativa, attraverso il quale si ottiene la predizione del valore delle variabili del gruppo Y in campioni incogniti.

Una volta definito il sistema e la variabile risposta che si vuole ottenere, si costruisce il modello a partire dal set di dati del sistema (training set), passando da una prima forma generale ad una forma più specifica, in cui si sono eliminate le fonti di incertezza, ovvero le cause che apportano rumore nei dati e le fonti di errore. Questa fase è denominata fase di calibrazione. Il modello viene modificato per migliorare le sue capacità predittive e

renderlo stabile a piccole alterazioni di dati e delle condizioni iniziali. Il modello verrà poi testato, in una fase detta di validazione, misurando la sua capacità predittiva rispetto ad un nuovo sistema di dati (test set), descritto dalle stesse variabili utilizzate nella costruzione del modello stesso, di cui si conosce a priori la variabile risposta.

8.3.2.1 La regressione multivariata

I metodi di regressione multivariata sono capaci di trovare la migliore relazione tra un insieme di variabili che descrive gli oggetti studiati (matrice X) e un insieme di risposte misurate per gli stessi oggetti (matrice Y). La forma della relazione descrive la modalità con cui la descrizione del sistema si raccorda con la misura sperimentale (il cosiddetto fitting) mentre il modello che si va ad ottenere, una volta validato, sarà utilizzabile per predire le future risposte di oggetti di cui sono note solo le variabili che li descrivono, ma non le misure sperimentali. I metodi di regressione sono quindi metodi matematici che forniscono informazioni sulle relazioni quantitative tra un numero di descrittori indipendenti (i predittori) e la variabile risposta. Ogni variabile indipendente viene pesata tramite un coefficiente di regressione per assicurare la massima predizione. Il set delle variabili indipendenti pesate forma una combinazione lineare delle variabili indipendenti, detto modello di regressione, che meglio predice la variabile dipendente.

Il modello di regressione che viene costruito è un’equazione lineare della seguente forma:

dove y è il valore sperimentale della variabile risposta, x descrive le p variabili indipendenti e b i loro coefficienti di regressione, mentre E è il vettore del rumore del sistema.

La costruzione del modello viene effettuata tramite il calcolo matriciale, per cui un modello può essere indicato con la seguente notazione:

con Y matrice risposta (formata da n oggetti e m variabili risposta), X matrice dei predittori (formata da n oggetti e p numero di variabili), B matrice dei coefficienti di regressione (di grandezza p x m), ed E matrice dei residui (di stessa grandezza di Y), che esprime il rumore del modello.

8.3.2.2 Regressione parziale con minimi quadrati: PLS

La principale tecnica di regressione utilizzata in chemiometria è la regressione dei minimi quadrati parziali (Partial Least Square Regression, PLS), che combina i metodi di regressione con la costruzione delle componenti principali (paragrafo 8.2.1.1). La PLS è una tecnica biased in quanto tiene conto della presenza degli errori sistematici ed è quindi utile anche nel caso in cui il rapporto tra gli oggetti e le variabili sia molto basso o le variabili molto correlate tra loro, oppure in presenza di più risposte da predire. Un esempio è dato dalle variabili spettrali, di solito molto più numerose degli oggetti e molto correlate tra loro.

La regressione PLS mette in relazione due matrici di dati X e Y attraverso un modello multivariato utilizzando una regressione parziale con minimi quadrati. Il principio della PLS si basa sulla costruzione di nuove direzioni, dette variabili latenti, a partire dalle matrici X e Y, costruite però in modo tale da massimizzare anche la covarianza tra i predittori e le variabili risposta. Le variabili latenti differiscono quindi dalle componenti principali in quanto la loro costruzione è influenzata dalla variabile risposta Y. Le prime variabili latenti costruite, che massimizzano la varianza di ogni matrice, corrispondono alle variabili che meglio predicono la variabile risposta Y, in quanto esprimono la migliore correlazione tra le due matrici.

Nella pratica, l’algoritmo PLS decompone entrambe le matrici X e Y. Dalla matrice X si ottiene la matrice T degli scores, la matrice P dei loadings e la matrice E dei residui che descrive il rumore mentre dalla matrice Y si ottiene la matrice U degli scores, la matrice Q dei loadings e la matrice F dei residui:

Le due matrici degli scores vengono calcolate in modo tale da massimizzare sia la varianza all’interno delle matrici X e Y sia la covarianza tra le matrici T e U e minimizzare i residui nelle matrici E ed F (Figura 8.13).

Il calcolo delle variabili latenti non viene quindi effettuato separatamente per le due matrici, ma simultaneamente. L’algoritmo PLS cerca quindi di trovare la direzione multidimensionale dello spazio X che spiega la direzione di varianza multidimensionale massima dello spazio Y. Gli scores della matrice T vengono poi utilizzati per predire gli scores della matrice U (regressione di U su T) che a loro volta vengono utilizzati per predire la variabile risposta Y (Figura 8.14).

Quindi, se:

l’equazione finale del modello sarà:

dove B è la matrice dei coefficienti di regressione che mettono in relazione le matrici degli scores T e U. Questo processo non viene in realtà visualizzato e quello che l’algoritmo produce è il valore della variabile risposta Y a partire dalla matrice X dei predittori, motivo per cui le componenti principali vengono definite variabili latenti.

La PLS utilizza quindi il set di dati delle risposte in modo attivo durante l’analisi statistica, permettendo di bilanciare meglio l’informazione contenuta nelle matrici X e Y, riducendo l’effetto di grandi variazioni dei predittori, irrilevanti ai fini della descrizione del fenomeno e della predizione di oggetti incogniti. La PLS è il metodo di regressione multivariata meno restrittivo che ne permette l’utilizzo anche in casi speciali quali la presenza di un numero ridotto di osservazioni rispetto al numero di predittori. Il numero di variabili latenti ottimali viene poi scelto tramite uno dei metodi di validazione indicati nel paragrafo 8.3.4.

Nel caso in cui la risposta da predire sia solo una, e quindi che Y non sia una matrice ma un vettore, l’algoritmo PLS non calcola le variabili latenti per Y ma costruisce la matrice T degli scores, a partire dalla matrice X, sempre massimizzando la covarianza con il vettore risposta Y [Sadocchi, 1980] [Todeschini, 1998] [Nicolai, 2007] [Hair Jr, 2009].

Figura 8.14 – Schema grafico della costruzione PLS [CAMO, 2006b].

Nel documento Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino (pagine 138-143)