• Non ci sono risultati.

8.3 Calibrazione multivariata e modelli di predizione

8.3.5 Parametri di valutazione dei modelli di regressione

8.3.5.1 Valutazioni grafiche dei modelli di regressione

È possibile valutare anche graficamente la bontà di un modello. Il grafico “Predetto contro misurato” mostra la correlazione tra la variabile predetta dal modello e la variabile sperimentale (Figura 8.16).

La correlazione r tra le due variabili è calcolata tramite la formula di Pearson:

dove COV(X1,X2) indica la covarianza tra le due variabili X1 e X2 (nel caso del modello

rappresentate dalle variabili Y predetta e Y sperimentale) e Sx1 e Sx2 sono le deviazioni

standard delle due variabili. La covarianza è data da:

Marco Caredda. Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino. Tesi di dottorato in Scienze chimiche, Ciclo XXVI, Università degli studi di Sassari.

dove i valori indicati col simbolo sono i valori medi delle due variabili. La retta costruita è della forma:

dove a, il coefficiente angolare della retta, o slope, è dato da:

e dove b, l’intercetta o offset, è dato da:

Il valore di correlazione è però influenzato dal range di concentrazione studiato [Davies, 2006], assumendo valori maggiori all’aumentare di esso. Ha quindi solo un valore indicativo per cui l’efficacia del modello non può essere valutata in base ad esso.

Figura 8.16 – Grafico “Predetto contro Misurato”.

Dal grafico “Predetto contro misurato” è possibile individuare graficamente i campioni che possiedono un residuo molto alto. Se un campione ha un residuo molto grande, e quindi chiaramente distante dalle altre osservazioni disponibili, è probabile che sia un outlier, ovvero un campione anomalo e aberrante (Figura 8.17). Un oggetto con un residuo molto alto può influire in modo maggiore sulla pendenza della retta rispetto ad un oggetto con un

Marco Caredda. Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino. Tesi di dottorato in Scienze chimiche, Ciclo XXVI, Università degli studi di Sassari.

residuo più piccolo. Questo effetto, chiamato leverage, definisce quindi quanto un dato oggetto ha influenza sulla costruzione del modello. Il leverage di un dato oggetto aumenta all’aumentare della sua distanza dal centroide dello spazio del modello. Nel centroide il leverage è nullo, e tale è la sua influenza sulla costruzione del modello, mentre è massimo nei punti più distanti dal centro del modello. Gli oggetti con leverage molto alto hanno una notevole influenza sul modello.

In Figura 8.18, si può vedere, in modo volutamente accentuato, come la presenza di due oggetti molto distanti dal centroide, che si discostano dal resto delle osservazioni, causino una variazione del coefficiente angolare della retta.

Figura 8.17 – Grafico “Predetto contro Misurato”: oggetti con residui elevati.

Marco Caredda. Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino. Tesi di dottorato in Scienze chimiche, Ciclo XXVI, Università degli studi di Sassari.

Come per la varianza spiegata (Figura 8.15), è possibile mettere in grafico l’andamento della varianza residua (sia dei predittori che della variabile risposta) in funzione del numero di variabili latenti considerate (Figura 8.19).

Un buon modello usa un numero di variabili latenti che spiegano un’alta percentuale di varianza e la cui varianza residua tende allo zero.

Figura 8.19 – Andamento della varianza residua in funzione delle variabili latenti (PCs)

Esistono una serie di grafici che permettono la visualizzazione dei residui, delle varianze, degli outliers e del leverage, mettendoli in relazione uno con l’altro o con altri parametri. Di grande utilità è il plot diagnostico T2 vs Q (Figura 8.20). L’indice T2 rappresenta una variazione sistematica dei campioni ed il suo valore è legato al leverage posseduto dal campione. All’aumentare di T2, aumenta il leverage che un campione può possedere. T2 descrive quanto il campione differisce dalla media e indica la distanza di un punto dal modello, nello spazio del modello. L’indice Q rappresenta una variazione disarmonica ed è relazionata alla varianza residua che un campione possiede. Q indica la distanza di un punto dallo spazio del modello. Il grafico mette quindi in relazione la varianza residua dei campioni (sia della X che della Y) con il loro leverage. Gli oggetti che presentano sia alta varianza residua che alto leverage, e che quindi si ritrovano nella parte in alto a destra nel grafico, sono da considerare pericolosi per la costruzione del modello in quanto, oltre ad essere descritti male dal modello, hanno un’alta influenza nella sua costruzione.

Marco Caredda. Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino. Tesi di dottorato in Scienze chimiche, Ciclo XXVI, Università degli studi di Sassari.

La visualizzazione grafica dell’andamento dell’errore in calibrazione e predizione è invece utile per decidere il numero di variabili latenti necessarie per la predizione. Più basso è l’errore in predizione, migliore è il modello costruito.

Figura 8.20 – Plot diagnostico T2 vs Q

Figura 8.21 – Andamento degli errori in calibrazione e validazione rispetto al numero di variabili

Marco Caredda. Messa a punto e validazione di metodi analitici aspecifici online impieganti strumentazione a Trasformata di Fourier per la determinazione di macro e microanaliti in latte ovino. Tesi di dottorato in Scienze chimiche, Ciclo XXVI, Università degli studi di Sassari.

In Figura 8.21 si può vedere l’andamento monotono dell’errore in calibrazione dovuto al fatto che, incrementando il numero di variabili latenti, il modello tende a inglobare anche il rumore dei dati, adattandolo ad essi. L’errore in validazione, ovvero l’errore di predizione, ha un andamento differente in quanto la quantità di rumore dei dati del set esterno è diversa di quella dei dati del set di calibrazione, quindi la parte di modello che si adatta sul rumore dei dati di calibrazione provoca sicuramente un errore quando viene utilizzata con dati con rumore differente [Todeschini, 1998] [CAMO, 2006a] [CAMO, 2006b] [Soyeurt, 2011] [Ferrand, 2011].