• Non ci sono risultati.

Analisi delle componenti principali (PCA)

Metodi di statistica multivariata

3.1 Analisi delle componenti principali (PCA)

L’analisi dei componenti principali (PCA, Principal Component Analysis) è una tecnica statistica che permette di riassumere il contenuto informativo di una matrice di dati X selezionando le direzioni di massima variabilità del set di dati stesso; poiché le variabili originali, correlate tra loro, sono caratterizzate da direzioni di variabilità comuni, esse possono essere ridotte mediante trasformazioni lineari in un numero inferiore di variabili trasformate, ortogonali tra loro, chiamate componenti principali (Jackson, 1991). Inoltre, tali combinazioni lineari riassumono i dati originali minimizzando la perdita di informazione (Mardia et al., 1979), in modo da condensare il contenuto informativo orginale in un set di dati di dimensione inferiore, ma che spieghi la maggior parte della varianza sistematica. Si supponga di avere una matrice di dati originali X di dimensione [N ×M], in cui N è il numero dei campioni ed M quello delle variabili; da un punto di vista matematico, la procedura sopra descrittà è equivalente a decomporre la matrice X in una serie di R matrici Ci, i = 1, 2, . . . , R, in cui R è il rango di X:

X = C1 + C2 + · · · + CR (2.1)

R = rank(X) (2.2)

Normalmente, tuttavia, un modello PCA è limitato alle prime D componenti principali (PC), lasciando le rimanenti quote marginali di varianza nella matrice dei residui E. Il criterio di scelta del numero ottimale di componenti principali è basato sull’andamento della radice dell’errore quadratico medio (Root Mean Square Error, RMSE) in convalida incrociata, al variare del numero delle componenti principali considerate.

La convalida incrociata utilizzata in questa tesi segue un algoritmo leave-one-out, basato

44 sulla costruzione di N distinti modelli, ottenuti eliminando di volta in volta un solo campione dal set di calibrazione, e proiettandolo sul modello costruito sugli altri. Il numero D di PC è scelto al fine di minimizzare tale parametro, che rappresenta lo scarto tra la matrice di dati originali e quella ottenuta dal modello PCA.

Inoltre, le sottomatrici Ci possono essere scritte come prodotto vettoriale di due vettori ti e pi, definiti score e loading. L’equazione (2.1) è quindi riscrivibile come:

in cui la matrice dei residui E è ottenuta come differenza tra la matrice X dei dati originali e quella X ottenuta dal modello PCA, proiezione di X nell’iper-spazio D-dimensionale delle componenti principali:

Ciò può essere espresso anche dalla rappresentazione grafica di Figura 3.1

Figura 3.1. Decomposizione della matrice di dati originali X nelle matrici T e P si score e loading, a meno della matrice di residui E.

45 I valori di score e loading possono essere calcolati a partire da una decomposizione ai valori singolari di una trasformata della matrice di covarianza S di X:

Gli elementi diagonali di L sono le radici caratteristice (cioé gli autovalori) di S, mente le colonne di U vengono definite vettori caratteristici o autovettori. Gli autovalori possono essere ottenuti dalla soluzione della seguente equazione caratteristica o da una decomposizione ai valori singolari di S:

in cui I è la matrice identità. L’equazione (2.14) produce un polinomio in l, da cui si ricavano gli autovalori ld.

Gli autovettori vengono invece ottenuti risolvendo le equazioni:

46 in cui x è un vettore di campioni di variabili originali opportunamente (auto)scalato, cioè centrato sulla propria media e con varianza unitaria.

Da un punto di vista geometrico, la procedura appena descritta è equivalente ad una rotazione degli assi principali rispetto alle coordinate cartesiane originali x1 ed x2; i coseni direttori di

questa rotazione sono dati dagli elementi degli autovettori pα, mentre gli score tα indicano la

coordinata spaziale lungo questo nuovo asse principale. Si riporta in Figura 2.2 una rappresentazione grafica di quanto detto.

É tuttavia necessario sottolineare come, nella pratica, l’equazione (2.14) venga utilizzata solo per polinomi di grado ≤ 3; per ordini superiori, la risoluzione diretta viene abbandonata a favore di metodi iterativi (Geladi e Kowalski, 1986), più efficienti dal punto di vista computazionale.

3.1.1. Interpretazione dei risultati: analisi delle componenti principali

Oltre alla diminuzione del numero di variabili originali, l’analisi PCA consente anche di estrarre informazioni circa la correlazione tra le variabili e/o tra i campioni. Generalmente, ciò viene dedotto analizzando la distribuzione di loading e score, che nello spazio latente rappresentano rispettivamente le variabili ed i campioni. Nello specifico, la vicinanza di uno o più loading nello spazio delle componenti principali è caratteristica di una correlazione tra le variabili che rappresentano, mentre la vicinanza tra score esprime la correlazione tra diversi campioni. Si riporta in Figura 2.3 un esempio di queste due rappresentazioni; si

Figura 3.2. Rappresentazione geometrica dell’analisi PCA; significato di loading pi,

equivalenti ai coseni direttori del nuovo asse principale, e degli score ti, equivalenti alla

47 considerano 7 campioni (A, B,. . . ,G), ciascuno dei quali è rappresentato da 5 variabili (1,2,. . . ,5).

In Figura 3.3a è possibile individuare una correlazione piuttosto significativa tra le variabili 4 e 5, i cui loading sono molto vicini tra loro; viceversa, la variabile 1 è collocata nel quadrante opposto rispetto ad esse, e ciò è rappresentativo di una anticorrelazione rispetto alla coppia di variabili precedenti. Dal grafico 3.3b, inoltre, si nota una significativa correlazione tra i campioni B e D, caratterizzati da una certa vicinanza nello spazio degli score.

La procedura appena esposta è molto veloce ed efficace quando il numero delle componenti principali selezionate è limitato, poiché in questi casi le prime PC sono esplicative di quote sensibili di varianza spiegata e l’analisi grafica può essere limitata alle prime componenti principali, rappresentative delle maggiori quote di varianza spiegata. Tuttavia, quando il numero di PC è elevato e la percentuale di varianza spiegata è limitata anche per le prime componenti principali, queste rappresentazioni dovrebbero essere ripetute tra tutte le coppie di PC esplicative di quote di varianza sufficientemente elevate; ciò rende l’analisi

grafica piuttosto lunga ed articolata, e fa emergere l’esigenza di un indicatore sintetico che possa riassumere tutti i singoli grafici in un unico dato.

Documenti correlati