• Non ci sono risultati.

Analisi dei Componenti Principali (PCA)

6. L’ANALISI STATISTICA DEI DATI

6.2 Analisi dei Componenti Principali (PCA)

In tutti i casi in cui le variabili sono numerose e talvolta anche correlate tra loro, l'utilizzo dei metodi chemiometrici può aiutare a fornire una visione globale del problema, evidenziando le relazioni tra le variabili considerate e l'importanza relativa di ciascuna di esse nell'ambito di un determinato problema, e può inoltre mettere in evidenza le relazioni tra i campioni in base alla loro distribuzione nello spazio multi-dimensionale descritto dall'insieme delle variabili. Questi metodi trovano un vasto impiego per la soluzione di numerosi problemi, quali:

 esplorazione iniziale dei dati;

 evidenziazione dell'esistenza di gruppi omogenei di campioni non classificati a priori (cluster analysis);

 formulazione di modelli matematici per la predizione di risposte qualitative (classificazione);

 formulazione di modelli matematici per la predizione di risposte quantitative (regressione);

Il mancato utilizzo di questi metodi può causare la perdita di parte dell'informazione che può essere estratta dai dati in nostro possesso, in quanto non vengono considerati gli effetti multivariati, sinergici ed antagonisti che possono essere messi in evidenza solo utilizzando tecniche di analisi multivariata.

6.2.1 Descrizione dei dati

I dati grezzi da sottoporre ad analisi multivariata vengono rappresentati in una matrice formata da n righe, ciascuna delle quali corrisponde ad un campione (denominato "oggetto"), e da p colonne, che rappresentano le p variabili considerate, ciascuna espressa secondo l'unità di misura appropriata.

6.2.2 Esplorazione dei dati

L’analisi dei componenti principali è finalizzata ad estrarre la massima informazione possibile contenuta in una struttura di dati multivariati, sintetizzandola in poche combinazioni lineari delle variabili stesse. Questo metodo viene frequentemente impiegato nella prima fase di elaborazione dei dati e serve a dare una visione generale del problema, a capire le relazioni tra gli oggetti e/o le classi considerate ed a fornire un'indicazione preliminare sul ruolo delle variabili, mettendo eventualmente in luce la possibilità di eliminarne alcune che, essendo strettamente correlate tra loro, portano informazioni simili e possono quindi essere considerate ridondanti.

Dal punto di vista geometrico, PCA consiste in un processo di rotazione dei dati originali, effettuato in modo che il primo nuovo asse (che costituirà la prima componente principale) sia orientato nella direzione di massima varianza dei dati, il secondo sia perpendicolare al primo e sia nella direzione della successiva massima varianza dei dati, e così di seguito per tutti i p nuovi assi. Il numero di questi nuovi assi (le componenti principali, PC) sarà quindi pari al numero di variabili originali.

Poiché i componenti principali sono gli assi relativi alle direzioni di massima varianza, in ordine via via decrescente, la prima componente principale sarà in grado di spiegare la maggior percentuale di varianza, la seconda ne spiegherà un po' meno, la terza meno ancora e così via, fino a che le ultime componenti contribuiranno a spiegare poco o nulla della variabilità presente nei dati in esame. In questi casi è quindi possibile eliminare parte della variabilità residua (e quindi anche parte del "rumore" che accompagna l'informazione rilevante) prendendo in considerazione solo un numero di componenti, minore del numero delle variabili originali.

Un aspetto di grande rilevanza nello studio di problemi multivariati riguarda la possibilità di "vedere" graficamente i dati. L'analisi delle componenti principali ci fornisce una soluzione algebrica che ci consente anche rappresentazioni grafiche molto efficaci (Figura 24).

Ad esempio, dal grafico riportato in Figura 24 risulta che 4 variabili sono strettamente correlate tra loro in modo inverso:

 area cuneo con la percentuale di solubilità a 24 ore;  area piano con la percentuale di solubilità a 10 minuti

Si può inoltre fare un’altra rappresentazione grafica nella quale si evidenziano le analogie e le correlazioni tra i campioni stessi (Figura 25).

Figura 24. Rappresentazione grafica dei Loadings, ottenuto da una PCA.

In questo grafico si nota la formazione di 3 cluster, costituiti dai campioni A e G; F, N e O; I, D e H. Infine è possibile correlare i due grafici deducendo, ad esempio, che i campioni I, D e H sono influenzati da un alto valore di solubilità a 24 ore, mentre sui campioni pesa l’influenza della solubilità a 10 minuti.

6.2.3 Applicazioni della PCA

Le tecniche di analisi dei componenti principali trovano applicazione nei casi in cui è necessario esplorare una situazione che può esser nota od anche completamente incognita, al fine di trovare correlazioni ed analogie tra i parametri che la caratterizzano e le risposte operative che essa fornisce. E’ quindi possibile estrarre tutta l’informazione di possibile anche da set complessi di dati, riuscendo a caratterizzare, classificare, descrivere e modellizzare il sistema oggetto di studio.

Questo metodo viene frequentemente impiegato nella prima fase di elaborazione dei dati e serve a dare una visione generale del problema, a capire le relazioni tra gli oggetti e/o le classi considerate ed a fornire un'indicazione preliminare sul ruolo delle variabili, mettendo eventualmente in luce la possibilità di eliminarne alcune che, essendo strettamente correlate tra loro, portano informazioni simili e possono quindi essere considerate ridondanti.

Dal punto di vista geometrico, la PCA consiste in un processo di rotazione dei dati originali, effettuato in modo che il primo nuovo asse (che costituirà la prima componente principale) sia orientato nella direzione di massima varianza dei dati, il secondo sia perpendicolare al primo e sia nella direzione della successiva massima varianza dei dati, e così di seguito per tutti i p nuovi assi. Il numero di questi nuovi assi (le componenti principali, PC) sarà quindi pari al numero di variabili originali. Poiché i componenti principali sono gli assi relativi alle direzioni di massima varianza, in ordine via via decrescente, la prima componente principale sarà in grado di spiegare la maggior percentuale di varianza, la seconda ne spiegherà un po' meno, la terza meno ancora e così via, fino a che le ultime componenti contribuiranno a spiegare poco o nulla della variabilità presente nei dati in esame. In questi casi è quindi possibile eliminare parte della variabilità residua (e quindi anche parte del "rumore" che

accompagna l'informazione rilevante) prendendo in considerazione solo un numero di componenti, minore del numero delle variabili originali.

Un aspetto di grande rilevanza nello studio di problemi multivariati riguarda la possibilità di "vedere" graficamente i dati. L'analisi delle componenti principali ci fornisce una soluzione algebrica che ci consente anche rappresentazioni grafiche molto efficaci.