4.8 Tecniche di correlazione
4.8.3 Statistica multivariata
La statistica multivariata in generale si pone lo scopo di esaminare i legami che intercorrono tra un numero finito di variabili.
Fanno parte della statistica multivariata i seguenti metodi: 1. La matrice di correlazione
2. Metodo delle componenti principali 3. Modelli lineari
4. Tecniche di clustering
4.8.3.1 La matrice di correlazione
Date le variabili aleatorie X1,…,Xp che formano un vettore aleatorio, possiamo calcolare la matrice di covarianza di questo vettore:
( ( ))
Tale matrice fornisce una prima serie di informazioni sui legami tra le variabili, con l’unica fondamentale limitazione che si tratta di legami a due a due.
Solitamente si preferisce utilizzare la matrice di correlazione in quanto è indipendente dalla scala dei dati e fornisce risultati più facilmente interpretabili.
Lorenzo Meli
85La correlazione si ottiene dividendo la covarianza di due variabili aleatorie per il loro scarto quadratico medio:
( ( ))
(
( ) )
Se abbiamo n rilevazioni di p variabili aleatorie, i dati hanno la forma di una matrice:
Tabella 4.11 - Matrice di correlazione
X1 … Xp
1 x1,1 … x1,p
2 x2,1 … x2,p
… … … …
n Xn,1 … xn,p
Le colonne rappresentano le variabili prese in considerazione, mentre le righe corrispondono alle rilevazioni sperimentali che abbiamo a nostra disposizione. Per estrarre informazioni sui legami tra le variabili, si può calcolare la matrice di correlazione vista sopra. Nella matrice di covarianza, l’elemento di posto (i,j) è la covarianza empirica tra i vettori (Xi,1,…,Xi,p) e (Xj,1,…,Xj,p).
La matrice di correlazione fornisce immediatamente delle informazioni sui legami tra le variabili, a due a due. Tali informazioni sono basate sulle osservazioni sperimentali di quelle particolari unità.
Tabella 4.12 - Punti di forza e debolezza della matrice di correlazione
Punti di Forza Punti di Debolezza
 Metodo di semplice
applicazione
 Confronto delle variabili a coppie
Lorenzo Meli
864.8.3.2 Analisi delle componenti principali
L’analisi delle componenti principali (detta pure PCA oppure CPA) è una tecnica utilizzata nell’ambito della statistica multivariata per la semplificazione dei dati d’origine.
Lo scopo primario di questa tecnica è la riduzione di un numero più o meno elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno analizzato) in alcune variabili latenti (dette appunto Componenti Principali). Ciò avviene tramite una trasformazione lineare delle variabili che proietta quelle originarie in un nuovo sistema cartesiano nel quale le variabili sono ordinate in ordine decrescente di varianza: pertanto, la variabile con maggiore varianza viene proiettata sul primo asse, la seconda sul secondo asse e così via. La riduzione della complessità avviene limitandosi ad analizzare le principali (per varianza) tra le nuove variabili.
La PCA risulta utile soprattutto quando si ha a che fare con un numero di variabili considerevole da cui si vogliono estrarre le maggiori informazioni possibili pur lavorando con un set più ristretto di variabili: la PCA consente quindi di controllare egregiamente il “trade-off” tra la perdita di informazioni e la semplificazione del problema (basta scegliere il numero appropriato di auto vettori).
Il piano principale che rappresenta i dati attraverso le componenti principali, può essere un valido supporto per meglio comprendere la correlazione tra i dati.
Lorenzo Meli
87Figura 4.24-Esempio piano principale del metodo PCA
Il parallelismo tra gli indicatori (frecce rosse) descrive una forte correlazione positiva tra questi; viceversa, la perpendicolarità indica una forte scorrelazione tra gli indicatori.
Tabella 4.13 - Punti di forza e debolezza dal metodo PCA
Punti di Forza Punti di Debolezza
 Consente di individuare la correlazione tra le variabili studiate.
 Individua delle componenti principali che spiegano la varianza dei fenomeni utilizzati
 È necessaria una grande quantità di dati
 Il metodo soffre la
mancanza di dati
 Il risultato è molto
Lorenzo Meli
884.8.3.3 Modelli lineari
I modelli lineari descrivono le relazioni matematiche tra variabili aleatorie: in tali relazioni appariranno variabili di input, dette fattori o predittori, e variabili di output, dette ad esempio risposte oppure osservabili. Le relazioni più semplici tra queste variabili sono quelle lineari o affini, cioè nella forma:
Dove i numeri aij sono i coefficienti della relazione, i numeri bi sono le intercette, mentre le espressioni sono variabili aleatorie che rappresentano gli errori presenti nella relazione.
Nel caso di una sola variabile di output Y ed uno o più fattori di input X1,…, Xn abbiamo la regressione lineare semplice (un fattore) o regressione lineare multipla (più fattori).
4.8.3.4 Regressione lineare semplice
Il modello di regressione lineare è:
Dove a, b e  sono numeri reali. Partendo dai valori di X e Y della relazione lineare, siamo in grado di:
 Calcolare i coefficienti del modello a, b e 
 Individuare il coefficiente di correlazione nell’ambito del modello lineare
Entrambi gli scopi sono raggiunti calcolando valori medi, varianze e covarianze tra le diverse grandezze in gioco e otteniamo:
( )
Lorenzo Meli
89
La bontà del modello è indicata dalla cosiddetta varianza spiegata, ovvero la percentuale di varianza che il modello è in grado di descrivere, rispetto alla varianza totale del fenomeno studiato. Tale concetto di varianza spiegata è indicata attraverso l’indice R^2.
La regressione lineare semplice ci aiuta quindi a capire se e come due variabili X e Y sono tra loro linearmente correlate.
Tabella 4.14 - Punti di forza e debolezza della regressione lineare semplice
Punti di Forza Punti di Debolezza
 Metodo di facile
comprensione
 Consente l’utilizzo di una sola variabile per descrivere un certo fenomeno
4.8.3.5 Regressione lineare multipla
In linea di massima la statistica non è in grado di dimostrare la presenza di relazioni causa-effetto tra variabili; è in grado di quantificare il legame che intercorre tra loro. Ipotizzando una relazione causa-effetto, la regressione lineare multipla quantifica tale relazione, scoprendo il valore dei coefficienti di un modello input-output tra le grandezze in gioco, modello che poi può essere usato per scopi di previsione.
Il metodo di regressione lineare semplice sopra illustrato può essere esteso al caso in cui più variabili X1,…,Xp contribuiscono a spiegare la variabile dipendente Y.
Lorenzo Meli
90Tale modello è detto di regressione lineare multipla ed è matematicamente rappresentabile così:
Scopo del modello è capire se e come le variabili X1,…,Xp influiscono su Y. La bontà del modello lineare è misurata dallo scarto quadratico medio dei residui.
( ) ∑
In cui residui sono calcolati:
( )
Tabella 4.15 - Punti di forza e debolezza della regressione lineare multipla
Punti di Forza Punti di Debolezza
 Consente di descrivere un fenomeno attraverso più variabili
 Più complesso rispetto al metodo precedente
4.8.3.6 Analisi fattoriale
L'analisi fattoriale è una tecnica statistica che si propone di determinare un numero di variabili "latenti" più ristretto e riassuntivo rispetto al numero di variabili di partenza.
Un semplice esempio di analisi fattoriale in cui ho un fattore e due output è il seguente:
Lorenzo Meli
91In tale modello, Y1 e Y2 sono correlate ma non sono in relazione causa-effetto tra di loro. Lo scopo dell’analisi fattoriale è quello di individuare la (o le) variabile latente X che spieghi Y1 e Y2, si tratta cioè di spiegare la variabilità degli output attraverso dei fattori comuni (la X) e dei fattori specifici (b1 e b2).
Tabella 4.16 - Punti di forza e debolezza analisi fattoriale
Punti di Forza Punti di Debolezza
 Consente di individuare variabili nascoste che descrivono determinati fenomeni