• Non ci sono risultati.

Un esempio

Nel documento Dispense di Statistica II (pagine 65-68)

2.2 Il metodo delle componenti principali

2.2.2 Un esempio

Esempli…chiamo quanto detto. Esaminiamo cinque potenziali indicatori di benessere nelle diverse regioni italiane:

X1 = PLIC (posti letto in istituti di cura) X2 = SC (spese complessive per famiglia)

X3 = SA.SC (proporzione di SC dedicata agli alimentari) X4 = TD (tasso di disoccupazione)

X5 = TMI (tasso di mortalità infantile)

Ad ogni regione italiana R possiamo associare un vettore con cinque coordinate:

R$ X1(R) X2(R) X3(R) X4(R) X5(R)

Per non falsare l’indagine è conveniente standardizzare i dati: calcoliamo per ogni indicatore Xn la sua media n e la sua deviazione standard ne costruiamo una nuova tabella di dati dove sostituiamo ad ogni valore x di ogni indicatore Xn il valore stan-dardizzato x n

n . In questo modo ora ogni indicatore ha la stessa media 0 e la stessa deviazione standard 1, e la matrice di covarianza Q coincide quindi con la matrice di correlazione.

Ci troviamo quindi con 20 punti disposti su una nuvoletta simile a un’ellissoide in 5 dimensioni. Nessuno riesce a visualizzare una tale …gura, e l’idea di base del metodo PCA è quella di operare un cambio di variabili, cioè un cambio di base nel nostro spazio vettoriale di dimensione 5, che grosso modo ruoti la nuvola elissoidale in modo da poterla vedere dall’angolazione migliore, cioè in modo da averne una proiezione bidimensionale dove i dati sono il più distinti possibile tra loro.

Detta A la tabella dei dati regionali relativi ai cinque indicatori suddetti, calcoliamo pca<-princomp(A)

Il nome pca vale come qualsiasi altro, nonostante l’allusione al metodo; il comando di R è princomp(A).

Con il comando: biplot(pca)

Essa contiene tre elementi: i due nuovi assi, la proiezione dei punti sul piano princi-pale ed alcune freccie rosse corrispondenti alle variabili originarie. Gli assi orizzontale e verticale sono rispettivamente la prima e la seconda componente principale.

Osservazione 28 Mentre i punti del biplot sono le vere proiezioni dei punti di parten-za sul piano principale, quindi i legami tra gli individui mostrati dal biplot si possono prendere alla lettera (modulo il fatto che sono una proiezione) le frecce rosse non sono le proiezioni degli assi canonici sul piano principale, come si potrebbe pensare (se così fosse, sarebbe comune trovarne alcune molto più corte di altre). Tralasciamo l’algo-ritmo con cui vengono calcolate, osservando solo sperimentalmente che essere danno informazioni tra i loro legami e quelli con gli assi principali, attraverso allineamenti e perpendicolarità. Per quanti…care la vera correlazione tra gli indicatori di partenza, bisogna leggere la matrice di correlazione delle variabili di partenza, tramite il coman-do cor(A), non prendere alla lettera il gracoman-do di perpendicolarità delle frecce rosse. Analogamente, per conoscere il legame matematico preciso tra gli assi di partenza e quelli principali, bisogna leggere i loadings, di cui parleremo nella prossima sezione.

Una prima analisi qualitativa può essere svolta in base ai rapporti tra i vettori che rappresentano i nostri indicatori (ortogonalità, parallelismo con versi concordi o discordi, ecc.), e ai raggruppamenti e alle posizioni dei dati. Nel nostro esempio, guardando la …gura, alcune delle considerazioni che possiamo fare (per quanto naturali e più o meno note, visto che conosciamo abbastanza bene la situazione nazionale del benessere) sono:

SC, TD e SA.SC sono tutti essenzialmente paralleli, a indicare una forte corre-lazione tra di loro: potremmo ad esempio leggere la loro direzione comune come un indicatore complessivo di benessere economico.

2.2. IL METODO DELLE COMPONENTI PRINCIPALI 67 Il verso di SC e opposto a quelli di TD e SA.SC, segno che questi indicatri sono correlati negativamente: come ci si aspetta, una maggior disoccupazione media si ri‡ette su una minore spesa complessiva media (a TD alto corrisponde SC basso, e viceversa), mentre se la spesa complessiva media e molto bassa questa sarà, come e naturale, in gran parte dedicata agli alimentari (a SC basso corrsiponde SA.SC alto, e viceversa). Allo stesso modo, la correlazione positiva tra TD e SA.SC indica che nelle zone di più alta disoccupazione le (poche) spese sono destinate per lo più ai generi alimentari.

PLIC e TM sono abbastanza paralleli tra loro (in analogia a quanto visto sopra potremmo leggere la loro direzione comune come un indicatore complessivo di salute), ma correlati negativamente, come è naturale.

PLIC e TM sono abbastanza perpendicolari agli altri indicatori, segno che i due gruppi, e quindi le due direzioni indicatore complessivo di benessere economico e indicatore complessivo di salute, sono abbastanza scorrelati tra loro. Tuttavia notiamo le lievi correlazioni positive nelle direzioni che ci aspettiamo: maggiori posti letto dove ci sono maggiori spese complessive, e maggior mortalità infantile dove c’è più disoccupazione e le spese sono in prevalenza alimentari.

L’area di maggior benessere e quella nella direzione positiva di SC, con un po’ di spostamento verso PLIC. In tale zona si trovano fortemente raggruppate varie regioni (Veneto, Trentino Alto Adige, Lombardia, Piemonte, Emilia Romagna, Marche e Toscana), che pertanto risultano molto simili rispetto agli indicatori considerati.

Le altre regioni del centro-nord (Liguria, Friuli, Lazio) non eccellono in SC ma eccellono in PLIC, a indicare una buona cura sanitaria nonostante un tenore di vita medio più modesto rispetto al gruppo precedente.

Particolarmente negativo, sia rispetto all’asse del benessere economico che a quel-lo della salute, risulta il raggruppamento composto da Campania, Sicilia, Basilica-ta e Puglia, in maniera molto più accentuaBasilica-ta rispetto ad altre regioni meridionali o insulari (come Calabria e Sardegna) che nell’immaginario colettivo potremmo invece credere ad esse simili. Questo potrebbe indicare uno sforzo di migliora-mento di alcune regioni, e potrebbe ad esempio suggerire l’analisi di altri dati più mirati per averne verica o smentita.

L’orientazione delle variabili di partenza rispetto alle componenti principali può inoltre suggerire delle potenziali interpretazioni delle due componenti principali. E’ ragionevole associare e1 alle tre variabili SC, SA.SC e TD, in quanto ha componenti maggiori in tali direzioni. Allo stesso modo, ha senso associare e1 a PLIC e TMI. Una possibile interpretazione delle prime due componenti principali, cioè delle nuove

variabili aleatorie, potrebbe quindi essere quella dove la prima descrive il benessere di topo economico e la seconda quello sanitario.

Nell’esempio sugli indicatori di benessere, possiamo così veri…care quanto avevamo già stabilito: la forte correlazione (con il giusto segno) tra SC, SA.SC e TD, l’assenza di legame tra PLIC e SC e TD, la correlazione negativa ma non troppo marcata tra PLIC e TMI, e via dicendo. Notiamo, rispetto a quanto già detto basandoci sulla …gura, la correlazione (anche se non forte) di TMI non solo con PLIC, ma quasi allo stesso modo anche con le tre variabili economiche, negativa o positiva nel modo che ci aspettiamo. Per quanto appena detto, può essere una buona idea a¢ ancare l’esplorazione visiva o¤erta da PCA agli altri metodi quando si voglia creare un modello regressivo, in particolare quando si voglia ridurne la dimensione: oltre a vedere i valori della matrice di correlazione ed i p-value, conviene avere un ulteriore controllo o¤erto dal biplot di PCA. Si intende che PCA può essere applicata alla tabella contenente anche la variabile di output.

Nel documento Dispense di Statistica II (pagine 65-68)

Documenti correlati