• Non ci sono risultati.

Il metodo PCA per capire la dimensione di un problema

2.3 Il metodo delle componenti principali

2.3.2 Il metodo PCA per capire la dimensione di un problema

Se X `e gaussiano anche V lo `e, quindi l’ultima affermazione del teorema `e verificata. Osservazione 2.1. Le proiezioni Vi sono le coordinate di X rispetto alla base e1, ..., ep:

X =< X, e1 > e1+ · · · + < X, ep > ep = V1e1+ · · · + Vpep.

Quindi la varianza totale del vettore X `e λ1+ · · · + λp

pari a V ar[V1] + · · · + V ar[Vp].

Pertanto si pu`o vedere il numero λ1

λ1+···+λp come la proporzione di varianza spie-

gata dall’asse principale e il numero λ1+λ2

λ1+···+λp come la proporzione di varian-

za spiegata dal piano principale (detta anche varianza spiegata cumulativa).

2.3.2

Il metodo PCA per capire la dimensione di un proble-

ma

Con dimensione di un problema intuitivamente si intende un indicatore della sua complessit`a.

La varianza lungo le componenti principali `e utile per farsi un’idea della dimensione dei dati, cio`e quante componenti sono necessarie per analizzare i dati in maniera esaustiva.

La varianza spiegata cumulativa `e il principale parametro dell’efficacia del metodo PCA, dato che quantifica l’accuratezza della visualizzazione dei dati data dal piano principale.

2.3 Il metodo delle componenti principali 23 In genere, si considera il metodo PCA efficiente quando il piano principale rappre- senta l’80% o 90% della varianza totale dei dati, cio`e quando la parte di informazione persa attraverso la proiezione bidimensionale si aggira attorno al 10-20% del totale. Tuttavia, anche quando la rappresentazione bidimensionale data dal piano principale `e insufficiente, il metodo PCA rimane comunque un buon metodo per comprendere meglio i dati analizzati, in particolare indicando quante variabili al minimo bastano per rappresentarli efficacemente.

Vediamo un esempio.

Esaminiamo cinque potenziali indicatori di benessere nelle diverse regioni italiane: X1 = PLIC (posti letto in istituti di cura)

X2 = SC (spese complessive per famiglia)

X3 = SA.SC (proporzione di SC dedicata agli alimentari)

X4 = TD (tasso di disoccupazione)

X5 = TMI (tasso di mortalit`a infantile)

e consideriamo la seguente tabella di dati:

PLIC SC SA.SC TD TMI Sicilia 0.08833073 0.471218868 -0.70738393 -0.6079983 -0.395594374 Valle d’Aosta -1.54531281 0.348570963 -0.64222892 -0.8134750 1.578973068 Basilicata 0.20230586 1.397587799 -0.83615834 -0.7908017 -0.538580292 Campania 0.67720223 0.435951016 -1.26986734 -0.9665197 -0.075578271 Puglia 0.08833073 1.334386404 -1.21054741 -0.8489020 -0.497727172 Sardegna 0.63921052 -0.005441075 -1.02808828 -0.8049725 -1.301171855 Liguria 1.19009032 -0.247332925 0.47073536 -0.4294462 -0.354741254 Calabria 0.65820638 1.177628694 -1.31590440 -0.8630728 -0.347932401 Abruzzo 0.12632244 1.092670016 -0.79594148 -0.6448424 -1.355642681 Umbria -1.43133768 0.675982968 -0.14084928 -0.5243906 -1.287554149 Marche 0.27828928 1.090985581 -0.26509116 -0.7029427 -0.000680885 Molise 2.32984163 0.546807878 -0.08030122 -0.1134373 -0.014298592 Toscana 0.33527684 -0.373279515 0.40242546 -0.4563707 0.040172234 Lazio 0.65820638 -1.289120729 0.06583846 0.4519778 -1.151377084 Trentino Alto Adige -1.81125478 -1.314422342 2.03132778 1.6649986 0.414659163

Veneto -0.76648275 -0.926405778 1.03856609 0.6489520 1.109162194 Lombardia -0.74748690 -1.154085209 0.66193679 0.8445091 2.001121969 Emilia Romagna -0.50054078 -1.727319412 1.57182583 2.1538913 0.632542467 Piemonte -0.91844959 -1.130924231 1.33235861 1.5176222 1.783238665 Friuli-Venezia Giulia 0.44925197 -0.403458971 0.71734736 1.285221 -0.238990749

Ci troviamo quindi con 20 punti disposti su una nuvoletta simile ad un’elissoide in 5 dimensioni. E’ abbastanza difficile visualizzare una tale figura; l’idea di base del metodo PCA `e quella di operare un cambio di variabili, cio`e un cambio di base dello spazio vettoriale di dimensione 5 in cui stiamo lavorando, in modo da avere una proiezione bidimensionale dove i dati sono, come al solito, il pi`u distinti tra loro. Per fare ci`o, `e necessario innanzitutto calcolare la matrice di covarianza Q relativa alla tabella dei dati

Q =       1 0.32 −0.41 −0.37 −0.44 0.32 1 −0.84 −0.85 −0.48 −0.41 −0.84 1 0.90 0.51 −0.37 −0.85 0.90 1 0.49 −0.44 −0.48 0.51 0.49 1       e gli autovettori relativi agli autovalori maggiori; in questo caso risulta:

e1 = (−0.817, −1.302, 1.356, 1.338, 1)

e2 = (−1.749, 0.7, −0.484, −0.644, 1)

Successivamente si proiettano le realizzazioni sperimentali riassunte nella prima ta- bella (viste come punti di R5) sul piano principale:

Comp.1 Comp.2 Sicilia -2.85 0.51 Valle D’Aosta 0.43 5.36 Basilicata -4.72 1.01 Campania -4.21 0.28 Puglia -5.08 1.41 Sardegna -4.28 -1.41 Liguria -0.94 -2.56 Calabria -5.36 0.52 Abruzzo -4.82 -0.01 Umbria -1.90 2.09 Marche -2.95 0.86 Molise -2.90 -3.59 Toscana 0.19 -0.71 Lazio 0.68 -3.53 Trentino Alto Adige 8.59 0.61

Veneto 5.22 0.88 Lombardia 6.14 1.64 Emilia Romagna 8.30 -1.83

Piemonte 7.84 0.98 Friuli-Venezia Giulia 2.61 -2.48

2.3 Il metodo delle componenti principali 25 Per una visione grafica di tale risultato, si pu`o utilizzare il software R che, inseren- do la tabella dei dati, con il comando princomp calcola tutti i valori sopra riportati e li rappresenta attraverso il seguente grafico, che `e appunto la proiezione bidimen- sionale che stiamo cercando.

Una prima analisi qualitativa pu`o essere svolta in base ai rapporti tra i vettori che rappresentano gli indicatori (ortogonalit`a, parallelismo con versi concordi o discordi, ecc...), e ai raggruppamenti e alle posizioni dei dati:

• SC, TD e SA.SC sono quasi tutti paralleli, quindi vi `e una forte correlazione tra di loro: si pu`o pensare, ad esempio, alla direzione comune come a un indicatore complessivo di benessere economico.

• Il verso di SC `e opposto a quelli di TD e SA.SC, segno che questi indicatori sono correlati negativamente: una maggiore disoccupazione media si riflette su una minore spessa complessiva media, mentre se la spesa complessiva media `e molto bassa sar`a in gran parte dedicata agli alimentari. Allo stesso modo, la correla- zione positiva tra TD e SA.SC indica che nelle zone a pi`u alta disoccupazione le (poche) spese sono destinate per lo pi`u a generi alimentari.

• PLIC e TMI sono abbastanza paralleli tra loro: come sopra, si pu`o pensare alla direzione comune come a un indicatore complessivo di salute.

• PLIC e TMI sono abbastanza perpendicolari agli altri indicatori, indice che le due ”direzioni”’, indicatore complessivo di salute e indicatore complessivo di benessere economico, sono abbastanza scorrelati tra loro.

• L’area di maggiore benessere `e quella nella direzione positiva di SC, e in tale zo- na si trovano raggruppate le regioni Lombardia, Veneto, Friuli-Venezia Giulia, Emilia Romagna, Piemonte e Trentino Alto Adige.

• La Valle d’Aosta eccelle in PLIC, a indicare una buona cura sanitaria.

• Particolarmente negativo, sia rispetto all’asse del benessere economico che a quello della salute, risulta il raggruppamento composto da Puglia, Calabria, Basilicata, Marche, Sicilia, Campania e Abruzzo.

Una possibile interpretazione delle prime due componenti principali, cio`e delle nuove variabili aleatorie, potrebbe essere quindi quella dove la prima descrive il benessere di tipo economico e la seconda quello sanitario.

Pertanto, una buona idea quando si vuole creare un modello regressivo (o in partico- lare quando si vuole appunto ridurne la dimensione), `e quella di affiancare l’analisi della matrice di correlazione e di R2 all’esplorazione visiva offerta da PCA.

Capitolo 3

La classificazione degli individui

3.1

Problema della classificazione

In generale, nei problemi di classificazione si hanno due classi C1 e C2 (o pi`u di due) ed un individuo (o pi`u di uno) da classificare, cio`e da assegnare a una delle classi.

Per fare questo, si cerca di stabilire una regola che, dietro osservazione di alcune caratteristiche dell’individuo in esame, lo assegni ad una delle classi.

Ovviamente se le caratteristiche osservabili includono anche la classe stessa, non vi `e nessun problema da risolvere (ad esempio, se si deve decidere se un individuo `e bion- do o moro e si possono osservare i suoi capelli, l’assegnazione alla classe `e ovvia). Ci occuperemo, quindi, del caso in cui le caratteristiche osservabili siano in qualche modo indirette rispetto alle classi. Per capire meglio, si pensi ad un medico che deve stabilire se un paziente `e affetto da una certa malattia, la quale `e direttamente osservabile solo attraverso un’operazione chirurgica. Prima di sottoporre il paziente a tale intervento, il medico cercher`a di capire attraverso esami non invasivi (esami del sangue, visite esterne,...) a quale classe appartiene il paziente, C1 = sano o C2 = malato; `e importante ricordare che gli esami non invasivi non danno la cer- tezza di aver eseguito la classificazione corretta, la quale `e assicurata unicamente dall’operazione chirurgica.

Supporremo che le caratteristiche osservabili siano descritte da variabili X1, ..., Xm,

l’analogo dei fattori della regressione, mentre la classe viene descritta dall’output Y. Quindi, per riassumere, dobbiamo trovare delle regole che permettano di assegnare un individuo ad una delle due classi, C1 o C2, sulla base dei valori x1, ..., xm che

misuriamo per quell’individuo.

Come si pu`o costruire una tale regola?

L’idea `e quella di usare n altri individui di cui si conoscano sia i valori xi1, ..., xim,

i = 1, ..., n, sia la classe C1 o C2. Questo campione di individui viene chiamato 27

training set e pu`o essere riassunto in una tabella del tipo X1 · · · Xm Classe 1 x1,1 · · · x1,m C1 · · · · · · · · n1 · · · C1 n1+ 1 · · · C2 · · · · · · · · n xn,1 · · · xn,m C2

3.2

La regressione logistica

Come si `e studiato nel capitolo 1, la regressione `e un buon strumento per ripro- durre i valori di una variabile Y (l’output) in funzione dei valori assunti da una o pi`u variabili (i predittori).

`

E proprio grazie ai modelli regressivi che troviamo una soluzione al problema della classificazione: la regressione logistica.

Perch`e non si possono utilizzare i modelli della regressione lineare? Principalmente per due motivi:

1. Essendo che la v.a. Y rappresenta la classe, essa pu`o essere vista come una v.a. di Bernoulli. Nella regressione lineare la relazione tra l’output Y e i predittori `e appunto di tipo lineare additivo, Y = a1X1+ · · · + amXm + b + , quindi il

modello assume che i valori della variabile Y possano variare tra −∞ e +∞. Nel nostro caso, essendo Y una bernoulliana, `e espressa in termini di probabilit`a, quindi valori inferiori a 0 o superiori a 1 sono del tutto privi di senso;

2. La linearit`a degli effetti esercitati su Y `e uno dei presupposti della regressione lineare. Peraltro, dato che la probabilit`a ha un campo di variazione limitato abbiamo buone ragioni per pensare che l’effetto sulla variazione esercitato da un certo predittore non `e costante per tutti i livelli di probabilit`a su cui agisce. In virt`u di queste considerazioni, non solo il modello di regressione pi`u adatto a stu- diare la probabilit`a come output dovrebbe tenere conto del fatto che si distribuisce tra 0 e 1, ma anche che la relazione tra i predittori e l’output non `e lineare.

La regressione logistica soddisfa entrambi i requisiti. Per capire in che modo essa rappresenta gli effetti delle variabili X1, ..., Xm su Y, vediamone un esempio.

3.2 La regressione logistica 29

Documenti correlati