• Non ci sono risultati.

STATISTICA DESCRITTIVA

N/A
N/A
Protected

Academic year: 2021

Condividi "STATISTICA DESCRITTIVA"

Copied!
233
0
0

Testo completo

(1)

SporcStr DiffParch DiffColl Traffico InquinAria Rumore RischCrim IrrAcqua NoFidAcRub

0102030405060

0.5

−1.0

−0.5 0.0

0.5 1.0

−1.0 −0.5 0.0

primo asse 1.0 secondo asse

60 80

100 120

140 0.0

0.2 0.4

0.6

x Fn(x)

60 80

100 120

140 0.0

0.2 0.4

0.6

x Fn(x)

rdegnaSa Molise Puglia Calabria

Sicilia

Campania Basilicata ValledAosta Toscana Umbria Liguria

Emilia−Rom

agna Trentino−AltoAdi

ge Veneto Lomba

rdia

Friuli−

VeneziaGiulia

Piemonte Ma

rche Lazio Abruzzo

02468

Distanza eu clidea − Ward link

age

y y

Model Total Residuals

1

^

^

^y - y y - y y - y

Maria Piera Rogantin

STATISTICA DESCRITTIVA

(2)
(3)

1 Statistica descrittiva uni/bi-variata 1

1.1 Introduzione . . . 1

1.2 Classificazione e rappresentazione di variabili qualitative . . . 3

1.2.1 Distribuzione di una variabile qualitativa . . . 4

1.2.2 Distribuzione di due variabili qualitative . . . 5

1.2.3 Indipendenza di due variabili qualitative . . . 17

1.3 Classificazione e rappresentazione di variabili quantitative . . . 22

1.3.1 La distribuzione di una variabile e il diagramma di dispersione . 22 1.3.2 La funzione di distribuzione cumulata (o di ripartizione) . . . 23

1.3.3 La funzione dei quantili . . . 24

1.3.4 Il box-plot . . . 26

1.3.5 Il diagramma dei quantili (QQ-plot) . . . 28

1.3.6 Metodi grafici per il confronto fra due variabili quantitative . . . . 29

1.3.7 L’istogramma . . . 31

1.3.8 Lo stem-and-leaf . . . 33

1.3.9 Indici per variabili quantitative . . . 34

1.3.10 Simmetria di una distribuzione e indici statistici . . . 38

1.3.11 Indici come sintesi . . . 39

1.3.12 Trasformazioni lineari di variabili . . . 41

1.3.13 Media e varianza in sottogruppi e nella popolazione . . . 43

1.3.14 Distribuzione e rappresentazione di due variabili quantitative . . 45

1.3.15 Indici per due o pi`u variabili quantitative . . . 46

1.3.16 Matrici di varianza-covarianza e di correlazione . . . 50

1.4 Esercizi . . . 52

2 Cluster analysis 59 2.1 Introduzione . . . 59

2.2 Distanza fra punti . . . 61

2.3 Aggregazione gerarchica secondo la distanza . . . 63

2.3.1 Distanza fra classi . . . 63

I

(4)

2.3.2 Algoritmo di aggregazione . . . 65

2.3.3 Gerarchia, indice di aggregazione e dendogramma . . . 67

2.3.4 Ultrametrica . . . 69

2.4 Aggregazione delle classi secondo l’inerzia . . . 70

2.4.1 Decomposizione dell’inerzia . . . 70

2.4.2 Perdita di inerzia fra classi a ogni passo . . . 72

2.4.3 Metodo di aggregazione di Ward . . . 73

2.5 Confronto fra i metodi di aggregazione . . . 74

2.6 Alcune ulteriori considerazioni . . . 77

2.6.1 Come determinare il numero di classi . . . 77

2.6.2 Standardizzazione delle variabili . . . 77

2.7 Interpretazione dei gruppi ottenuti . . . 78

2.7.1 Variabili binarie e variabili ordinali . . . 81

2.8 Aggregazione delle variabili . . . 81

2.9 Aggregazione non gerarchica . . . 82

2.9.1 Aggregazione secondo i centri mobili . . . 83

2.9.2 Variante: aggregazione k-means . . . 83

2.9.3 Termine del processo di aggregazione . . . 84

2.9.4 Scelta dei punti iniziali . . . 85

2.9.5 Raggruppamenti stabili . . . 86

2.10 Algoritmi di aggregazione misti . . . 86

2.11 Un esempio esteso . . . 87

2.12 Esercizi . . . 90

2.13 La Cluster analysis in R . . . 94

2.13.1 Cluster gerarchica . . . 94

2.13.2 Cluster non gerarchica . . . 100

3 Analisi in componenti principali 103 3.1 Introduzione . . . 103

3.2 Richiami di algebra lineare . . . 106

3.2.1 Proiezione di punti lungo la retta individuata da un vettore . . . . 106

3.2.2 Autovalori e autovettori di matrici quadrate . . . 106

3.3 Costruzione degli assi principali . . . 107

3.4 Fedelt`a della rappresentazione dei punti unit`a sperimentali in uno spazio di dimensione minore . . . 110

3.5 Correlazione fra le variabili e le componenti principali . . . 112

3.5.1 Scelta della dimensione dello spazio ridotto . . . 114

3.6 Correlazione fra due variabili e “grafici delle variabili” . . . 114

3.6.1 Fedelt`a della rappresentazione dei punti variabili in uno spazio di dimensione minore . . . 115

3.7 Un esempio esteso . . . 120

3.8 Casi speciali . . . 124

3.9 Esercizi . . . 125

3.10 L’analisi in componenti principali in R . . . 130

(5)

4 Analisi delle corrispondenze 137

4.1 Tabelle di contingenza a due vie . . . 137

4.2 Analisi delle corrispondenze per tabelle a due vie . . . 138

4.2.1 Analisi dei profili riga . . . 139

4.2.2 Analisi dei profili colonna . . . 141

4.2.3 Fedelt`a della rappresentazione . . . 141

4.3 Alcuni indici utili per l’interpretazione . . . 143

4.4 Relazioni fra profili riga e profili colonna . . . 146

4.4.1 Profili colonna come baricentri dei profili riga (e viceversa) . . . . 148

4.4.2 Relazioni “semi-baricentriche” fra profili riga e profili colonna . . 149

4.5 Punti supplementari . . . 155

4.6 Casi speciali . . . 156

4.7 Esercizi . . . 159

4.8 L’analisi delle corrispondenze in R . . . 165

5 Modello lineare e Analisi della varianza 173 5.1 Aspetti geometrici del modello lineare . . . 173

5.1.1 Interpretazione nello spazio delle unit`a sperimentali . . . 174

5.1.2 Minimizzazione del residuo dell’approssimazione . . . 174

5.1.3 Interpretazione nello spazio delle variabili . . . 176

5.1.4 Proiettore sullo spazio generato dalle colonne di X . . . 177

5.1.5 Decomposizione della varianza e indice R2 . . . 177

5.1.6 La regressione lineare multivariata . . . 179

5.1.7 Il grafico dei residui . . . 180

5.2 Analisi della varianza a una via . . . 184

5.2.1 Esperimenti bilanciati e non bilanciati . . . 186

5.2.2 Approssimazione lineare dei minimi quadrati . . . 187

5.2.3 Indice R2 e decomposizione della varianza . . . 187

5.3 Esercizi sul Modello lineare e l’analisi della varianza . . . 190

5.4 Il modello lineare in R – Aspetti descrittivi . . . 195

5.5 L’Analisi della Varianza in R – aspetti descrittivi . . . 200

A Alcuni insiemi di dati utilizzati 203 A.1 Pulse . . . 204

A.2 Pesci . . . 206

A.3 Sanit`a . . . 207

A.4 Merendine . . . 208

A.5 Aereoporti . . . 209

A.6 Auto . . . 211

A.7 Terremoti . . . 214

A.8 College . . . 218

A.9 Cristalli . . . 219

A.10 Conchiglie . . . 223

A.11 Qualit`a vita quotidiana . . . 226

Bibliografia 227

(6)
(7)

Statistica descrittiva uni/bi-variata

1.1 Introduzione

Il compito della statistica descrittiva consiste nel dare una rappresentazione sintetica, grafica e numerica, delle rilevazioni di alcune caratteristiche relative a un insieme di unit`a sperimentali che costituiscono la popolazione (o sotto-popolazione) oggetto di studio.

I metodi di analisi sono per`o differenti a seconda che le caratteristiche rilevate siano quantitative o qualitative. Diciamo che una caratteristica `e quantitativa (o numerica) se

`e una grandezza misurabile; questo `e il caso ad esempio del peso, del numero di volte che un fenomeno si manifesta in un intervallo di tempo, del reddito di un individuo, ecc.. Diciamo che una caratteristica `e qualitativa se `e un attributo; sono ad esempio caratteristiche qualitative: il genere, il colore degli occhi (a livello macroscopico), il grado di scolarit`a, ecc. 1

La popolazione su cui vengono effettuate le rilevazioni statistiche `e spesso indicata con Ω. Le unit`a sperimentali, ossia gli elementi componenti la popolazione, sono indicati con ωi con i = 1, . . . , n: Ω = {ω1, . . . , ωn}. Gli elementi di Ω sono detti anche osservazioni o individui.

I risultati della rilevazione di una caratteristica (o una loro codifica) sono costituiti da una lista di numeri o codici. `E generalmente comodo usare codici numerici anche quando la caratteristica `e di tipo qualitativo. Ad esempio per il genere, una codifica pu`o essere:

femmina = 1, maschio = 2.

Esempio 1

Consideriamo una popolazione di 8 ragazzi.

Ω = {Marco, Giovanni, Claudio, Stefano, Riccardo, Enrico, Paolo, Andrea}

oppure, con una differente notazione, Ω = {1, 2, 3, 4, 5, 6, 7, 8}.

1Talvolta una variabile misurabile pu`o essere considerata qualitativa quando non si utilizzano le misure nella determinazione del valore. Ad esempio nel caso del genere o di altri attributi fisici si possono misurare quantit`a legate al DNA che forniscono informazioni sulla variabile, ma quando si usano le modalit`a “maschio” o “femmina” non si fa riferimento a tali quantit`a.

1

(8)

Quindi nel primo caso abbiamo: ω1 = Marco , ω2 = Giovanni , . . . e nel secondo caso ω1 = 1 , ω2 = 2, . . ..

Da un punto di vista matematico, una rilevazione di una caratteristica su una po- polazione pu`o essere rappresentata con una funzione X che associa un numero ad ogni individuo della popolazione:

X : Ω → E ⊆ R tale che X(ωi) = xi ;

l’insieme E dei valori assumibili da X pu`o essere un sottoinsieme continuo dei numeri reali, come nel caso del peso o dell’altezza, oppure un insieme discreto, come nel caso del numero di manifestazioni di un fenomeno (dove E `e un sottoinsieme dei numeri naturali), oppure nel caso di codifiche numeriche di dati qualitativi (dove E `e un insieme finito, ad esempio {1, 2, . . . , I}).

La funzione X `e anche detta variabile statistica o variabile.

In genere si usano le lettere latine maiuscole, con o senza indici, per indicare le variabili, ad esempio

X, Y, X1, X2, . . . A, B . . .

e le lettere minuscole corrispondenti per indicarne i valori assunti sulle unit`a sperimentali, ad esempio

x, y, . . . , x1, x2, . . . , y1, y2, . . . , x11, x12, . . . a1, a2, . . .

Le ultime lettere dell’alfabeto sono spesso usate per variabili quantitative e le prime per variabili qualitative, ma questa convenzione non `e sempre rispettata.

I valori assunti dalla variabile nella popolazione Ω possono essere rappresentati tramite un vettore, x = (x1, . . . , xn)t.

Esempio 1 (continua)

Si misurano le altezze degli elementi della popolazione Ω. Se i valori assunti da X sono X(ω1) = 165, X(ω2) = 168, X(ω3) = 171, X(ω4) = 171, X(ω5) = 175, X(ω6) = 177, X(ω7) = 184, X(ω8) = 186, allora il vettore delle rilevazioni `e:

x = (165, 168, 171, 171, 175, 177, 184, 186)t.

Se su una stessa popolazione vengono rilevate pi`u caratteristiche, allora a ciascuna unit`a sperimentale sono associati i valori di pi`u caratteristiche. In questo caso i dati sono usualmente rappresen- tati con una struttura di tipo rettangolare simile ad una tabella, in cui le colonne corrispondono alle variabili e le righe alle unit`a sperimentali. Su una riga si trovano i valori delle variabili relativi ad una unit`a sperimentale.

Questo tipo di rappresentazione `e quella usata in genere nei software statistici.

variabili

osservazioni

(9)

Esempio 2

Un esempio a cui faremo spesso riferimento in questo primo capitolo, `e tratto dalla documentazione del software Minitab.

Riguarda un esperimento fatto da un gruppo di studenti in un corso di introduzione alla statistica. Ciascuno studente ha registrato il numero di pulsazioni in un minuto. Poi ha lanciato una moneta: se `e uscito testa ha fatto un minuto di una corsa, altrimenti `e rimato fermo. Trascorso un minuto tutti hanno nuovamente registrato le proprie pulsazioni per un minuto. Oltre alle informazioni precedenti, per ciascuno studente, `e anche riportato il genere, la sua abitudine al fumo, l’altezza, il peso e il livello usuale di attivit`a fisica. I risultati del rilevamento sono riportati in Appendice e sono cos`ı organizzati:

PULSE1 prima rilevazione delle pulsazioni PULSE2 seconda rilevazione delle pulsazioni

RAN risultato del lancio della moneta (1: testa, corre 2: croce, sta fermo) SMOKES fumo (1: non fumatore 2: fumatore)

SEX genere (1: maschio 2: femmina) HEIGHT altezza in pollici

WEIGHT peso in libbre

ACTIVITY livello usuale di attivit`a fisica (0: nulla, 1: poca, 2: media, 3: molta) Sono variabili qualitative il risultato del lancio della moneta (testa e croce), il genere, l’abitudine al fumo e il livello di attivit`a fisica; sono variabili quantitative le pulsazioni al minuto, l’altezza e il peso.

Istruzioni R e Output corrispondente

dati=read.table("C:/c-rogantin/DATI/pulse.txt",header=T,row.name=1) ## lettura dati

dati ## visualizzazione dati

attach(dati) ## per usare le variabili della tabella

## senza riferirsi alla tabella stessa

Output:

PULSE1 PULSE2 RAN SMOKES SEX HEIGHT WEIGHT ACTIVITY ## prime righe dell'output

1 64 88 1 2 1 66.00 140 2

2 58 70 1 2 1 72.00 145 2

3 62 76 1 1 1 73.50 160 3

4 66 78 1 1 1 73.00 190 1

5 64 80 1 2 1 69.00 155 2

6 74 84 1 2 1 73.00 165 1

7 84 84 1 2 1 72.00 150 3

1.2 Classificazione e rappresentazione di variabili qualitative

In alcuni casi i valori assunti da una variabile qualitativa hanno un ordinamento intrinse- co; ad esempio nella valutazione della risposta all’applicazione di un farmaco (peggiora- mento, nessuna variazione, lieve miglioramento, guarigione) oppure nel livello di scolarit`a (senza titoli, elementari, medie inferiori, ecc.).

In altri casi questo ordinamento non `e possibile; ad esempio nel genere, i possibili valori – maschio e femmina – non hanno un ordinamento naturale; oppure nel caso

(10)

dei gruppi sanguigni (A, B, AB, 0), e in generale degli alleli di un gene, delle attivit`a socio-professionali, dei colori, ecc.

Se i possibili valori assunti hanno un ordine intrinseco, la variabile viene detta ordinale, altrimenti viene detta nominale.

Nell’Esempio 2 (precedente) sono variabili nominali il genere e l’abitudine al fumo, mentre `e ordinale il livello di attivit`a fisica.

I possibili risultati di una variabile qualitativa sono anche detti modalit`a o livelli;

questo secondo termine `e solitamente usato per le variabili ordinali.

Le variabili qualitative sono anche dette fattori.

1.2.1 Distribuzione di una variabile qualitativa

Indichiamo con E = {1, . . . , I} l’insieme delle codifica dei possibili risultati di una varia- bile qualitativa, pur tenendo presente che nel caso di variabili nominali l’ordine con cui vengono codificati `e arbitrario.

Indichiamo con:

- n il numero di unit`a sperimentali considerate;

- ni, per i = 1, . . . , I, il numero delle unit`a che hanno i come risultato:

ni = # {ω t.c. X(ω) = i}

tale quantit`a `e detta frequenza assoluta o conteggio del valore i; si ha: P ni = n;

- fi = nni, per i = 1, . . . , I, la frequenza relativa delle unit`a che hanno i come risultato;

pu`o essere indicata anche con f (X = i); si ha: P fi = 1. Talvolta le frequenze sono espresse in forma percentuale; in tal caso la loro somma `e 100.

I valori assunti e le corrispondenti frequenze relative (1, f1), (2, f2), . . . , (I, fI) formano la distribuzione o legge della variabile X.

Le informazioni di una variabile qualitativa sono rappresentate tramite tabelle di con- tingenza e diagrammi a barre. Nelle tabelle di contingenza sono riportati i valori (i, ni), i = 1, . . . , I, e in tal caso si ha la rappresentazione delle frequenze assolute, oppure i valori (i, fi), i = 1, . . . , I, e in tal caso si ha la rappresentazione delle frequenze relative, ovvero della della distribuzione. Nelle rappresentazioni in tabella o grafiche per como- dit`a di lettura spesso per indicare le modalit`a non `e usata una codifica numerica ma alfanumerica.

Esempio 2 (continua)

Sotto sono riportate le tabelle di contingenza delle frequenze assolute, relative e relative in forma percentuale per il livello usuale di attivit`a fisica per i soggetti dell’esperimento sulle pulsazioni. La codifica `e del livello di attivit`a `e 0: nulla, 1: poca, 2: media, 3:

molta.

Si osserva che un individuo, pari all’1. 09% degli studenti considerati, non fa attivit`a fisica, nove individui, pari all’9. 78%, ne fanno poca, ecc..

(11)

i ni fi fi (%)

no 0 1 0.0109 1.09

poca 1 9 0.0978 9.78

media 2 61 0.6630 66.30

molta 3 21 0.2283 22.83

92 1 100

Istruzioni R

activity=ordered(ACTIVITY,levels=c(0,1,2,3),labels=c("no","poca","media","molta"))

## variabile qualitativa ordinale con etichette assegnate freq_assolute=table(activity); freq_assolute

## tabella delle frequenze assolute del fattore activity freq_relative=prop.table(freq_assolute);round(freq_relative,4)

## tabella delle frequenze relative del fattore activity

## oppure freq_relative=freq_assolute/sum(freq_assolute) round(freq_relative*100,2)

## tabella delle frequenze percentuali del fattore activity arrotondate

Sotto sono riportati i diagrammi a barre delle frequenze assolute e delle frequenze relative (notare le differenze)

par(mfrow=c(1,2)) barplot(freq_assolute) barplot(freq_relative) par(mfrow=c(1,1))

no poca media molta

0102030405060

no poca media molta

0.00.10.20.30.40.50.6

Esempio 3

Consideriamo i gruppi sanguigni del sistema ABO in una popolazione caucasica. Le frequenze relative sono espresse in percentuale.

A B AB 0

ni 60 16 7 66 149 n

fi (%) 40. 3 10. 7 4. 7 44. 3 100

Nella lettura e nella interpretazione delle tabelle e dei diagrammi a barre di variabili nominali bisogna far sempre attenzione all’ordine arbitrario introdotto nella codifica.

1.2.2 Distribuzione di due variabili qualitative

Se si effettua la rilevazione di due caratteristiche qualitative sulla stessa popolazione allora consideriamo due variabili X e Y :

X : Ω → E1 e Y : Ω → E2

(12)

dove E1 = {1, . . . , I} `e l’insieme di una codifica dei risultati della prima caratteristica e E2 = {1, . . . , J } `e l’insieme di una codifica dei risultati della seconda caratteristica.

Indichiamo con:

- n il numero di unit`a sperimentali considerate,

- nij, per i = 1, . . . , I e j = 1, . . . , J , il numero delle unit`a che hanno la codifica i come risultato per la prima caratteristica e la codifica j come risultato per la seconda caratteristica:

nij = # {ω t.c. X(ω) = i e Y (ω) = j}

- fij = nnij, per i = 1, . . . , I e j = 1, . . . , J , la frequenza relativa di tali risultati. Pu`o essere anche indicata con f (X = i, Y = j).

I risultati della rilevazione di due caratteristiche possono essere sintetizzati con tabelle di contingenza “a due entrate” o “a due vie”. Anche in questo caso si possono considerare le frequenze assolute o le frequenze relative.

Y

1 . . . j . . . J

1 n11 n1J

. . .

X i ni1 nij niJ ni.

. . .

I nI1 nIJ

n.1 n.j n.J n

Y

1 . . . j . . . J

1 f11 f1J

. . .

X i fi1 fij fiJ fi.

. . .

I fI1 fIJ

f.1 f.j f.J 1

I valori (riportati nella seconda tabella)

((i, j), fij) per i = 1, . . . , I e j = 1, . . . , J

sono la legge congiunta o distribuzione congiunta delle variabili X e Y ; essa precisa i valori assunti dalle variabili (o loro codifiche) e le corrispondenti frequenze. Anche in questo caso le frequenze possono essere espresse in forma percentuale.

Dalla distribuzione congiunta `e possibile ricavare le distribuzioni marginali delle va- riabili X e Y , ossia le distribuzioni delle due variabili singolarmente considerate.

La frequenza relativa del risultato (X = i), in questo contesto indicata con fi., `e:

fi. = f (X = i) = ni1+ ni2+ . . . + niJ

n = ni.

n = fi1+ fi2+ . . . + fiJ

La distribuzione marginale (o totale) o legge marginale (o totale) di X `e allora l’insieme dei valori assunti dalla variabile X e delle corrispondenti frequenze relative:

(1, f1.), (2, f2.), . . . , (I, fI.).

Analogamente la frequenza relativa del risultato (Y = j), in questo contesto indicata con f.j, `e:

f.j = f (Y = j) = n1j + n2j + . . . + nIj

n = n.j

n = f1j + f2j + . . . + fIj

(13)

e la distribuzione marginale di Y `e

(1, f.1), (2, f.2), . . . , (J, f.J).

Ovviamente, date le distribuzioni marginali, non `e possibile risalire alla distribuzio- ne congiunta senza ulteriori informazioni: il numero di possibili tabelle con i margini assegnati `e, in genere, molto elevato.

Esempio 2 (continua)

Consideriamo la suddivisione del livello di attivit`a fisica per genere. Le tabelle delle frequenze assolute e relative congiunte sono le seguenti.

activity (Y ) no poca media alta

sex M 1 5 35 16 57

(X) F 0 4 26 5 35

1 9 61 21 92

activity (Y ) no poca media alta

sex M 1.09 5.43 38.04 17.39 61.95 (X) F 0.00 4.35 28.26 5.43 38.04 0.01 9.78 66.30 22.83 100

E possibile rappresentare graficamente la distribuzione congiunta (o le frequenze as-` solute congiunte), come nei diagrammi a barre riportati sotto, scegliendo di evidenziare la distribuzione della variabile riga oppure della variabile colonna. Nei due diagrammi a sinistra `e evidenziata la distribuzione del genere e, all’interno di ciascuna barra, cio`e per ciascuna modalit`a, `e riportata la suddivisione dell’attivit`a fisica. Nei due diagrammi a destra `e evidenziata la distribuzione dell’attivit`a fisica.

M F

01020304050

M F

05152535

no poca media molta

0103050

no poca media molta

05152535

Istruzioni R

sex=factor(SEX,levels=c(1,2),labels=c("M","F"))

freq_ass_s_a=table(sex,activity);freq_ass_s_a ## in riga sex - in colonna activity freq_rel_s_a=prop.table(freq_ass_s_a);round(freq_rel_s_a*100,2)

round(margin.table(freq_ass_s_a,1),2); round(margin.table(freq_rel_s_a,2),2) freq_ass_a_s=table(activity,sex);freq_ass_a_s ## in riga activity - in colonna sex freq_rel_a_s=round(prop.table(freq_ass_a_s)*100,2);freq_rel_a_s

par(mfcol=c(2,2)) # i grafici vengono costruiti in ordine per colonna barplot(freq_ass_a_s,beside=F,font=2)

barplot(freq_ass_a_s,beside=T,font=2) barplot(freq_ass_s_a,beside=F,font=2) barplot(freq_ass_s_a,beside=T,font=2) par(mfcol=c(1,1))

(14)

Esempio 4

Consideriamo una tabella di contingenza con pi`u di due modalit`a per entrambe le varia- bili. I dati riguardano una ricerca relativa alla diffusione del melanoma maligno rispetto al tipo di tumore e al luogo di insediamento. Qui sotto sono riportate le frequenze as- solute e relative (espresse in percentuale) del melanoma maligno per tipo di tumore e luogo di insediamento:

Luogo di insediamento (Y ) testa e tronco estremit`a totale

collo

efelidi melanot. 22 2 10 34

Tipo melanoma sparso 16 54 115 185

tumore nodulare 19 33 73 125

(X) indeterminato 11 17 28 56

totale 68 106 226 400

Luogo di insediamento (Y ) Distrib. congiunta testa e tronco estremit`a totale

di (X, Y ) collo

efelidi melanot. 5.50 0.50 2.50 8.50 Tipo melanoma sparso 4.00 13.50 28.75 46.25

tumore nodulare 4.75 8.25 18.25 31.25

(X) indeterminato 2.75 4.25 7.00 14.00

totale 17.00 26.50 56.50 100

I dati della seconda tabella sono in forma percentuale. In grassetto `e evidenziata la distribuzione congiunta del tipo di tumore e del luogo di insediamento; sull’ultima colonna si trova la distribuzione marginale del tipo di tumore e sull’ultima riga si trova la distribuzione marginale del luogo di insediamento.

Istruzioni R e Output corrispondente

Lettura di dati inseriti nel programma; i valori sono separati dal simbolo &.

tumore= read.table(text=

"tipo & testa-collo & tronco & estremita efelidi melanot. & 22 & 2 & 10 melanoma sparso & 16 & 54 &115 nodulare & 19 & 33 &73

indeterminato & 11 & 17 & 28",header=TRUE,row.names=1,sep = "&" ) m_tumore=as.matrix(tumore) ; m_tumore

##### ATTENZIONE per utilizzare le istruzioni per le tabelle il data frame

##### deve essere trasformato in matrice

freq_rel=prop.table(m_tumore); round(freq_rel*100,2)

(15)

Output:

testa.collo tronco estremita

efelidi melanot. 22 2 10

melanoma sparso 16 54 115

nodulare 19 33 73

indeterminato 11 17 28

testa.collo tronco estremita

efelidi melanot. 5.50 0.50 2.50

melanoma sparso 4.00 13.50 28.75

nodulare 4.75 8.25 18.25

indeterminato 2.75 4.25 7.00

Marginali riga e colonna assoluti e percentuali.

margine_riga_ass=margin.table(m_tumore, 1); margine_riga_ass

margine_riga_rel=prop.table(margine_riga_ass); round(margine_riga_rel*100,1) margine_colonna_ass=margin.table(m_tumore,2); margine_colonna_ass

margine_colonna_rel=prop.table(margine_colonna_ass);round(margine_colonna_rel*100,1)

L’output `e il seguente.

efelidi melanot. melanoma sparso nodulare indeterminato

34 185 125 56

efelidi melanot. melanoma sparso nodulare indeterminato

8.5 46.2 31.2 14.0

testa.collo tronco estremita

68 106 226

testa.collo tronco estremita

17.0 26.5 56.5

Diagrammi a barre delle distribuzioni marginali.

par(mfrow=c(2,1))

barplot(margine_riga_rel,ylim=c(0,1));abline(h=0) barplot(margine_colonna_rel,ylim=c(0,1));abline(h=0) par(mfrow=c(1,1))

efelidi melanot. melanoma sparso nodulare indeterminato

0.00.40.8

testa.collo tronco estremita

0.00.40.8

Ritorniamo alla tabella della distribuzione congiunta e confrontiamo gli insediamenti nella testa o collo del tipo “efelidi melanotiche” (22, pari al 5% del totale) e del tipo

“tumore nodulare” (19, pari al 4. 5%). I valori sono simili, ma osserviamo che il tipo

“efelidi melanotiche” corrisponde all’8. 50% del totale, mentre il tipo “tumore nodulare”

corrisponde al 31. 25% del totale. Possiamo quindi dire che le efelidi melanotiche si insediano per pi`u della met`a nella testa o collo, mentre solo 1/6 dei tumori nodulari si insediano in quella zona del corpo.

(16)

Distribuzioni condizionate: profili riga

Dall’esempio precedente si capisce che uno studio completo delle due variabili X e Y comprende anche l’esame del comportamento di una variabile all’interno dei gruppi in- dividuati dall’altra variabile. `E necessario quindi relativizzare le frequenze congiunte rispetto al totale riga.

La frequenza (relativa) di (Y = j) condizionata a (X = i) `e:

f (Y = j|X = i) = f (Y = j, X = i) f (X = i) = nij

ni. = fij fi.

che `e la frequenza relativa del risultato (i, j) rispetto al risultato i della prima caratteri- stica e si pu`o anche indicare con fj|i.

La distribuzione di Y condizionata a (X = i) `e

(1, f1|i), (2, f2|i), . . . , (J, fJ |i)

Se i dati sono visualizzati con tabelle di contingenza con X in riga e Y in colonna, le distribuzioni di Y condizionate a (X = i), con i = 1, . . . , I, sono anche dette profili riga.

Una rappresentazione dei profili riga tramite I diagrammi a barre permette di evi- denziare se la variabile Y risente o meno del condizionamento ai livelli della variabile X.E interessante confrontare i profili riga anche con la distribuzione marginale (o profilo` totale o profilo medio) della variabile Y e le deviazioni di ciascun profilo riga dal profilo medio, come `e esemplificato in seguito.

Proposizione 1.1. La distribuzione marginale della variabile colonna Y `e la media dei profili riga pesati ciascuno con la propria frequenza relativa fi., i = 1, . . . , I.

Dimostrazione. Per ogni colonna j, con j = 1, . . . , J , si ha:

I

X

i=1

fj|i fi. =

I

X

i=1

fij

fi. fi. = f.j .

Per questo le distribuzioni marginali vengono anche dette profilo medio dell’intera popolazione.

Esempio 4 (continua)

Riprendiamo l’esempio relativo alla diffusione del melanoma maligno rispetto al tipo di tumore e al luogo di insediamento.

La tabella dei profili riga evidenzia la distribuzione del luogo di insediamento nelle varie classi del tipo di tumore (prescindendo dalla numerosit`a di tali classi).

I profili riga in forma percentuale sono:

(17)

Luogo di insediamento Distrib. condizionata testa e tronco estremit`a totale

di (Y |X) collo

efelidi melanot. 64.7 5.9 29.4 100

Tipo melanoma sparso 8.6 29.2 62.2 100

tumore nodulare 15.2 26.4 58.4 100

indeterminato 19.6 30.4 50.0 100

totale 17.0 26.5 56.5 100

I diagrammi a barre dei profili riga e del totale colonna sono riportati sotto.

Istruzioni R e Output corrispondente

profili_riga=prop.table(m_tumore, 1) round(profili_riga*100,1)

par(mfrow=c(2,3))

for (i in 1:dim(profili_riga)[1])

{barplot(profili_riga[i,],ylim=c(0,1),main=rownames(profili_riga)[i]) abline(h=0)}

barplot(margine_colonna_rel,ylim=c(0,1),main="Totale");abline(h=0) par(mfrow=c(1,1))

Attenzione: per essere confrontabili la scala delle ordinate deve essere uguale in tutti diagrammi (argomento ylim=c(0,1)).

testa.collo tronco estremita

efelidi melanot.

0.00.20.40.60.81.0

testa.collo tronco estremita

melanoma sparso

0.00.20.40.60.81.0

testa.collo tronco estremita

nodulare

0.00.20.40.60.81.0

testa.collo tronco estremita

indeterminato

0.00.20.40.60.81.0

testa.collo tronco estremita

Totale

0.00.20.40.60.81.0

Si osserva che la distribuzione del luogo di insediamento per il tipo “efelidi melano- tiche” `e significativamente diversa da quelle degli altri tre tipi e dal totale dei soggetti considerati.

Per confrontare i profili riga con la distribuzione totale `e efficace considerare le devia- zioni dei profili riga dal profilo totale (o medio) della variabile colonna:

f1|i− f.1, f2|i− f.2, . . . , fJ |i− f.J .

(18)

La tabella delle deviazioni dei profili riga dal profilo totale e i diagrammi a barre corrispondenti sono:

Luogo di insediamento testa e tronco estremit`a

collo

efelidi melanot. 47.7 -20.6 -27.1 melanoma sparso -8.4 2.7 5.7

nodulare -1.8 -0.1 1.9

indeterminato 2.6 3.9 -6.5

Risulta evidente, ancor pi`u chiaramente di prima, che il luogo di insediamento varia a seconda dei tipi di tumore e che il primo tipo di tumore `e quello che si discosta maggiormente dal profilo medio, mentre quello pi`u vicino al profilo medio `e il tumore nodulare.

Istruzioni R e Output corrispondente

tab_margine_colonna_rel=matrix(rep(margine_colonna_rel,dim(m_tumore)[1]), byrow=T,ncol=dim(m_tumore)[2])

deviazioni_riga=profili_riga-tab_margine_colonna_rel round(deviazioni_riga*100,1)

yl=c(min(deviazioni_riga),max(deviazioni_riga)) par(mfrow=c(2,2),oma=c(0,0,2,0))

for (i in 1:dim(profili_riga)[1])

{ barplot(deviazioni_riga[i,],main=rownames(profili_riga)[i],ylim=yl); abline(h=0) } mtext("Deviazioni profili riga dal marginale colonna", outer = TRUE,cex=2)

## inserisce un titolo generale nella posizione indicata con l'opzione oma=

par(mfrow=c(1,1))

testa.collo tronco estremita

efelidi melanot.

−0.20.10.3

testa.collo tronco estremita

melanoma sparso

−0.20.10.3

testa.collo tronco estremita

nodulare

−0.20.10.3

testa.collo tronco estremita

indeterminato

−0.20.10.3

Deviazioni profili riga dal marginale colonna

Proposizione 1.2. La somma per riga delle deviazioni dei profili riga dal profilo medio

`e zero.

Dimostrazione. Per ogni riga i, con i = 1, . . . , I, si ha: PJ j=1

fij

fi. − f.j = 1 − 1 = 0.

(19)

Distribuzioni condizionate: profili colonna

I profili colonna sono le distribuzioni di X condizionate a (Y = j), con j = 1, . . . , J . Le considerazioni fatte per i profili riga, possono essere fatte in modo analogo per i profili colonna. In particolare valgono considerazioni analoghe a quelle delle Proposizioni 1.1 e 1.2.

Le considerazioni complessive sono le stesse sia che si analizzino i profili riga o i profili colonna, quello che cambia `e l’ottica con la quale si esamina il fenomeno.

Esempio 4 (continua)

I profili colonna, cio`e la distribuzione del tipo di tumore nelle varie classi del luogo di insediamento (prescindendo dalla numerosit`a delle classi), in forma percentuale sono:

Luogo di insediamento Distrib. condizionata testa e tronco estremit`a totale

di (X|Y ) collo

efelidi melanot. 32.4 1.9 4.4 8.50

Tipo melanoma sparso 23.5 50.9 50.9 46.25

tumore nodulare 27.9 31.1 32.3 31.25

indeterminato 16.2 16.0 12.4 14.00

totale 100 100 100 100

I diagrammi a barre dei profili colonna, del totale riga e le deviazioni dei profili dal profilo totale sono riportati sotto.

Istruzioni R e Output corrispondente

profili_colonna=prop.table(m_tumore, 2) round(profili_colonna*100,1)

par(mfrow=c(2,2),oma=c(0,0,2,0)) for (j in 1:dim(profili_colonna)[2])

{barplot(profili_colonna[,j],ylim=c(0,1),main=colnames(profili_colonna)[j])}

barplot(margine_riga_rel,ylim=c(0,1),main="Totale") mtext("Profili colonna", outer = TRUE,cex=2) par(mfrow=c(1,1))

tab_margine_riga_rel=matrix(rep(margine_riga_rel,dim(m_tumore)[2]), byrow=F,ncol=dim(m_tumore)[2])

deviazioni_col=profili_colonna-tab_margine_riga_rel round(deviazioni_col*100,1)

yl=c(min(deviazioni_riga),max(deviazioni_riga)) par(mfrow=c(2,2),oma=c(0,0,2,0))

for (j in 1:dim(profili_colonna)[2]) {

barplot(deviazioni_col[,j],main=colnames(profili_colonna)[j],ylim=yl) abline(h=0)

}

mtext("Deviazioni profili colonna dal marginale riga", outer = TRUE,cex=2) par(mfrow=c(1,1))

(20)

efelidi melanot. melanoma sparso nodulare indeterminato testa.collo

0.00.40.8

efelidi melanot. melanoma sparso nodulare indeterminato tronco

0.00.40.8

efelidi melanot. melanoma sparso nodulare indeterminato estremita

0.00.40.8

efelidi melanot. melanoma sparso nodulare indeterminato Totale

0.00.40.8

Profili colonna

efelidi melanot. melanoma sparso nodulare indeterminato testa.collo

−0.3−0.10.10.3

efelidi melanot. melanoma sparso nodulare indeterminato tronco

−0.3−0.10.10.3

efelidi melanot. melanoma sparso nodulare indeterminato estremita

−0.3−0.10.10.3

Deviazioni profili colonna dal marginale riga

Esempio 5 - Esercizio

Si considera la distribuzione congiunta degli studenti immatricolati all’Universit`a di Ge- nova nel 2012/13 per scuola superiore di provenienza e per Scuola universitaria di iscri- zione. I dati sono tratti dall’Annuario statistico Liguria 2013 (Tav. 6) e sono contenuti nel file ScSupUniGE.txt.

Nelle seguenti tabelle sono riportati i dati assoluti, i profili riga e i profili colonna.

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro m_riga_ass

Sc_MFN 25 61 31 324 68 22 31 562

Sc_MedFar 50 104 89 479 176 50 37 985

Sc_Sociali 105 358 235 604 326 141 120 1889

Sc_Uman 40 110 81 133 130 130 109 733

Sc_Politecnica 30 240 15 649 69 23 138 1164

marg_col_ass 250 873 451 2189 769 366 435 5333

(21)

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro

Sc_MFN 4.4 10.9 5.5 57.7 12.1 3.9 5.5

Sc_MedFar 5.1 10.6 9.0 48.6 17.9 5.1 3.8

Sc_Sociali 5.6 19.0 12.4 32.0 17.3 7.5 6.4

Sc_Uman 5.5 15.0 11.1 18.1 17.7 17.7 14.9

Sc_Politecnica 2.6 20.6 1.3 55.8 5.9 2.0 11.9

marg_col_rel 4.7 16.4 8.5 41.0 14.4 6.9 8.2

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro

Sc_MFN 10 7.0 6.9 14.8 8.8 6.0 7.1

Sc_MedFar 20 11.9 19.7 21.9 22.9 13.7 8.5

Sc_Sociali 42 41.0 52.1 27.6 42.4 38.5 27.6

Sc_Uman 16 12.6 18.0 6.1 16.9 35.5 25.1

Sc_Politecnica 12 27.5 3.3 29.6 9.0 6.3 31.7

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_MFN

0.00.40.8

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_MedFar

0.00.40.8

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_Sociali

0.00.40.8

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_Uman

0.00.40.8

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_Politecnica

0.00.40.8

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Totale

0.00.40.8

Profili riga e marginale colonna

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_MFN

−0.20.0

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_MedFar

−0.20.0

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_Sociali

−0.20.0

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_Uman

−0.20.0

Ist_Profess Ist_Tecn ExMagistr L_Scient L_Class L_Ling Altro Sc_Politecnica

−0.20.0

Deviazioni profili riga dal marginale colonna

(22)

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Ist_Profess

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Ist_Tecn

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman ExMagistr

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman L_Scient

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman L_Class

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman L_Ling

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Altro

0.00.40.8

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Totale

0.00.40.8

Profili colonna e marginale riga

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

Ist_Profess

−0.20.0

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

Ist_Tecn

−0.20.0

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

ExMagistr

−0.20.0

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

L_Scient

−0.20.0

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

L_Class

−0.20.0

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

L_Ling

−0.20.0

Sc_MFN Sc_MedFar Sc_Sociali Sc_Uman Sc_Politecnica

Altro

−0.20.0

Deviazioni profili colonna dal marginale riga

Esercizio: Commentare il fenomeno.

Notazione matriciale

Indichiamo con F la matrice con le frequenze relative e con R la matrice con i profili riga, entrambe di dimensioni I × J ; indichiamo inoltre con Pr la matrice diagonale, di

(23)

dimensione I × I, con i “pesi” riga:

F = {fij}i=1,...,I, j=1,...,J R = {fij/fi.}i=1,...,I, j=1,...,J Pr= diag(fi.)i=1,...,I Allora si ha:

R = Pr−1 F .

Analogamente se C `e la matrice con i profili colonna e Pr la matrice diagonale con i

“pesi” colonna si ha:

C = F Pc−1 . 1.2.3 Indipendenza di due variabili qualitative Esempio 6

Consideriamo le seguenti due coppie di variabili qualitative. In entrambi i casi, ciascuna delle due variabili (A e B per il caso 1 e C e D per il caso 2) ha tre modalit`a. Le due coppie di variabili hanno le stesse distribuzioni marginali, ma differenti distribuzioni congiunte.

CASO 1. Consideriamo le variabili A e B e la tabella dei conteggi congiunti e marginali.

B1 B2 B3

A1 35 10 5 50

A2 30 150 20 200

A3 35 90 125 250

100 250 150 500

Le distribuzioni (congiunta e marginali), i profili riga e i barplot dei profili riga sono i seguenti.

B1 B2 B3

A1 0.07 0.02 0.01 0.1 A2 0.06 0.30 0.04 0.4 A3 0.07 0.18 0.25 0.5 0.20 0.50 0.30 1.0

B1 B2 B3

A1 0.70 0.20 0.1 1 A2 0.15 0.75 0.1 1 A3 0.14 0.36 0.5 1 0.20 0.50 0.3 1

B1 B2 B3

A1 (peso= 0.1 )

0.00.20.40.60.8

B1 B2 B3

A2 (peso= 0.4 )

0.00.20.40.60.8

B1 B2 B3

A3 (peso= 0.5 )

0.00.20.40.60.8

B1 B2 B3

Totale

0.00.20.40.60.8

(24)

Si pu`o esservare che il comportamento, o meglio la distribuzione, della variabile B nelle tre sottopopolazioni individuate dalla variabile A `e differente ed `e pure differente dalla di- stribuzione di B nell’intera popolazione. Le due variabili non possono essere considerate indipendenti.

CASO 2. Consideriamo le variabili C e D e la tabella dei conteggi congiunti e marginali.

D1 D2 D3

C1 4 10 6 20

C2 16 40 24 80

C3 20 50 30 100

40 110 60 200

Le distribuzioni (congiunta e marginali), i profili riga e i barplot dei profili riga sono i seguenti.

D1 D2 D3

C1 0.02 0.05 0.03 0.1 C2 0.08 0.20 0.12 0.4 C3 0.10 0.25 0.15 0.5 0.20 0.50 0.30 1.0

D1 D2 D3

C1 0.2 0.5 0.3 1 C2 0.2 0.5 0.3 1 C3 0.2 0.5 0.3 1 0.2 0.5 0.3 1

D1 D2 D3

C1 (peso= 0.1 )

0.00.10.20.30.40.50.6

D1 D2 D3

C2 (peso= 0.4 )

0.00.10.20.30.40.50.6

D1 D2 D3

C3 (peso= 0.5 )

0.00.10.20.30.40.50.6

D1 D2 D3

Totale

0.00.10.20.30.40.50.6

Si pu`o esservare che la distribuzione della variabile D nelle tre sottopopolazioni indi- viduate dalla variabile C `e uguale ed `e pure uguale alla distribuzione di D nell’intera popolazione. Le due variabili possono essere considerate indipendenti.

Osserviamo anche che la distribuzione congiunta di C e D `e il prodotto delle corri- spondenti marginali. Infatti consideriamo ad esempio la cella (1, 1); il fatto che le due variabili siano indipenenti vuol dire che nella sottopopolazine C1, che corrisponde al 10%

del totale, il 20% avr`a modalit`a D1: 0. 1 × 0. 2 = 0. 02. E cos`ı per le atre celle.

Programma R per il caso 1

es1=matrix(c(35,10,5,30,150,20,35,90,125),byrow=T,ncol=3)

colnames(es1)=c("B1","B2","B3");rownames(es1)=c("A1","A2","A3");es1 rbind(cbind(es1,margin.table(es1,1)),c(margin.table(es1,2),sum(es1))) es1_r=prop.table(es1)

rbind(cbind(es1_r,margin.table(es1_r,1)),c(margin.table(es1_r,2),sum(es1_r))) es1_priga=prop.table(es1,1)

rbind(cbind(es1_priga,margin.table(es1_priga,1)),c(margin.table(es1_r,2),sum(es1_r)))

(25)

par(mfrow=c(1,4))

for (i in 1:dim(es1)[1]) { barplot(es1_priga[i,],

main=paste(rownames(es1)[i]," (peso=",margin.table(es1_r,1)[i],")"),ylim=c(0,0.8)) abline(h=0)}

barplot(margin.table(es1_r,2), main="Totale",ylim=c(0,0.8));abline(h=0)

Diamo ora tre definizioni equivalenti di indipendenza; l’equivalenza delle tre definizioni

`e dimostrata sotto.

Definizione 1.1. Consideriamo le variabili X (riga) e Y (colonna). Si dice che X e Y sono indipendenti se, per ogni i e j, vale una delle seguenti tre condizioni:

1. le distribuzioni di Y condizionate a (X = i) sono uguali per tutte le modalit`a di X e coincidono con la distribuzione di Y sulla popolazione globale; cio`e:

f (Y = j|X = i) = f (Y = j) per ogni i = 1, . . . , I

ovvero i profili riga sono tutti uguali fra loro e uguali al profilo totale/medio della variabile colonna Y ;

2. le distribuzioni di X condizionate a (Y = j) sono uguali per tutte le modalit`a di Y e coincidono con la distribuzione di X sulla popolazione globale; cio`e:

f (X = i|Y = j) = f (X = i) per ogni j = 1, . . . , J

ovvero i profili colonna sono tutti uguali fra loro e uguali al profilo totale/medio della variabile riga X;

3. la distribuzione congiunta di X e Y `e uguale al prodotto delle due distribuzioni marginali:

f (X = i, Y = j) = f (X = i) f (Y = j) per ogni i = 1, . . . , I e j = 1, . . . , J . Proposizione 1.3. Le tre definizioni precedenti di indipendenza sono equivalenti.

Dimostrazione. Le equivalenze delle definizioni 1. e 3. e delle definizioni 2. e 3. derivano dalle definizioni di distribuzioni condizionate (o profili):

f (Y = j|X = i) = f (Y = j) ⇔ ffij

i. = f.j ⇔ fij = fi.f.j f (X = i|Y = j) = f (X = i) ⇔ ffij

.j = fi. ⇔ fij = fi.f.j Da quanto sopra si deduce che anche le definizioni 1. e 2. sono equivalenti.

Si usa indicare con X ⊥⊥ Y il fatto che X e Y sono indipendenti.

Osservazione.

Le definizioni precedenti implicano “uguaglianze strette”. Difficilmente nella realt`a si avr`a una situazione di questo tipo e negli esempi precedenti abbiamo infatti considerato le “forme” dei diagrammi a barre dei profili o delle deviazioni dei profili dal marginale e osservato se erano o meno “simili” fra loro. Considerazioni pi`u precise su quanto devono essere strette le uguaglianze precedenti si possono fare se si considerano i dati osservati

(26)

come un campione di una popolazione pi`u numerosa, `e possibile fare test statistici per stabilire, con una probabilit`a di errore prefissata se nella popolazione si pu`o considerare l’uguaglianza stretta, ma questo `e oggetto della statistica inferenziale ed esula dagli scopi di questo corso.

Un paradosso

Sotto `e riportato il numero di processi in Florida nel 1976/77 per reati passibili di pena di morte classificati in base alla razza dell’accusato e della pena inflitta.2

Sentenza pena morte altro

Razza accusato bianca 19 141

nera 17 149

La sentenza risulta essere “quasi” indipendente dalla razza dell’accusato. Infatti 19/(19+

141) = 11. 88% e 17/(17 + 149) = 10. 24% sono simili. Le cose cambiano se si considera anche la razza della vittima.

Razza della vittima: nera Sentenza pena altro morte

Razza bianca 0 9

accusato nera 6 97

Razza della vittima: bianca Sentenza pena altro morte

Razza bianca 19 132

accusato nera 11 52

Per meglio evidenziare la dipendenza dalla razza della vittima aggiungiamo alla tabella precedente i profili riga.

Razza della vittima: nera Sentenza pena altro morte

Razza bianca 0 9 9

0% 100%

accusato nera 6 97 103

6% 94%

Razza della vittima: bianca Sentenza pena altro morte

Razza bianca 19 132 151

13% 87%

accusato nera 11 52 63

17% 83%

Osserviamo che se la razza della vittima `e nera a nessun bianco viene inflitta la pena di morte, mentre se la razza della vittima `e bianca al 13% dei bianchi e al 17% dei neri viene inflitta la pena di morte.

La sentenza e la razza dell’accusato sono indipendenti, non lo sono se si conosce la razza della vittima. Se indichiamo con S, A e V rispettivamente le variabili che descrivo la sentenza, la razza dell’accusato e la razza della vittima si ha:

S ⊥⊥ A e (S 6⊥⊥ A) | V

2M. Radelet, Am. Social. Rev., 46: 918-927, 1981

(27)

Un secondo paradosso

La tabella a fianco riporta la distribuzione percentuale di uno studio sull’incidenza dell’abitudine a bere caff`e nello svilupparsi del cancro al polmone. Indichiamo con C l’abitudine a bere caff`e e con C l’evento complementare, cio`e l’abitudine a non bere caff`e, con P l’avere il cancro al polmone e con P il non averlo.

P P

C 45 25 70

C 10 20 30

55 45 100 E evidente un forte “dipendenza”: sembra che l’abitudine al bere il caff`` e sia “causa”

del cancro al polmone. In realt`a se si considera una terza variabile, l’abitudine al fumo, la situazione cambia significativamente.

Fumatori

P P

C 41 8 49

C 6 1 7

47 9 56

Non Fumatori

P P

C 4 17 21

C 4 19 23

8 36 44

Nelle due sottopopolazioni l’avere il cancro ai polmo- ni e l’abitudine al caff`e so- no “quasi” indipendenti (nel senso che le uguaglianze non sono “strette”).

I dati riportati sopra sono inventati ma la problematica di associare l’assunzione di caff`e allo sviluppo del cancro ai polmoni `e un fatto storico. Questa `e stata un’ipote- si considerata prima di scoprire che il cancro ai polmoni fosse fortemente influenzato dall’abitudine al fumo.

Se (con abuso di notazione) indichiamo con P , C e F rispettivamente le variabili che descrivo l’avere il cancro al polmone, l’abitudine a bere caff`e e l’abitudine al fumo si ha:

P 6⊥⊥ C e (P ⊥⊥ C) | F Dipendenza e causalit`a

Osserviamo che in generale, anche non in caso di paradossi come quelli riportati sopra,

“dipendenza” non significa che sia evidenziabile dai dati una variabile “causa” di un’altra, ma solo che esiste un legame fra le due variabili. Pu`o essere la conoscenza del problema a dare indicazioni sulla causalit`a, facendo per`o attenzione a non incorrere in errori come

`e storicamente successo nel caso del secondo paradosso.

Tabelle a tre vie.

Nei due esempi precedenti si sono considerate tre variabili contemporaneamente e di fatto tabelle di contingenza a tre vie come illustrato sotto nel caso di variabili con 3 modalit`a ciascuna.

Possiamo dire che le tabelle a tre vie sono formate da “fette” di tabelle a due vie.

(28)

L’odds

Nel contesto dei due esempi precedenti dove si considerano variabili dicotomiche, cio`e con solo due possibili valori assunti (evento di interesse e suo complementare, tipicamente)

`e possibile definire l’odds come rapporto fra la frequenza dell’evento di interesse, che indichiamo con fe, e la frequenza dell’evento complementare, 1 − fe:

odds = fe

1 − fe

che si pu`o anche esprimere tramite la frequenza assoluta dell’evento (ne) e la numerosit`a della popolazione o sotto popolazione (n): ne/(n − ne).

Nell’esempio della pena di morte la frequenza della sentenza “pena di morte” quando la razza della vittima `e nera `e 6/112 e la frequenza della sentenza “altro” `e 106/112;

quindi l’odds `e 6/106 = 0. 057. Lo stesso odds quando la razza della vittima `e bianca `e 30/184 = 0. 163, cio`e tre volte superiore al precedente.

Nell’esempio del cancro al polmone l’odds della malattia fra i fumatori `e 47/9 = 5. 22 e l’odds fra i non fumatori `e 8/36 = 0. 22. Il primo odds `e 24 volte il secondo.

1.3 Classificazione e rappresentazione di variabili quantitative

I valori assunti dalle variabili quantitative (come il peso, l’altezza, il numero di pulsazioni cardiache in un minuto, ...) sono numeri reali, in quanto misure di grandezze.

1.3.1 La distribuzione di una variabile e il diagramma di dispersione

Come nel caso di variabili qualitative, la distribuzione di una variabile X rilevata su una popolazione (finita) `e data dai valori assunti dalla variabile e dalle frequenze corri- spondenti; quindi, se il numero dei differenti valori assunti dalla variabile `e K, allora la distribuzione `e

(x1, f1), . . . , (xk, fk), . . . , (xK, fK)

dove xk `e il k-esimo valore (non ripetuto) assunto dalla variabile e fk `e la frequenza relativa con cui il valore xk `e assunto nella popolazione. Ricordiamo che fk∈ [0, 1] e che PK

k=1fk = 1.

Quando il numero di unit`a sperimentali `e piccolo e i dati sono “abbastanza sparsi”

una rappresentazione grafica della distribuzione `e il diagramma di dispersione o dot-plot.

Si ottiene riportando un punto per ogni valore assunto dalla variabile come evidenziato nell’esempio seguente.

Esempio 2 (continua) - Pulsazioni

Consideriamo le prime pulsazioni dell’esperi- mento presentato nell’Introduzione. A fianco

`e riportato il diagramma di dispersione.

stripchart(PULSE1,method="stack",

offset=.5,at =.15,pch=19) 50 60 70 80 90 100

Riferimenti

Documenti correlati

Figura 1-18 Andamento fase (in valore assoluto) in un sistema non smorzato

Anche se non si può affermare con sicurezza furono circa 18.000 i nuovi immigrati Italiani che varcarono i confini australiani 9 , tra cui molti con il fine

È per questo stesso motivo che siamo in presenza di un modello bottom-up ovvero uno scenario in cui «le alternative decisionali non possono essere determinate in anticipo,

Nel Capitolo 1 si richiamano i concetti essenziali della meccanica dei continui anisotropi, e in par- ticolare si introducono i concetti fondamentali della teoria classica dei

Descrizione Description Note Q.ty Model 1 5015 0049 Kit Riparazione Valvola Valve Reparing Kit 1... Descrizione Description Note Q.ty Model

L’analisi in componenti principali (CP) si pone l’obiettivo di determinare quelle trasformazioni lineari delle h variabili originarie X i (i = 1, 2, …, h), linearmente

Un host diretto è una stazione collegata direttamente alla rete ed al router della rete, mentre un host indiretto è un host di destinazione situato su una rete diversa da

Questo semplificher` a l’analisi di nostri dati perch` e una matrice diagonale possiede tutti gli elementi fuori dalla diagonale pari a zero e quindi baster` a considerare i