L’INTEPRETAZION E DEI DATI
STATISTICI
COME VERIFICARE LA RELAZIONE TRA DUE VARIABILI?
Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla
differenza tra frequenze osservate (fo) e frequenze attese (fe)
( f
o─ f
e)
2χ
2 =Σ
f
eTest statistico di verifica delle ipotesi:
In realtà non verifica (= dimostrare che è vera) un’ipotesi, ma può solo
arrivare a falsificarla (= dimostrare che è falsa)
Il chi quadro,quindi, può arrivare a
dimostrare che l’ipotesi nulla (secondo la quale non esiste una relazione fra la variabili) è falsa
Esercizi
A. Calcola la MEDIANA della serie di cifre che segue:
Età: 15, 37, 86, 36, 19, 39, 55, 89, 16, 25, 41, 70, 67, 12 Svolgimento:
12, 15, 16, 19, 25, 36, 37, 39, 41, 55, 67, 70, 86, 89 Tra 37 e 39
B. Calcola la VARIANZA per la serie di numeri sottoelencata:
Voti riportati agli esami di sociologia: 23, 21, 30, 18, 22, 29 Svolgimento:
Calcolo la media: 23,8
Calcolo gli scarti: 0,8 + 2,8 + 6,2 + 5,8 + 1,8 + 5,2 Somma di ogni scarto elevato al quadrato = 0,6 +7,8
+38,4+33,6+3,2+27,0=110,6
Calcolo la deviazione standard (è la radice quadrata della somma degli scarti al quadrato, divisa per il n° dei casi): √ 110,6/6 = 4,29 Ottengo la varianza (è il quadrato della dev. standard) = 18,4
C. Calcola la VARIANZA per la serie di numeri sottoelencata:
Voti riportati agli esami di metodologia: 27, 28, 30, 27, 29, 30 Svolgimento:
Calcolo la media: 28,5
Calcolo gli scarti: 1,5 + 0,5 + 1,5 + 1,5 + 0,5 + 1,5 Somma di ogni scarto elevato al quadrato
2,25+0,25+2,25+2,25+0,25+2,25= 9,4 Calcolo la deviazione standard: √ 9,4/6 = 1,2
Ottengo la varianza (è il quadrato della dev. standard) = 1,5
Svolgimento:
Freq. osservata: 142
Freq. Attesa: 396 x 231/ 819 = 111,7
Freq. osservata: 89
Freq. Attesa: 423 x 231/ 819 = 119,3
Freq. osservata: 254
Freq. Attesa: 396 x 588/ 819 = 284,3
Freq. osservata: 334
Freq. Attesa: 423 x 588/ 819 = 303,7
χ2 = Σ (fo─ fe)2 / fe
[(142 111,7)─ 2 / 111,7 ] + [(89 119,3)─ 2 / 119,3 ] + [(254 ─ 284,3) 2 /284,3 ] + [(334 303,7)─ 2 / 303,7 ] = 22,1
Gradi di libertà: (n° righe – 1) x (n° colonne – 1) (2-1) x (2-1) = 1
Verifico il valore del chi-quadrato nella tavola di distribuzione e osservo che è < 0,0001 La relazione tra le due variabili esaminate è significativa (l’ipotesi nulla – secondo la
quale non esiste una relazione fra la variabili – è falsa)
INTERPRETAZIONI STATISTICHE INTERPRETAZIONI STATISTICHE
DI PRIMO LIVELLO DI PRIMO LIVELLO
Un legame statisticamente Un legame statisticamente
significativo tra due variabili può significativo tra due variabili può
essere rintracciato in due modi:
essere rintracciato in due modi:
confrontando le frequenze confrontando le frequenze
osservate con le frequenze attese;
osservate con le frequenze attese;
confrontando le percentuali di riga confrontando le percentuali di riga con i totali marginali di colonna.
con i totali marginali di colonna.
Analisi a tre variabili
Se troviamo che esiste una correlazione negativa fra la % di persone che vanno in vacanza e la % di voti ad Alleanza
Nazionale, in realtà la tendenza è spiegata da un altro elemento.
Entrambe le variabili sono influenzate dalla variabile “collocazione
territoriale” (al Sud si va meno in
vacanza e si vota di più per An, anche se tra le due non c’è un nesso causale)
Lazarsfeld ha immaginato la
possibilità di utilizzare una terza variabile, detta interveniente, per
elaborare e chiarire la relazione originale tra due variabili, per
valutare la genuinità di una correlazione.
Con due variabili originarie (x e y) e una interveniente (t) si possono
verificare quattro tipi di operazioni.
(t) è precedente alla relazione tra (x) e (y), ma non la modifica (t =
condizione della relazione);
(t) è successiva alla relazione tra (x) e (y) (t = variabile contingente);
(t) è precedente alla relazione tra (x) e (y) e la modifica (relazione spuria);
(t) è successiva alla relazione tra (x) e (y) e la modifica (interpretazione).
Specificazione
Y
X Z
Specificazione ( relazione condizionata)
Spiegazione
X Z
Y
Spiegazione (relazione spuria)
Interpretazione
X Z
Y
Interpretazione (relazione indiretta)
LA RELAZIONE SPURIA C’È COVARIAZIONE
PUR IN ASSENZA DI CAUSAZIONE
X numero pompieri
Y entità dei danni T dimensione
incendio
L’azione della variabile (t) può essere
eliminata in due modi; uno di questi è:
il CONTROLLO: si ri-analizza la relazione fra (x) e (y) in sub-campioni nei quali (t) sia mantenuta costante
Es. (x) = genere
(y) = partecipazione elettorale (t) = età
Se scopriamo che le donne votano meno, dobbiamo però considerare anche se fra
loro ci siano più persone anziane (le donne sono più longeve). Per tenere sotto
controllo (t), dividiamo i casi studiati in
sub-campioni in gruppi omogenei per età e riconsideriamo il rapporto fra genere ed
età
La lettura dei dati statistici
Analisi di secondo livello (cioè su dati non originali) su “dati
ecologici”.
I dati ecologici sono aggregati per macro unità territoriali e perciò
non riconducibili a singoli
individui.
1. Serie storica: visualizza il trend di un
fenomeno; mette a confronto la frequenza di un fenomeno in tempi successivi, ne
fotografa l’andamento nel tempo.
2. Indice semplice: è il rapporto tra due dati riferiti allo stesso fenomeno e presi in due tempi o in due unità spaziali differenti
(rapporto tra il valore raccolto in un anno e il valore dell’anno base)
- variazione percentuale: è la differenza tra ogni anno successivo e l’anno base divisa per l’anno base e moltiplicata per 100.
3. Indice sintetico: è una misura di sintesi che aggrega una serie di indici semplici che riguardano un fenomeno della stessa natura (es.
indice di criminalità)
4. Indice composto: è una misura di
sintesi derivata dalla ponderazione di un gruppo di variabili che riguarda
un fenomeno multidimensionale (es.
qualità della vita)
Serie temporale (o serie storica): la
sequenza dei valori assunti da una variabile nello stesso aggregato
territoriale in tempi diversi.
Serie territoriale: la sequenza dei
valori assunti da una variabile nello
stesso momento in diversi aggregati
territoriali
GLI INDICATORI SOCIALI GLI INDICATORI SOCIALI
è un simbolo che permette di rappresentare un determinato fenomeno sociale, anche se in modo parziale e mediato.
È simbolico, nel senso che va oltre se
stesso, ha significato rispetto al concetto che rappresenta, non in se stesso.
Ha un’ottica parziale.
Molto spesso un solo indicatore non è in grado di rappresentare un concetto, per cui si deve scomporre quest’ultimo in una serie di componenti.
Criteri metodologici che devono essere rispettati da un indicatore sociale:
1. VALIDITÀ: è l’efficacia di un
indicatore nel connettere definizione e fenomeno, ovverosia la misura e il concetto. Ogni indicatore ha una
parte indicante e una parte
estranea: un indicatore per essere
valido deve ridurre la parte estranea a favore di quella indicante.
2. ATTENDIBILITÀ: è la capacità
tecnica delle statistiche che vengono elaborate.
3. COERENZA: riguarda la compatibilità logica di un indicatore all’interno dello studio di un fenomeno. Deve esserci
coerenza generale tra gli indicatori scelti per verificare un fenomeno.
4. COMPARABILITÀ: è la qualità di un indicatore di essere tecnicamente confrontabile sul piano numerico.
5. CONVERGENZA: un insieme di
indicatori relativi al medesimo fenomeno devono presentare una congruenza
logica ed empirica; essi devono tendere ad un’omogeneità.
Gli indicatori possono essere individuali, se calcolati su
informazioni relative a singoli
individui (matrice dati di una ricerca condotta ad hoc), costruiti con uno stretto legame tra indicatore e
concetto a cui rinvia, oppure
ecologici, se costruiti su unità di tipo aggregato a base territoriale (fonti ufficiali), costruiti in riferimento a una teoria come conoscenza tacita.