• Non ci sono risultati.

Statistica sociale

N/A
N/A
Protected

Academic year: 2022

Condividi "Statistica sociale"

Copied!
8
0
0

Testo completo

(1)

C

ORSO DI

S TATISTICA S OCIALE

Dott.ss Agnieszka Stawinoga [email protected]

Statistica sociale

Laboratorio 4

(2)

Distribuzione unitaria multipla

Distribuzioni di frequenza

Tabella di contingenza

La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale

esso si presenta nei dati analizzati.

Categoria Frequenza

Categoria1 n1 Categoria2 n2 Totale n

Una tabella di contingenza è una tabella costituita da righe che rappresentano I possibili valori (o categorie) di una variabile e da colonne che rappresentano I possibili valori (o

categorie) di una seconda variabilr. I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di

valori/ categorie.

Categ1 Categ2 Categ3 Totale

Categ1 n11 n12 n13

Categ2 n21 n22 n23

Totale

Variabile 1

Variabile 2

Studente Sesso Fumo

1 1 0

2 1 0

3 1 0

4 0 0

5 0 0

6 1 0

7 0 0

8 1 0

9 0 1

10 0 0

11 0 0

12 0 1

13 1 0

14 1 0

15 0 1

16 1 0

17 0 1

18 1 0

19 1 0

20 1 1

21 1 0

22 0 0

23 0 0

24 0 1

25 0 0

26 0 0

27 1 1

28 1 0

29 1 0

30 1 0

31 1 0

(3)

Distribuzioni di frequenza

La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si

presenta nei dati analizzati.

La frequenza relativa di una classificazione consiste nel numero di volte in cui una osservazione si ritrova all’interno della classificazione stessa (frequenza assoluta ni), rappresentata come una porzione del numero totale di osservazioni. La frequenza relativa può essere espressa come una frazione, decimale o percentuale.

i i

f n

n

La frequenza relativa

della i-ma classe La frequenza relativa

percentuale (%)

f

i

*100

La frequenza relativa cumulata di una classe è la somma della frequenza relativa di quella classe con quella di tutte le classi precedenti. Rappresenta una porzione del

numero totale delle osservazioni e può essere espressa come una frazione, un numero decimale o una percentuale.

(4)

Le distribuzioni doppie:

Alcuni simboli

Z: FUMO

Y: SESSO Non fuma Fuma Totale complessivo

Maschio 80 25 105

Femmina 101 30 131

Totale complessivo 181 55 236

Generico elemento di riga i

e colonna j

n

ij

.

1 k

j ij

i

n n

j-esimo elemento del marginale di

colonna

.

1 m

i ij

j

n n

i-esimo elemento del marginale di

riga

..

1 1

k m

ij

i j

n n

Totale delle frequenze

Caratteristiche di una distribuzione doppia:

- una variabile Y, sulle righe, con k modalità, - una variabile Z, sulle colonne con m modalità, - una distribuzione marginale per la Y,

- una distribuzione marginale per la Z,

- m distribuzioni di Z condizionate alle modalità di Y, - k distribuzioni di Y condizionate alle modalità di Z.

Le distribuzioni doppie

quantitativa: se entrambe le componenti sono quantitative qualitativa: se entrambe le componenti sono qualitative mista: se una componente è quantitativa e l’altra

qualitativa

(5)

L’associazione fra due variabili nominali

Approccio simmetrico (interdipendenza):

 l’indice chi-quadrato

 l’indice phi-quadrato

 l’indice V di Cramer

Indipendenza:

Le frequenze teoriche:

(in caso di indipendenza)

' .

. '. ..

ij i j j

i i

n n n

n n n

.

. ..

ij j

i

n n

n n

. .

ˆ

ij

n

i

n

j

n n

2

2

( ˆ )

ˆ

ij ij

i j ij

n n

L’indice chi-quadrato: n

L’indice phi-quadrato:

L’indice V di Cramer:

2 2

n

2 2

min[( 1), ( 1)] min[( 1), ( 1)]

V k m n k m

max(

2

) min[( k 1), ( m 1)]

max(

2

) n min[( k 1), ( m 1)]

(6)

H

0

: Le due variabili sono indipendenti tra loro

H

1

: Le due variabili non sono indipendenti tra loro

Significatività della relazione fra due variabili nominali

L’indice chi-quadrato misura la distanza della distribuzione di frequenza osservata dalla distribuzione di frequenza teorica che si avrebbe in caso di indipendenza.

2

2

( ˆ )

ˆ

ij ij

i j ij

n n n

La statistica test chi-quadrato si calcola seguendo la formula:

Gradi di libertà si calcolano nel seguente modo: (k-1)*(m-1)

i= 1,…,k; j=1,…,m

Stabilito il livello di significatività α. Per decidere se rifiutare o no H

0

si confronta il valore calcolato della statistica test con il valore critico del

chi-quadrato . Si rifiuta H

0

quando il

valore osservato è maggiore dal valore di .

2,(k 1)(m 1)

2

,(k 1)(m 1) 2

(7)

Tipo di copertura assicurativa

Qualifica Alto livello Base Nessuna Totale

Funzionario 35 12 3 50

Impiegato 21 67 12 100

A contratto 6 112 32 150

Totale 62 191 47 300

Tipo di copertura assicurativa

Qualifica Alto livello Base Nessuna Totale

Funzionario 10.33 31.83 7.83 50

Impiegato 20.67 63.67 15.67 100

A contratto 31 95.5 23.5 150

Totale 62 191 47 300

Frequenze osservate Frequenze attese

Esempio:

Il dipartimento di risorse umane di una grande azienda raccoglie i dati su 300

impiegati relativamente a due caratteristiche: livello di qualifica lavorativa e piano assicurativo. I dati vengono riassunti in una tabella di contingenza (Tab1). Verificare se esiste una relazione tra la scelta del piano assicurativo e livello di qualifica

professionale. (Il livello di significatifità uguale al 0.05)

Tab1.

2 2

2

(35 10, 33) (32 23, 5)

... 58,88 ... 3, 07 101, 35

10, 33 23, 5

2

0,34

0, 29 V

2

0,05,4

9, 49

oss2 0,05,42

Rifiutiamo H

0

, quindi due variabili non sono

indipendenti

H0: Scelta del piano assicurativo e livello di qualifica sono indipendenti H1: Scelta del piano assicurativo e livello di qualifica non sono indipendenti

Nel test chi-quadro le frequenze attese in ciascuna cella devono essere almeno 5. Quando non è cosi, le categorie devono essere unite.

(8)

Esercizio 1:

In uno studio sul consumo di alcol dagli studenti di una certa facoltà si vuole indagare se il consumo di alcol è connesso in qualche modo con il luogo in cui uno studente abita. Il ricercatore compila la tabella di

contingenza riportata di seguito. Al livello di significatività uguale a 0.05 verificate se esiste una relazione tra queste due variabili.

Tipo di bevitore

Residenza Sobrio Occasionale Frequente Totale

Casa dello studente 35 25 46

Istituto religioso 0 1 0

Altra residenza univ 0 2 1

Appartamento privato 49 30 24

Totale 213

Esercizio 2:

Una volta eseguito il punto 6 dell’esercizio 2 del file ““Lezione2_Excel”,

verificate se esiste una relazione tra due variabili: Nazione(ridotta in due

modalità) e Giudizio. Il livello di significatività uguale a 0.05.

Riferimenti

Documenti correlati

Misure, indici (numerici) che descrivono le caratteristiche della di- stribuzione di una o pi` u variabili in modo sintetico. • indici di posizione o

La macchina tradizionale di Von Neumann è ovviamente di tipo SISD: essa ha un unico flusso di istruzioni (cioè un unico programma) eseguito da una CPU ed ha poi un’unica memoria

Nel caso in esame, osservando che nelle funzioni di Bessel il valore di riferimento della portante non modulata, cioè J 0 con m=0 è uguale a 1, si stabilisce di considerare come

Il grafico della funzione di amplificazione di Valco S.Paolo è in realtà costituito dai grafici di 7 funzioni, ognuna corrispondente ad un moto di input.. Le 7 funzioni sono del

le osservazioni equidistanti dalla mediana (coincidente in questo caso col massimo centrale) presentano la stessa.

Al fine di comprendere il funzionamento del presente modulo nella seconda modalità si evidenzia che esso realizza una sorta di sistema adattivo per la generazione delle parole di

 provocare, mediante i terminali asincroni di CLEAR l’azzeramento di tutti i bistabili dopo il numero prefissato di impulsi di clock; in questo modo, se si vuole dividere

• La risposta di un sistema Lineare Tempo Invariante ad un Ingresso Sinusoidale, se tale ingresso non coincide con un modo naturale del sistema, è costituita dalla somma di una