Elementi di Psicometria con Laboratorio di SPSS 1 02-Variabili descrittive: Tabelle e graﬁci vers. 1.2 (9 ottobre 2014) Germano Rossi

(1)

Elementi di Psicometria con Laboratorio di SPSS 1

02-Variabili descrittive: Tabelle e grafici vers. 1.2 (9 ottobre 2014)

Germano Rossi¹

germano.rossi@unimib.it

1Dipartimento di Psicologia, Università di Milano-Bicocca

2014-2015

(2)

Introduzione

In questa ricerca è stato somministrato un questionario di 147 variabili e sono stati raccolti 162 questionari.

Immaginatevi altre righe e molte altre colonne di dati grezzi. Impossibile avere un’idea di cosa abbiamo raccolto.

Tabelle e grafici ci possono aiutare. E anche le statistiche descrittive.

(3)

Scopo

Grafici e tabelle devono

essere chiari e concisi (non troppo complessi)

comunicare velocemente le principali tendenze dei dati preferibile usare le tabelle al posto di grafici troppo elemtari Le statistiche descrittive

sono tecniche relativamente semplici di tipo visivo e numerico permettono la descrizione degli aspetti principali dei dati

È importante non considerare l’analisi statistica descrittiva come una parte inutile o banale della ricerca

Ci permettono di conoscere i dati su cui dovremo lavorare

(4)

Scegliere tabelle e grafici

Distinguere le variabili qualitative da quelle quantitative è un passo fondamentale

Variabiliqualitative: tabelle di frequenza e grafici a barre o a torta Variabiliquantitative: grafici di frequenza e istogrammi

La tabelle, al primo passaggio si fanno con tutti i valori trovati;

successivamente si possono “manipolare”

Le categorie poco frequenti delle variabili qualitative possono essere accorpate

E anche certi valori delle variabili quantitative possono essere accorpati

Lo scopo è quello di rendere chiari e semplici i grafici e/o le tabelle

(5)

Distribuzione di frequenza

Distribuzione di frequenza semplice

Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.

Esempio

Se abbiamo la seguente distribuzione di dati, la

distribuzione di frequenza sarà:

M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File: Esempio2-1.xls

f

F 13 ← f_f

M 17 ← f_m

Tot 30 ← N

f

Contiamo le M; il loro numero è la frequenza dei maschi (f_m) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)

(6)

Distribuzione di frequenza semplice

Esempio

MFMF FM M MF FM MF FM MF FM M M MF FMFMFM M File: Esempio2-1.xls

f

F 13 ← f_f

M 17 ← f_m

Tot 30 ← N

Contiamo le F; il loro numero è la frequenza delle femmine (f_f)

m

La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)

(7)

Distribuzione di frequenza semplice

Esempio

MFMF FM M MF FM MF FM MF FM M M MF FMFMFM M File: Esempio2-1.xls

f

F 13 ← f_f M 17 ← f_m

Tot 30 ← N

Contiamo le F; il loro numero è la frequenza delle femmine (f_f) Contiamo le M; il loro numero è la frequenza dei maschi (f_m)

statistici (indicato con N)

(8)

Distribuzione di frequenza semplice

Esempio

M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File: Esempio2-1.xls

f

F 13 ← f_f

M 17 ← f_m

Tot 30 ← N

Contiamo le F; il loro numero è la frequenza delle femmine (f_f) Contiamo le M; il loro numero è la frequenza dei maschi (f_m) La somma di tutte le frequenze equivale al numero dei casi

(9)

Tabella delle frequenze

Unatabelle delle frequenzeindica quanti valori abbiamo per ogni categoria della variabile.

Sesso freq prop %

Maschi 17 .57 56.67

Femmine 13 .43 43.33

Totale 30 1.00 100

Di solito si indicano le frequenze e le percentuali oppure frequenze e proporzioni

(10)

Distribuzione di frequenza semplice

La somma di tutte le frequenze, deve necessariamente equivalere a N (chiamatanumerosità ovvero il numero di casi statistici).

la distribuzione di frequenza permette di riassumere velocemente molti dati

si applica sicuramente a scale Nominali, Ordinali ed è possibile anche a livello Intervallo/Rapporto (ma non sempre è utile)

(11)

Distribuzione di frequenza cumulata

È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti

la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)

si applica a scale Ordinali e Intervallo/Rapporto f fc

Nessuna 4 4 4

1 scelta 2 6 4+2

2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18

Totale 76

(12)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(13)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(14)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(15)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(16)

Proporzioni e percentuali

Esprimono il rapporto fra una parte rispetto ad un tutto (o ad un valore di riferimento)

Proporzione f N

la somma dev’essere 1 e nessuna proporzione può superare 1

Percentuale f

N × 100 la somma dev’essere 100 e

nessuna percentuale può superare 100

Esempio

proporzione di femmine 13

30 = 0.43

Esempio

percentuale di maschi 17

30 × 100 = 56.67

(17)

Percentuali

Quando la N su cui si calcolano le percentuali è molto piccola, la percentuale perde di significato

In genere non si calcolano le percentuali se la N è inferiore a 20 (ma anche se è 22!)

Infatti 1 unità su 20 equivale al 5%, mentre 1 unità su 100 equivale all’1%

Se per un qualunque motivo, si è verificato un errore di misurazione e una unità è stata “categorizzata” male, se N è basso, le percentuali cambieranno parecchio dando una visione falsata della realtà

(18)

Percentuali

Le percentuali non hanno senso se non si conosce la N su cui sono calcolate

Sales .00004 198.5 0.45

Flavia .00007 264.1 0.70

Sant’Anna <.0001 39.2 0.90

Vitasnella <.0002 380.0 3.00

Bagolino .0002 130.0 2.30

San Benedetto <.0007 250.0 6.80

Ferrarelle 1245.0 48.00

(19)

Percentuali

Le percentuali non hanno senso se non si conosce la N su cui sono calcolate

Marca % sodio Residuo fisso in mg/l Sodio in mg/l

Sales .00004 198.5 0.45

Flavia .00007 264.1 0.70

Sant’Anna <.0001 39.2 0.90

Vitasnella <.0002 380.0 3.00

Bagolino .0002 130.0 2.30

San Benedetto <.0007 250.0 6.80

Ferrarelle 1245.0 48.00

(20)

Test

“Alla conferenza di ieri sera hanno partecipato 65 persone. Alla fine della serata, agli ascoltatori è stato proposto di compilare un questionario sul loro grado di soddisfazione. 45 persone hanno restituito il questionario compilato.

L’analisi dei risultati indica che cinque ascoltatori giudicano la conferenza ottima, dodici buona, ventidue sufficiente, cinque insufficiente e uno pessima.”

Proviamo a rispondere a qualche domanda!

Quanti partecipanti c’erano alla conferenza?

Quanti hanno restituito il questionario?

Qual è la percentuale dei questionari restituiti?

Quanti hanno giudicato “ottima” la conferenza?

Qual è la percentuali di tutti i presenti che ha detto “ottima”?

Più di un quarto dei partecipanti ha detto “insufficiente” o

“pessima”?

Qual è la percentuale dei rispondenti che ha detto “ottima”?

(21)

Grafico

Questi dati possono essere riassunti sia in un grafico sia in una tabella.

Quanti hanno giudicato

“ottima” la conferenza?

Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”?

(22)

Tabella

Valutazione f % % %c

ottima 5 7,7 11,1 11,1

buona 12 18,5 26,7 37,8

sufficiente 22 33,8 48,9 86,7 insufficiente 5 7,7 11,1 97,8

pessima 1 1,5 2,2 100,0

non risponde 20 30,8

N= 65 (N=65) (N=45)

Quanti hanno giudicato

“ottima” la conferenza?

Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”?

(23)

Principi grafici

Il metodo grafico serve a semplificare le cose complesse e noiose Un grafico è più accessibile di una tabella

Il metodo grafico va d’accordo con la vista

Il metodo grafico aiuta il cervello a capire e memorizzare meglio Se bisogna spiegare un grafico usando i numeri, meglio usare una tabella

Regole generali per fare un grafico

Fare in modo che si evidenzino le relazioni fra i dati Evitare il superfluo

Non esagerare il numero di variabili

Usare una linea di riferimento quando c’è un valore che è importante vedere in più grafici

(24)

Scopo dei grafici

Grafico di propaganda: cerca di dimostrare ulteriormente quello che si è già visto e capito in altro modo

Grafico analitico: permette di vedere quello che sta succedendo all’interno dei dati

Grafico sostitutivo di tabella: bisogna leggere i numeri che contiene

Grafico decorativo: si usano perché sono belli

(25)

Grafici

Si possono rappresentare graficamente sia le frequenze, sia le proporzioni sia le percentuali; la forma del grafico non cambia Si possono faregrafici a barreo“torte”

Femmine Maschi Sesso

Frequenza

13

17

Femmine 43.33%

Maschi 56.67%

Sesso

(26)

Grafico a barre (Nominale/Ordinale)

la variabile è misurata su una scala a 10 punti che vanno da 1=sinistra a 10=destra (ordinale) ogni barra rappresenta la frequenza o la

percentuale di una categoria

le barre non si toccano

(27)

Grafico a barre (Nominale/Ordinale)

(28)

Grafico a torta (N/O)

Giovanni Giacomo

Susanna Distribuzione vendite

Giovanni Giacomo Susanna

Distribuzione vendite

0102030405060

Le informazioni fornite sono analoghe; le torte fanno più scena, ma diventano complicate da interpretare se ci sono molte categorie con frequenze molto

(29)

Caratteristiche delle tabelle

Una tabella deve mostrare le sue informazioni “a colpo d’occhio”

Non deve avere troppe categorie (max 20 circa) Né troppo poche (2?)

Perciò se la tabella dev’essere “pubblicata”, le troppe categorie vanno in qualche modo “ridotte”

accorpando categorie simili o mettendo tutte le categorie con bassa frequenza in una categoria “Altro”

È il caso delle tabelle di frequenza delle variabili quantitative

(30)

Istogramma (I/R)

Istogramma

Frequenze 01020304050

la variabili quantitative (in particolare quelle

continue) vengono rappresentate tramite intervalli di classe (SPSS lo fa automaticamente) le barre si toccano perché la variabile è continua in questo caso l’intervallo (e la larghezza della barra) corrisponde a 5000

(31)

Istogramma con classi più piccole (I/R)

Istogramma con classi più piccole

Frequenze

0 5000 10000 15000 20000 25000

0510152025

se la variabile non è molto simmetrica, l’ampiezza degli intervalli può cambiare moltissimo la distribuzione raffigurata in questo caso l’intervallo (e la larghezza della barra) corrisponde a 2000

(32)

Ramo e foglia [Stem & leaf]

Consideriamo un insieme di dati (EsempioG.xls) G=2 3 4 5 6 2 2 2 5 5 3 4 2 6 3 4 4 5 3 2

ordiniamo i dati: 2 2 2 2 2 23 3 3 3 4 4 4 4 5 5 5 5 6 6 2 | 000000

3 | 0000 4 | 0000 5 | 0000 6 | 00

Per ogni valore attiviamo un “ramo” e usiamo poi lo 0 per indicare la “foglia”

Abbiamo 6 volte il valore 2 Sul ramo “2” avremo 6 “foglie”

e via così

In questo modo otteniamo un “grafico” (a caratteri) molto simile ai grafici a barre orizzontali

Complichiamo un po’ le cose

(33)

Ramo e foglia [Stem & leaf] (I/R)

A=33, 45, 39, 31, 37, 46, 34, 22, 30, 35, 27, 45, 42, 27, 31, 33, 44, 39, 36, 24, 27, 30, 24, 22, 33, 36, 54, 54, 46, 32, 33, 24, 24, 36, 35, 42, 24, 42, 45, 27, 41 (EsempioA.xls)

Dati ordinati: 2222242424242427 27 27 27 30 30 31 31 32 33 33 33 33 34 35 35 36 36 36 37 39 39 41 42 42 42 44 45 45 45 46 46 54 54

2 | 2244444 2 | 7777

3 | 0011233334 3 | 55666799 4 | 12224 4 | 55566 5 | 44

Se i valori utilizzano le decine, queste vengono usate per i “rami”

e le unità per le “foglie”

Se su un ramo ci sono molte foglie il ramo viene “spezzato in due” (per non avere pochi rami e troppe foglie)

(34)

Grafici non presenti sul libro

Ramo e foglia [Stem & leaf]

Con variabili più complesse come il Reddito

Min. ramo-foglia Max. ramo-foglia

611 0 e 6 25880 24 e 9 Esempio SPSS

0 | 6979

2 | 44689001125556667999

4 | 012233456777881111234566889 6 | 01233556679901145679

8 | 000012334488999936 10 | 4004

12 | 45 14 | 026 16 | 5 18 | 3 20 | 22 | 24 | 39

(35)

Ramo e foglia [Stem & leaf]

Con variabili più complesse come il Reddito

Min. ramo-foglia Max. ramo-foglia

611 0 e 6 25880 24 e 9 Esempio SPSS

Il punto decimale è 3 posizioni a destra del | 0 | 6979

2 | 44689001125556667999

4 | 012233456777881111234566889 6 | 01233556679901145679

8 | 000012334488999936 10 | 4004

12 | 45 14 | 026 16 | 5 18 | 3 20 | 22 | 24 | 39

(36)

Cos’è SPSS

SPSSsignificaStatistical Package for Social Sciences (Pacchetto statistico per le scienze sociali) ed è un programma per gestire dati e calcolare statistiche. Adesso di chiamaIBM Spss

Permette di inserire, nominare e gestire le misurazioni statistiche Permette di manipolare le variabili (in modo analogo ai fogli elettronici

Permette di calcolare le statistiche descrittive, di fare grafici Permette di fare l’analisi dei dati

Esiste un clone “open source” chiamato PSPP

(http://www.gnu.org/software/pspp/, gratuito ma non ancora completo, siamo solo alla versione 0.8.4)

(37)

Primo avvio

Per eseguire SPSS (Win) Start |

Tutti i programmi | IBM Spss Statistics | IBM Spss Statistics 2x Selezionate “Immettere dati”

Alla prima esecuzione compare una finestra di dialogo che permette di effettuare alcune scelte. Per disattivarla, click-ate qui

poi ^OK

(38)

Finestra di base

La finestra principale è formata da due pannelli uno per la visualizzazione dei dati

uno per la descrizione delle variabili

(39)

Finestra di base

Le principali voci di menù sono:

Dati: permette di agire sul file dei dati (ordinare, selezionare, filtrare. . . )

Trasforma: permette di manipolare le variabili (calcolare nuove variabili, ricodificare, contare valori. . . )

Analizza: È il menù più utilizzato perché contiene tutte le procedure statistiche disponibili

La prima volta che usate SPSS vi conviene fare l’esercitazione disponibile nell’Help.

Per indicare un percorso di menù, userò questa convenzione voce principale | sottomenù | sotto-sottomenù:

ad es. Aiuto | Esercitazione

(40)

Distribuzione e grafici in SPSS

La maggior parte delle statistiche che abbiamo visto e che vedremo e i relativi grafici, si ottengono in SPSS tramite due comandi

Analizza | Statistiche descrittive | Frequenze...

Analizza | Statistiche descrittive | Esplora...

In Spss si può fare solo quello che è previsto dal software; i grafici non sono bellissimi

In Excel si possono fare molti più grafici (anche più “belli”) In R (usato in questi lucidi) si può fare praticamente tutto, ma è molto più complicato

(41)

Spss

Usando il file esempio1.sav vediamo le statistiche presentate.

Usando File | Apri | Dati cerchiamo e apriamo il file

(42)

Spss: frequenze

Calcoliamo le frequenze con il comando Analizza | Statistiche descrittive | Frequenze...

Poi spostiamo Genere fra le Variabili

E premiamo ^OK

(43)

Spss: frequenze

(44)

Spss: istogramma (Frequenze)

Analizza | Statistiche descrittive |

Frequenze...

Pulsante ^Grafici...

Selezioniamo Istogramma eventualmente anche Con curva normale

Pulsante ^Continua e poi ^OK

(45)

Spss: istogramma (Frequenze/Esplora)

Spss usa

automaticamente gli intervalli di classe non è possibile modificare

l’ampiezza di classe La curva normale non c’è con Esplora

(46)

Spss: istogramma (Esplora)

Esplora...

Selezioniamo Istogramma (non è possibile avere la curva normale)

Pulsante ^Continua e poi ^OK

(47)

Spss: torta

Analizza | Statistiche descrittive | Frequenze...

Selezioniamo Grafici a torta

Pulsante ^Continua e ^OK

(48)

Spss: Steam-leaf (Esplora)

Esplora...

Selezioniamo Ramo-foglia Pulsante ^Continua

e ^OK