Elementi di Psicometria con Laboratorio di SPSS 1
02-Variabili descrittive: Tabelle e grafici vers. 1.2 (9 ottobre 2014)
Germano Rossi1
germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
2014-2015
Introduzione
In questa ricerca è stato somministrato un questionario di 147 variabili e sono stati raccolti 162 questionari.
Immaginatevi altre righe e molte altre colonne di dati grezzi. Impossibile avere un’idea di cosa abbiamo raccolto.
Tabelle e grafici ci possono aiutare. E anche le statistiche descrittive.
Scopo
Grafici e tabelle devono
essere chiari e concisi (non troppo complessi)
comunicare velocemente le principali tendenze dei dati preferibile usare le tabelle al posto di grafici troppo elemtari Le statistiche descrittive
sono tecniche relativamente semplici di tipo visivo e numerico permettono la descrizione degli aspetti principali dei dati
È importante non considerare l’analisi statistica descrittiva come una parte inutile o banale della ricerca
Ci permettono di conoscere i dati su cui dovremo lavorare
Scegliere tabelle e grafici
Distinguere le variabili qualitative da quelle quantitative è un passo fondamentale
Variabiliqualitative: tabelle di frequenza e grafici a barre o a torta Variabiliquantitative: grafici di frequenza e istogrammi
La tabelle, al primo passaggio si fanno con tutti i valori trovati;
successivamente si possono “manipolare”
Le categorie poco frequenti delle variabili qualitative possono essere accorpate
E anche certi valori delle variabili quantitative possono essere accorpati
Lo scopo è quello di rendere chiari e semplici i grafici e/o le tabelle
Distribuzione di frequenza
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la
distribuzione di frequenza sarà:
M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File: Esempio2-1.xls
f
F 13 ← ff
M 17 ← fm
Tot 30 ← N
f
Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)
Distribuzione di frequenza
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la
distribuzione di frequenza sarà:
MFMF FM M MF FM MF FM MF FM M M MF FMFMFM M File: Esempio2-1.xls
f
F 13 ← ff
M 17 ← fm
Tot 30 ← N
Contiamo le F; il loro numero è la frequenza delle femmine (ff)
m
La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)
Distribuzione di frequenza
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la
distribuzione di frequenza sarà:
MFMF FM M MF FM MF FM MF FM M M MF FMFMFM M File: Esempio2-1.xls
f
F 13 ← ff M 17 ← fm
Tot 30 ← N
Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm)
statistici (indicato con N)
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la
distribuzione di frequenza sarà:
M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File: Esempio2-1.xls
f
F 13 ← ff
M 17 ← fm
Tot 30 ← N
Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi
Tabella delle frequenze
Unatabelle delle frequenzeindica quanti valori abbiamo per ogni categoria della variabile.
Sesso freq prop %
Maschi 17 .57 56.67
Femmine 13 .43 43.33
Totale 30 1.00 100
Di solito si indicano le frequenze e le percentuali oppure frequenze e proporzioni
Distribuzione di frequenza semplice
La somma di tutte le frequenze, deve necessariamente equivalere a N (chiamatanumerosità ovvero il numero di casi statistici).
la distribuzione di frequenza permette di riassumere velocemente molti dati
si applica sicuramente a scale Nominali, Ordinali ed è possibile anche a livello Intervallo/Rapporto (ma non sempre è utile)
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Proporzioni e percentuali
Esprimono il rapporto fra una parte rispetto ad un tutto (o ad un valore di riferimento)
Proporzione f N
la somma dev’essere 1 e nessuna proporzione può superare 1
Percentuale f
N × 100 la somma dev’essere 100 e
nessuna percentuale può superare 100
Esempio
proporzione di femmine 13
30 = 0.43
Esempio
percentuale di maschi 17
30 × 100 = 56.67
Percentuali
Quando la N su cui si calcolano le percentuali è molto piccola, la percentuale perde di significato
In genere non si calcolano le percentuali se la N è inferiore a 20 (ma anche se è 22!)
Infatti 1 unità su 20 equivale al 5%, mentre 1 unità su 100 equivale all’1%
Se per un qualunque motivo, si è verificato un errore di misurazione e una unità è stata “categorizzata” male, se N è basso, le percentuali cambieranno parecchio dando una visione falsata della realtà
Distribuzione di frequenza
Percentuali
Le percentuali non hanno senso se non si conosce la N su cui sono calcolate
Sales .00004 198.5 0.45
Flavia .00007 264.1 0.70
Sant’Anna <.0001 39.2 0.90
Vitasnella <.0002 380.0 3.00
Bagolino .0002 130.0 2.30
San Benedetto <.0007 250.0 6.80
Ferrarelle 1245.0 48.00
Percentuali
Le percentuali non hanno senso se non si conosce la N su cui sono calcolate
Marca % sodio Residuo fisso in mg/l Sodio in mg/l
Sales .00004 198.5 0.45
Flavia .00007 264.1 0.70
Sant’Anna <.0001 39.2 0.90
Vitasnella <.0002 380.0 3.00
Bagolino .0002 130.0 2.30
San Benedetto <.0007 250.0 6.80
Ferrarelle 1245.0 48.00
Test
“Alla conferenza di ieri sera hanno partecipato 65 persone. Alla fine della serata, agli ascoltatori è stato proposto di compilare un questionario sul loro grado di soddisfazione. 45 persone hanno restituito il questionario compilato.
L’analisi dei risultati indica che cinque ascoltatori giudicano la conferenza ottima, dodici buona, ventidue sufficiente, cinque insufficiente e uno pessima.”
Proviamo a rispondere a qualche domanda!
Quanti partecipanti c’erano alla conferenza?
Quanti hanno restituito il questionario?
Qual è la percentuale dei questionari restituiti?
Quanti hanno giudicato “ottima” la conferenza?
Qual è la percentuali di tutti i presenti che ha detto “ottima”?
Più di un quarto dei partecipanti ha detto “insufficiente” o
“pessima”?
Qual è la percentuale dei rispondenti che ha detto “ottima”?
Grafico
Questi dati possono essere riassunti sia in un grafico sia in una tabella.
Quanti partecipanti c’erano alla conferenza?
Quanti hanno restituito il questionario?
Qual è la percentuale dei questionari restituiti?
Quanti hanno giudicato
“ottima” la conferenza?
Qual è la percentuali di tutti i presenti che ha detto “ottima”?
Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”?
Qual è la percentuale dei rispondenti che ha detto “ottima”?
Tabella
Valutazione f % % %c
ottima 5 7,7 11,1 11,1
buona 12 18,5 26,7 37,8
sufficiente 22 33,8 48,9 86,7 insufficiente 5 7,7 11,1 97,8
pessima 1 1,5 2,2 100,0
non risponde 20 30,8
N= 65 (N=65) (N=45)
Quanti partecipanti c’erano alla conferenza?
Quanti hanno restituito il questionario?
Qual è la percentuale dei questionari restituiti?
Quanti hanno giudicato
“ottima” la conferenza?
Qual è la percentuali di tutti i presenti che ha detto “ottima”?
Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”?
Qual è la percentuale dei rispondenti che ha detto “ottima”?
Principi grafici
Il metodo grafico serve a semplificare le cose complesse e noiose Un grafico è più accessibile di una tabella
Il metodo grafico va d’accordo con la vista
Il metodo grafico aiuta il cervello a capire e memorizzare meglio Se bisogna spiegare un grafico usando i numeri, meglio usare una tabella
Regole generali per fare un grafico
Fare in modo che si evidenzino le relazioni fra i dati Evitare il superfluo
Non esagerare il numero di variabili
Usare una linea di riferimento quando c’è un valore che è importante vedere in più grafici
Scopo dei grafici
Grafico di propaganda: cerca di dimostrare ulteriormente quello che si è già visto e capito in altro modo
Grafico analitico: permette di vedere quello che sta succedendo all’interno dei dati
Grafico sostitutivo di tabella: bisogna leggere i numeri che contiene
Grafico decorativo: si usano perché sono belli
Grafici
Si possono rappresentare graficamente sia le frequenze, sia le proporzioni sia le percentuali; la forma del grafico non cambia Si possono faregrafici a barreo“torte”
Femmine Maschi Sesso
Frequenza
13
17
Femmine 43.33%
Maschi 56.67%
Sesso
Grafico a barre (Nominale/Ordinale)
la variabile è misurata su una scala a 10 punti che vanno da 1=sinistra a 10=destra (ordinale) ogni barra rappresenta la frequenza o la
percentuale di una categoria
le barre non si toccano
Grafico a barre (Nominale/Ordinale)
Grafico a torta (N/O)
Giovanni Giacomo
Susanna Distribuzione vendite
Giovanni Giacomo Susanna
Distribuzione vendite
0102030405060
Le informazioni fornite sono analoghe; le torte fanno più scena, ma diventano complicate da interpretare se ci sono molte categorie con frequenze molto
Caratteristiche delle tabelle
Una tabella deve mostrare le sue informazioni “a colpo d’occhio”
Non deve avere troppe categorie (max 20 circa) Né troppo poche (2?)
Perciò se la tabella dev’essere “pubblicata”, le troppe categorie vanno in qualche modo “ridotte”
accorpando categorie simili o mettendo tutte le categorie con bassa frequenza in una categoria “Altro”
È il caso delle tabelle di frequenza delle variabili quantitative
Istogramma (I/R)
Istogramma
Frequenze 01020304050
la variabili quantitative (in particolare quelle
continue) vengono rappresentate tramite intervalli di classe (SPSS lo fa automaticamente) le barre si toccano perché la variabile è continua in questo caso l’intervallo (e la larghezza della barra) corrisponde a 5000
Istogramma con classi più piccole (I/R)
Istogramma con classi più piccole
Frequenze
0 5000 10000 15000 20000 25000
0510152025
se la variabile non è molto simmetrica, l’ampiezza degli intervalli può cambiare moltissimo la distribuzione raffigurata in questo caso l’intervallo (e la larghezza della barra) corrisponde a 2000
Ramo e foglia [Stem & leaf]
Consideriamo un insieme di dati (EsempioG.xls) G=2 3 4 5 6 2 2 2 5 5 3 4 2 6 3 4 4 5 3 2
ordiniamo i dati: 2 2 2 2 2 23 3 3 3 4 4 4 4 5 5 5 5 6 6 2 | 000000
3 | 0000 4 | 0000 5 | 0000 6 | 00
Per ogni valore attiviamo un “ramo” e usiamo poi lo 0 per indicare la “foglia”
Abbiamo 6 volte il valore 2 Sul ramo “2” avremo 6 “foglie”
e via così
In questo modo otteniamo un “grafico” (a caratteri) molto simile ai grafici a barre orizzontali
Complichiamo un po’ le cose
Ramo e foglia [Stem & leaf] (I/R)
A=33, 45, 39, 31, 37, 46, 34, 22, 30, 35, 27, 45, 42, 27, 31, 33, 44, 39, 36, 24, 27, 30, 24, 22, 33, 36, 54, 54, 46, 32, 33, 24, 24, 36, 35, 42, 24, 42, 45, 27, 41 (EsempioA.xls)
Dati ordinati: 2222242424242427 27 27 27 30 30 31 31 32 33 33 33 33 34 35 35 36 36 36 37 39 39 41 42 42 42 44 45 45 45 46 46 54 54
2 | 2244444 2 | 7777
3 | 0011233334 3 | 55666799 4 | 12224 4 | 55566 5 | 44
Se i valori utilizzano le decine, queste vengono usate per i “rami”
e le unità per le “foglie”
Se su un ramo ci sono molte foglie il ramo viene “spezzato in due” (per non avere pochi rami e troppe foglie)
Grafici non presenti sul libro
Ramo e foglia [Stem & leaf]
Con variabili più complesse come il Reddito
Min. ramo-foglia Max. ramo-foglia
611 0 e 6 25880 24 e 9 Esempio SPSS
0 | 6979
2 | 44689001125556667999
4 | 012233456777881111234566889 6 | 01233556679901145679
8 | 000012334488999936 10 | 4004
12 | 45 14 | 026 16 | 5 18 | 3 20 | 22 | 24 | 39
Ramo e foglia [Stem & leaf]
Con variabili più complesse come il Reddito
Min. ramo-foglia Max. ramo-foglia
611 0 e 6 25880 24 e 9 Esempio SPSS
Il punto decimale è 3 posizioni a destra del | 0 | 6979
2 | 44689001125556667999
4 | 012233456777881111234566889 6 | 01233556679901145679
8 | 000012334488999936 10 | 4004
12 | 45 14 | 026 16 | 5 18 | 3 20 | 22 | 24 | 39
Cos’è SPSS
SPSSsignificaStatistical Package for Social Sciences (Pacchetto statistico per le scienze sociali) ed è un programma per gestire dati e calcolare statistiche. Adesso di chiamaIBM Spss
Permette di inserire, nominare e gestire le misurazioni statistiche Permette di manipolare le variabili (in modo analogo ai fogli elettronici
Permette di calcolare le statistiche descrittive, di fare grafici Permette di fare l’analisi dei dati
Esiste un clone “open source” chiamato PSPP
(http://www.gnu.org/software/pspp/, gratuito ma non ancora completo, siamo solo alla versione 0.8.4)
Primo avvio
Per eseguire SPSS (Win) Start |
Tutti i programmi | IBM Spss Statistics | IBM Spss Statistics 2x Selezionate “Immettere dati”
Alla prima esecuzione compare una finestra di dialogo che permette di effettuare alcune scelte. Per disattivarla, click-ate qui
poi OK
Finestra di base
La finestra principale è formata da due pannelli uno per la visualizzazione dei dati
uno per la descrizione delle variabili
Finestra di base
Le principali voci di menù sono:
Dati: permette di agire sul file dei dati (ordinare, selezionare, filtrare. . . )
Trasforma: permette di manipolare le variabili (calcolare nuove variabili, ricodificare, contare valori. . . )
Analizza: È il menù più utilizzato perché contiene tutte le procedure statistiche disponibili
La prima volta che usate SPSS vi conviene fare l’esercitazione disponibile nell’Help.
Per indicare un percorso di menù, userò questa convenzione voce principale | sottomenù | sotto-sottomenù:
ad es. Aiuto | Esercitazione
Distribuzione e grafici in SPSS
La maggior parte delle statistiche che abbiamo visto e che vedremo e i relativi grafici, si ottengono in SPSS tramite due comandi
Analizza | Statistiche descrittive | Frequenze...
Analizza | Statistiche descrittive | Esplora...
In Spss si può fare solo quello che è previsto dal software; i grafici non sono bellissimi
In Excel si possono fare molti più grafici (anche più “belli”) In R (usato in questi lucidi) si può fare praticamente tutto, ma è molto più complicato
Spss
Usando il file esempio1.sav vediamo le statistiche presentate.
Usando File | Apri | Dati cerchiamo e apriamo il file
Spss: frequenze
Calcoliamo le frequenze con il comando Analizza | Statistiche descrittive | Frequenze...
Poi spostiamo Genere fra le Variabili
E premiamo OK
Spss: frequenze
Spss: istogramma (Frequenze)
Analizza | Statistiche descrittive |
Frequenze...
Pulsante Grafici...
Selezioniamo Istogramma eventualmente anche Con curva normale
Pulsante Continua e poi OK
Spss: istogramma (Frequenze/Esplora)
Spss usa
automaticamente gli intervalli di classe non è possibile modificare
l’ampiezza di classe La curva normale non c’è con Esplora
Spss: istogramma (Esplora)
Analizza | Statistiche descrittive |
Esplora...
Pulsante Grafici...
Selezioniamo Istogramma (non è possibile avere la curva normale)
Pulsante Continua e poi OK
Spss: torta
Analizza | Statistiche descrittive | Frequenze...
Pulsante Grafici...
Selezioniamo Grafici a torta
Pulsante Continua e OK
Spss: Steam-leaf (Esplora)
Analizza | Statistiche descrittive |
Esplora...
Pulsante Grafici...
Selezioniamo Ramo-foglia Pulsante Continua
e OK