Elementi di Psicometria (con laboratorio software 1)
01-Rappresentazione dei dati (2) (v. 1.1, 7 marzo 2020)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
2019-20
Esercizio
Descrizione variabile N O I R
1 Genere (maschi, femmine) 2 Anno di nascita
3 Età
4 Titolo di studio (licenza elementare, medie...) 5 Anni di studio completati
6 Tipo di mezzo di trasporto utilizzato x raggiungere il luogo di lavoro
7 Ore passate su un mezzo di trasporto x raggiungere il luogo di lavoro
8 Quante volte alla settimana mangi fuori casa (conside- rando solo i due pasti principali)
9 Quoziente di Intelligenza
Esercizio
Descrizione variabile N O I R
10 Quanto sei soddisfatto della tua vita in generale? 0) per niente; 1) poco; 2) abbastanza; 3) molto; 4) moltissimo 11 Spesso i partiti politici vengono classificati di destra o di si-
nistra (e considerati come opposti) o di centro. Su una scala che va da sinistra a destra, come giudichi il tuo orientamento politico (1=sinistra – 10=destra)
12 Su una scala da 1 a 10, quanto sei d’accordo che gli extra- comunitari vadano espulsi dal paese?
Obiettivo della statistica descrittiva
L’obiettivo principale è quello di cercare (e trovare) un certo ordine/struttura nelle diverse informazioni rappresentate dai dati numerici
Quest’obiettivo si può raggiungere tramite valori numerici o forme di visualizzazione che rappresentano delle “sintesi” statistiche
distribuzioni di frequenza indici della tendenza centrale indici di variabilità
oppure tramite rappresentazioni grafiche
Vedrete queste cose praticamente durante le esercitazioni (soprattutto in SPSS)
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà:
M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File:
Esempio2-1.xlsx
F 13 ← ff f
M 17 ← fm
Tot 30 ← N
Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà:
MF M F FM M M F FM MF F M MF FM M M M F FMF M FM M File:
Esempio2-1.xlsx
F 13f ← ff
M 17 ← fm
Tot 30 ← N Contiamo le F; il loro numero è la frequenza delle femmine (ff)
Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà:
MF M F FM M M F FM MF F M MF FM M M M F FMF M FM MFile:
Esempio2-1.xlsx
F 13 ← ff f
M 17 ← fm
Tot 30 ← N Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm)
La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)
Distribuzione di frequenza semplice
Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.
Esempio
Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà:
M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File:
Esempio2-1.xlsx
F 13f ← ff
M 17 ← fm
Tot 30 ← N
Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)
Distribuzione di frequenza semplice
La somma di tutte le frequenze, deve necessariamente equivalere a N (chiamata numerosità ovvero il numero di casi statistici).
In termini matematici, equivale a scrivere:
N
∑︁
i =1
fi =∑︁
fi = N
dove ∑︁ indica l’operazione di somma, f indica frequenza e i è un indice che indica i casi, per cui (in questo caso) può valere f o m oppure 1 o 2
la distribuzione di frequenza permette di riassumere velocemente molti dati
si applica sicuramente a scale Nominali, Ordinali ed è possibile anche a livello Intervallo/Rapporto (ma non sempre è utile)
Proporzioni e percentuali
Esprimono il rapporto fra una parte rispetto ad un tutto (o ad un valore di riferimento)
Proporzione f N
la somma dev’essere 1 e nessuna proporzione può superare 1 Esempio
proporzione di femmine 13
30 =0.43
Percentuale f
N ×100
la somma dev’essere 100 e nessuna percentuale può superare 100 Esempio
percentuale di maschi 17
30×100 = 56.67
Percentuali
Le proporzioni e le percentuali si possono calcolare a tutti i livelli (N, O, I/R), anche se è preferibile non usarli per variabili
intervallo/rapporto continue e con molti valori
Quando la N su cui si calcolano le percentuali è molto piccola, la percentuale perde di significato
In genere non si calcolano le percentuali se la N è inferiore a 20 (ma anche se è 22!)
Infatti 1 unità su 20 equivale al 5%, mentre 1 unità su 100 equivale all’1%
Se per un qualunque motivo, si è verificato un errore di misurazione e una unità è stata “categorizzata” male, se N è basso, le percentuali cambieranno parecchio dando una visione falsata della realtà
Percentuali
Le percentuali hanno poco senso se non si conosce la N su cui sono calcolate (es. un po’ vecchio)
Marca % sodio in Residuo fisso Sodio etichetta in mg/l in mg/l
Sales .00004 198.5 0.45
Flavia .00007 264.1 0.70
Sant’Anna <.0001 39.2 0.90
Panna 141.0 6,70
Vitasnella <.0002 380.0 3.00
Bagolino .0002 130.0 2.30
San Benedetto <.0007 250.0 6.80
Ferrarelle 1245.0 48.00
Percentuali
Le percentuali hanno poco senso se non si conosce la N su cui sono calcolate (es. un po’ vecchio)
Marca % sodio in Residuo fisso Sodio etichetta in mg/l in mg/l
Sales .00004 198.5 0.45
Flavia .00007 264.1 0.70
Sant’Anna <.0001 39.2 0.90
Panna 141.0 6,70
Vitasnella <.0002 380.0 3.00
Bagolino .0002 130.0 2.30
San Benedetto <.0007 250.0 6.80
Ferrarelle 1245.0 48.00
Tabella delle frequenze
Una tabelle delle frequenze indica quanti valori abbiamo per ogni categoria della variabile.
Sesso freq prop %
Maschi 17 .57 56.67
Femmine 13 .43 43.33
Totale 30 1.00 100
Di solito si indicano frequenze e percentuali oppure frequenze e proporzioni
A livello ordinale, si possono calcolare anche le percentuali cumulate
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Distribuzione di frequenza cumulata
È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti
la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)
si applica a scale Ordinali e Intervallo/Rapporto f fc
Nessuna 4 4 4
1 scelta 2 6 4+2
2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18
Totale 76
Frequenze cumulate
Il 53.4% dei soggetti ha dato come risposta valori inferiori o uguali a 5
Frequenze cumulate
Su variabili intervallo/rapporto non hanno molto senso le tabelle di frequenza (perché ci sono molti valori)
Però possono essere utili le percentuali cumulate
Intervalli di classe
Quando a qualcuno chiedete “Quanti anni hai?” potete ricevere diverse risposte: 19; quasi 23; ho appena compiuto i 20...
In tutti i casi l’età detta è in qualche modo “approssimata” ad un intero, perché chiunque avrà un certo numero di anni, qualche mese, un po’ di giorni, qualche ora, alcuni minuti, alcuni secondi...
L’età, come numero intero di anni trascorsi dalla nascita, può essere pensato come un intervallo di classe con intervallo di ampiezza 1 Il valore centrale di un intervallo diventa il punto verso cui gravitano i veri valori dell’età.
19 anni e 8 mesi è più vicino ai 20, mentre 19 anni e 3 mesi è più vicino ai 19.
Intervalli di classe o di frequenza
Una qualsiasi variabile (discreta o continua, purché quantitativa), se ha molte categorie di valori, può essere raggruppata in intervalli di classe La classificazione in intervalli può essere utilizzata sia per costruire la distribuzione di frequenza e fare rappresentazioni grafiche sia per il calcolo delle principali statistiche (in questo caso si perdono informazioni ed è altamente sconsigliato)
Se faccio gli intervalli di classe di uguale ampiezza, qualunque variabile intervallo/a rapporto (anche se discreta) viene considerata “come se fosse” continua
Se faccio intervalli di classe di diversa ampiezza, abbasso la scala a livello ordinale (es, l’età in fasce: adolescenti, giovani, giovani adulti, adulti...)
Tipi di rappresentazioni grafiche
Con le attuali conoscenze, le rappresentazioni grafiche disponibili sono:
Grafico a barre (verticali/orizzontali) Grafico a torta
Istogramma a barre (verticali/orizzontali) Poligoni di frequenza (semplice e cumulata) Diagrammi ramo-foglia
Alcuni di questi grafici si possono ottenere sia in Excel sia in R sia in SPSS
Alcuni non si possono ottenere se non in R
Grafici/Istogrammi a barre
Grafici e istogrammi a barre sono molti simili
I grafici a barre sono indicati per variabili nominali e ordinali: le barre sono separate l’una dall’altra
Gli istogrammi a barre sono indicati per variabili intervallo/rapporto:
le barre sono contigue fra loro
Ogni frequenza è rappresentata da una barra
La lunghezza di ogni barra è proporzionale alla frequenza: barre più lunghe indicano frequenze più elevate
Negli istogrammi anche l’area di una barra è proporzionale alla frequenza
Grafico a barre verticali (Nominale/Ordinale)
la variabile è
misurata su una scala a 10 punti che vanno da 1=sinistra a 10=destra
è quindi una variabile ordinale (*)
(*) ma viene spesso considerata a intervalli
Grafico a barre orizzontali (Nominale/Ordinale)
Grafico a torta (N/O)
Giovanni Giacomo
Susanna Distribuzione vendite
Giovanni Giacomo Susanna
Distribuzione vendite
0102030405060
Le informazioni fornite sono analoghe; le torte fanno più scena, ma diventano complicate da interpretare se ci sono molte categorie con frequenze molto vicine fra loro
Istogramma (I/R)
Istogramma
Frequenze
0 5000 10000 15000 20000 25000 30000
01020304050
Le variabili quantitative (in particolare quelle continue) vengono rappresentate tramite intervalli di classe.
Qui la variabile Reddito (da 0 a 25.000) è rappresentata con ampiezza di 5000 (SPSS sceglie l’ampiezza automaticamente)
Istogramma con classi più piccole (I/R)
Istogramma con classi più piccole
Frequenze
0 5000 10000 15000 20000 25000
0510152025
Qui la variabile Reddito (da 0 a 25.000) è rappresentata con ampiezza di 2000 (in SPSS non si può scegliere)
Se la variabile non è molto simmetrica, l’ampiezza degli intervalli può cambiare moltissimo la distribuzione raffigurata
Forme di distribuzione
una distribuzione è simmetricase è speculare rispetto alla metà (prima riga)
asimmetrica se non lo è (negativa=sinistra; positiva=destra)
Forme di distribuzione
la forma grafica della distribuzione permette di identificare alcune sue caratteristiche
i picchi rappresentano i valori più frequenti
si classificano in unimodali (curve A, B, E, F), bimodali (curva C) e multimodali
si identificano facilmente le distribuzioni simmetriche o vicino alle simmetriche
Una particolare curva simmetrica con forma a campana è chiamata
“normale” o “gaussiana” (curva A) Gaussiana perché studiata da Gauss
Normale perché moltissime misurazioni di eventi fisici e/o naturali si distribuiscono con questa forma, che diventa un punto di riferimento in tutta la statistica
Istogramma con curva normale (I/R)
Istogramma con classi più piccole
Frequenze
0 5000 10000 15000 20000 25000
0.000000.000040.000080.00012
In SPSS è possibile stampare un’istogramma con sovrapposta la curva normale
Riepilogo della teoria
Variabili, Valori Scale di misura
Nominale Ordinale
Intervalli equivalenti A rapporto
Tabella delle frequenze Tabella delle percentuali Frequenze e percentuali cumulate
Grafici a barre Istogrammi
Cos’è un foglio elettronico
Un foglio elettronico è una tabella in cui si possono fare calcoli in tempo reale: cambiando un valore in una cella, cambia il contenuto di eventuali celle collegate (ad es. una somma)
Le righe sono generalmente identificate da numeri progressivi, mentre le colonne da lettere alfabetiche progressive. Le celle vengono quindi identificate tramite gli identificatori di colonna e di riga (A1, BC75) In una cella di un foglio elettronico, oltre a inserire del testo o un numero, si possono inserire “istruzioni” che indicano come usare il contenuto di altre celle per fare calcoli o altre “manipolazioni” (ad es.
=A1+B1; =SOMMA(A1:A5))
Excel, OpenCalc, LibreCalc sono alcuni fogli elettronici che fanno parte di suite come “Microsoft Office”, “OpenOffice”, “LibreOffice”
OpenOffice e LibreOffice sono software “open” (quindi gratuiti).
Cos’è R
R è un software statistico “open source”, molto potente e sofisticato, interamente programmabile
È come avere a disposizione una mega calcolatrice che permette di svolgere sia calcoli semplici e banali (2+3) sia analisi molto complesse Si può scaricare dal sito “The Comprehensive R Archive Network”
(abbreviato in CRAN,http://cran.r-project.org/o da un suo
“mirror”, uno è a Milano)
Oltre alle guide disponibili in CRAN, potete utilizzare la mia dispensa
“L’uso di R in psicologia” (versione provvisoria)
Alternative a R: Jasp
Jasp è un’interfaccia per R che mostra i risultati nello stesso formato di SPSS
Non è completo (è alla versione 0.11.1.0) ma è completamente gratuito (e si preoccupa di installare anche R)
Si può scaricare dal sito“JASP | A Fresh Way to Do Statistics”
È disponibile per Windows, Mac e Linux
Ci sono degli help (in inglese) all’interno del software stesso e dei video (in inglese) su Youtube
Alcuni manuali (in inglese e qualche traduzione) si trovano alla pagina dei manuali (non sono aggiornati all’ultimissima versione, ma non è fondamentale): Goss-Sampson, M. A. (2019). Statistical Analysis in JASP 0.10: A Guide for Students
Alternative a R: Jamovi
Jamoviè un’interfaccia per R che mostra i risultati nello stesso formato di SPSS
Non è completo (è alla versione 1.1.9) ma è completamente gratuito (e si preoccupa di installare anche R)
Si può scaricare dal sito“Jamovi. Stats. Open. Now.”
Esiste una guidauser guide in inglese
e dei contributi scritti dagli utenti sotto (resources by the community), degli help all’interno del software stesso e dei video su Youtube (tutto materiale in inglese)
Cos’è SPSS
SPSS significa Statistical Package for Social Sciences (Pacchetto statistico per le scienze sociali) ed è un programma a pagamento per gestire dati e calcolare statistiche. Adesso si chiama IBM SPSS
Permette di inserire, nominare e gestire le misurazioni statistiche Permette di manipolare le variabili (in modo analogo ai fogli elettronici Permette di calcolare le statistiche descrittive, di fare grafici
Permette di fare l’analisi dei dati
Esiste un clone “open source” chiamato PSPP(attualmente alla vers.
1.2.0), gratuito ma non ancora completo
Primo avvio 1
Per eseguire SPSS (Win 10) Start poi scorrere fino alla I e scegliere
IBM SPSS Statistics quindi IBM SPSS Statistics 25
Alla prima esecuzione compare una finestra di dialogo che permette di effettuare alcune scelte.
Selezionare “Nuovo dataset” per aprire una finestra senza dati
Per disattivare l’apertura automatica, click-ate qui
Primo avvio 2
Potete selezionare “Introduzione con esercitazioni”
Oppure Chiudi
Finestra di base
La finestra principale è formata da due pannelli uno per la visualizzazione dei dati (Vista dati)
uno per la descrizione delle variabili (Vista variabili)
Finestra di base
Le principali voci di menù sono:
Dati: permette di agire sul file dei dati (ordinare, selezionare, filtrare...) Trasforma: permette di manipolare le variabili (calcolare nuove
variabili, ricodificare, contare valori...)
Analizza: È il menù più utilizzato perché contiene tutte le procedure statistiche disponibili
La prima volta che usate SPSS vi conviene fare l’esercitazione disponibile nell’Help.
Per indicare un percorso di menù, userò questa convenzione voce principale | sottomenù | sotto-sottomenù:
ad es. Analizza | Statistiche descrittive | Frequenze
Distribuzione e grafici in SPSS
La maggior parte delle statistiche che abbiamo visto e che vedremo e i relativi grafici, si ottengono in SPSS tramite due comandi
Analizza | Statistiche descrittive | Frequenze...
Analizza | Statistiche descrittive | Esplora...
In Spss si può fare solo quello che è previsto dal software; i grafici non sono bellissimi
In Excel si possono fare molti più grafici (anche più “belli”) In R (usato in questi lucidi) si può fare praticamente tutto, ma è molto più complicato
Spss: frequenze
Calcoliamo le frequenze con il comando Analizza
| Statistiche descrittive | Frequenze...
Poi spostiamo una variabile
nominale/ordinale fra le Variabili
E premiamo OK File: esempio1.sav
Spss: frequenze
Spss: istogramma (Frequenze)
Analizza | Statistiche descrittive | Frequenze...
Pulsante Grafici...
Selezioniamo Istogramma eventualmente anche Con curva normale
Pulsante Continua e OK
Spss: istogramma (Esplora)
Analizza | Statistiche descrittive | Esplora...
Pulsante Grafici...
Selezioniamo Istogramma (non è possibile avere la curva normale)
Pulsante Continua e OK
Spss: istogramma (Frequenze/Esplora)
Spss usa
automaticamente gli intervalli di classe non è possibile modificare
l’ampiezza di classe La curva normale non c’è con Esplora
Spss: torta
Analizza | Statistiche descrittive | Frequenze...
Pulsante Grafici...
Selezioniamo Grafici a torta
Pulsante Continua e OK
Riepilogo SPSS
Analizza | Statistiche descrittive | Frequenze...
Per le tabelle delle frequenze, percentuali e percentuali cumulate Per i Grafici a barre
Per gli Istogrammi (anche con curva normale)
Analizza | Statistiche descrittive | Esplora...
Per gli Istogrammi (ma senza curva normale)