Elementi di Psicometria (con laboratorio software 1) 01-Rappresentazione dei dati (2) (v. 1.1, 7 marzo 2020) Germano Rossi

(1)

Elementi di Psicometria (con laboratorio software 1)

01-Rappresentazione dei dati (2) (v. 1.1, 7 marzo 2020)

Germano Rossi¹ germano.rossi@unimib.it

1Dipartimento di Psicologia, Università di Milano-Bicocca

2019-20

(2)

Esercizio

Descrizione variabile N O I R

1 Genere (maschi, femmine) 2 Anno di nascita

3 Età

4 Titolo di studio (licenza elementare, medie...) 5 Anni di studio completati

6 Tipo di mezzo di trasporto utilizzato x raggiungere il luogo di lavoro

7 Ore passate su un mezzo di trasporto x raggiungere il luogo di lavoro

8 Quante volte alla settimana mangi fuori casa (conside- rando solo i due pasti principali)

9 Quoziente di Intelligenza

(3)

Esercizio

Descrizione variabile N O I R

10 Quanto sei soddisfatto della tua vita in generale? 0) per niente; 1) poco; 2) abbastanza; 3) molto; 4) moltissimo 11 Spesso i partiti politici vengono classificati di destra o di si-

nistra (e considerati come opposti) o di centro. Su una scala che va da sinistra a destra, come giudichi il tuo orientamento politico (1=sinistra – 10=destra)

12 Su una scala da 1 a 10, quanto sei d’accordo che gli extra- comunitari vadano espulsi dal paese?

(4)

Obiettivo della statistica descrittiva

L’obiettivo principale è quello di cercare (e trovare) un certo ordine/struttura nelle diverse informazioni rappresentate dai dati numerici

Quest’obiettivo si può raggiungere tramite valori numerici o forme di visualizzazione che rappresentano delle “sintesi” statistiche

distribuzioni di frequenza indici della tendenza centrale indici di variabilità

oppure tramite rappresentazioni grafiche

Vedrete queste cose praticamente durante le esercitazioni (soprattutto in SPSS)

(5)

Distribuzione di frequenza semplice

Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile.

Esempio

Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà:

M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File:

Esempio2-1.xlsx

F 13 ← ff f

M 17 ← fm

Tot 30 ← N

Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)

(6)

Distribuzione di frequenza semplice

Esempio

MF M F FM M M F FM MF F M MF FM M M M F FMF M FM M File:

Esempio2-1.xlsx

F 13f ← f_f

M 17 ← fm

Tot 30 ← N Contiamo le F; il loro numero è la frequenza delle femmine (ff)

Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)

(7)

Distribuzione di frequenza semplice

Esempio

MF M F FM M M F FM MF F M MF FM M M M F FMF M FM MFile:

Esempio2-1.xlsx

F 13 ← ff f

M 17 ← fm

Tot 30 ← N Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm)

La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)

(8)

Distribuzione di frequenza semplice

Esempio

M F M F F M M M F F M M F F M M F F M M M M F F M F M F M M File:

Esempio2-1.xlsx

F 13f ← f_f

M 17 ← fm

Tot 30 ← N

Contiamo le F; il loro numero è la frequenza delle femmine (ff) Contiamo le M; il loro numero è la frequenza dei maschi (fm) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N)

(9)

Distribuzione di frequenza semplice

La somma di tutte le frequenze, deve necessariamente equivalere a N (chiamata numerosità ovvero il numero di casi statistici).

In termini matematici, equivale a scrivere:

N

∑︁

i =1

fi =∑︁

fi = N

dove ∑︁ indica l’operazione di somma, f indica frequenza e i è un indice che indica i casi, per cui (in questo caso) può valere f o m oppure 1 o 2

la distribuzione di frequenza permette di riassumere velocemente molti dati

si applica sicuramente a scale Nominali, Ordinali ed è possibile anche a livello Intervallo/Rapporto (ma non sempre è utile)

(10)

Proporzioni e percentuali

Esprimono il rapporto fra una parte rispetto ad un tutto (o ad un valore di riferimento)

Proporzione f N

la somma dev’essere 1 e nessuna proporzione può superare 1 Esempio

proporzione di femmine 13

30 =0.43

Percentuale f

N ×100

la somma dev’essere 100 e nessuna percentuale può superare 100 Esempio

percentuale di maschi 17

30×100 = 56.67

(11)

Percentuali

Le proporzioni e le percentuali si possono calcolare a tutti i livelli (N, O, I/R), anche se è preferibile non usarli per variabili

intervallo/rapporto continue e con molti valori

Quando la N su cui si calcolano le percentuali è molto piccola, la percentuale perde di significato

In genere non si calcolano le percentuali se la N è inferiore a 20 (ma anche se è 22!)

Infatti 1 unità su 20 equivale al 5%, mentre 1 unità su 100 equivale all’1%

Se per un qualunque motivo, si è verificato un errore di misurazione e una unità è stata “categorizzata” male, se N è basso, le percentuali cambieranno parecchio dando una visione falsata della realtà

(12)

Percentuali

Le percentuali hanno poco senso se non si conosce la N su cui sono calcolate (es. un po’ vecchio)

Marca % sodio in Residuo fisso Sodio etichetta in mg/l in mg/l

Sales .00004 198.5 0.45

Flavia .00007 264.1 0.70

Sant’Anna <.0001 39.2 0.90

Panna 141.0 6,70

Vitasnella <.0002 380.0 3.00

Bagolino .0002 130.0 2.30

San Benedetto <.0007 250.0 6.80

Ferrarelle 1245.0 48.00

(13)

Percentuali

Le percentuali hanno poco senso se non si conosce la N su cui sono calcolate (es. un po’ vecchio)

Marca % sodio in Residuo fisso Sodio etichetta in mg/l in mg/l

Sales .00004 198.5 0.45

Flavia .00007 264.1 0.70

Sant’Anna <.0001 39.2 0.90

Panna 141.0 6,70

Vitasnella <.0002 380.0 3.00

Bagolino .0002 130.0 2.30

San Benedetto <.0007 250.0 6.80

Ferrarelle 1245.0 48.00

(14)

Tabella delle frequenze

Una tabelle delle frequenze indica quanti valori abbiamo per ogni categoria della variabile.

Sesso freq prop %

Maschi 17 .57 56.67

Femmine 13 .43 43.33

Totale 30 1.00 100

Di solito si indicano frequenze e percentuali oppure frequenze e proporzioni

A livello ordinale, si possono calcolare anche le percentuali cumulate

(15)

Distribuzione di frequenza cumulata

È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti

la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze)

si applica a scale Ordinali e Intervallo/Rapporto f fc

Nessuna 4 4 4

1 scelta 2 6 4+2

2-4 scelte 52 58 6+52 4+2+52 5 o più scelte 18 76 58+18 4+2+52+18

Totale 76

(16)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(17)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(18)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(19)

Distribuzione di frequenza cumulata

Nessuna 4 4 4

1 scelta 2 6 4+2

Totale 76

(20)

Frequenze cumulate

Il 53.4% dei soggetti ha dato come risposta valori inferiori o uguali a 5

(21)

Frequenze cumulate

Su variabili intervallo/rapporto non hanno molto senso le tabelle di frequenza (perché ci sono molti valori)

Però possono essere utili le percentuali cumulate

(22)

Intervalli di classe

Quando a qualcuno chiedete “Quanti anni hai?” potete ricevere diverse risposte: 19; quasi 23; ho appena compiuto i 20...

In tutti i casi l’età detta è in qualche modo “approssimata” ad un intero, perché chiunque avrà un certo numero di anni, qualche mese, un po’ di giorni, qualche ora, alcuni minuti, alcuni secondi...

L’età, come numero intero di anni trascorsi dalla nascita, può essere pensato come un intervallo di classe con intervallo di ampiezza 1 Il valore centrale di un intervallo diventa il punto verso cui gravitano i veri valori dell’età.

19 anni e 8 mesi è più vicino ai 20, mentre 19 anni e 3 mesi è più vicino ai 19.

(23)

Intervalli di classe o di frequenza

Una qualsiasi variabile (discreta o continua, purché quantitativa), se ha molte categorie di valori, può essere raggruppata in intervalli di classe La classificazione in intervalli può essere utilizzata sia per costruire la distribuzione di frequenza e fare rappresentazioni grafiche sia per il calcolo delle principali statistiche (in questo caso si perdono informazioni ed è altamente sconsigliato)

Se faccio gli intervalli di classe di uguale ampiezza, qualunque variabile intervallo/a rapporto (anche se discreta) viene considerata “come se fosse” continua

Se faccio intervalli di classe di diversa ampiezza, abbasso la scala a livello ordinale (es, l’età in fasce: adolescenti, giovani, giovani adulti, adulti...)

(24)

Tipi di rappresentazioni grafiche

Con le attuali conoscenze, le rappresentazioni grafiche disponibili sono:

Grafico a barre (verticali/orizzontali) Grafico a torta

Istogramma a barre (verticali/orizzontali) Poligoni di frequenza (semplice e cumulata) Diagrammi ramo-foglia

Alcuni di questi grafici si possono ottenere sia in Excel sia in R sia in SPSS

Alcuni non si possono ottenere se non in R

(25)

Grafici/Istogrammi a barre

Grafici e istogrammi a barre sono molti simili

I grafici a barre sono indicati per variabili nominali e ordinali: le barre sono separate l’una dall’altra

Gli istogrammi a barre sono indicati per variabili intervallo/rapporto:

le barre sono contigue fra loro

Ogni frequenza è rappresentata da una barra

La lunghezza di ogni barra è proporzionale alla frequenza: barre più lunghe indicano frequenze più elevate

Negli istogrammi anche l’area di una barra è proporzionale alla frequenza

(26)

Grafico a barre verticali (Nominale/Ordinale)

la variabile è

misurata su una scala a 10 punti che vanno da 1=sinistra a 10=destra

è quindi una variabile ordinale (*)

(*) ma viene spesso considerata a intervalli

(27)

Grafico a barre orizzontali (Nominale/Ordinale)

(28)

Grafico a torta (N/O)

Giovanni Giacomo

Susanna Distribuzione vendite

Giovanni Giacomo Susanna

Distribuzione vendite

0102030405060

Le informazioni fornite sono analoghe; le torte fanno più scena, ma diventano complicate da interpretare se ci sono molte categorie con frequenze molto vicine fra loro

(29)

Istogramma (I/R)

Istogramma

Frequenze

0 5000 10000 15000 20000 25000 30000

01020304050

Le variabili quantitative (in particolare quelle continue) vengono rappresentate tramite intervalli di classe.

Qui la variabile Reddito (da 0 a 25.000) è rappresentata con ampiezza di 5000 (SPSS sceglie l’ampiezza automaticamente)

(30)

Istogramma con classi più piccole (I/R)

Istogramma con classi più piccole

Frequenze

0 5000 10000 15000 20000 25000

0510152025

Qui la variabile Reddito (da 0 a 25.000) è rappresentata con ampiezza di 2000 (in SPSS non si può scegliere)

Se la variabile non è molto simmetrica, l’ampiezza degli intervalli può cambiare moltissimo la distribuzione raffigurata

(31)

Forme di distribuzione

una distribuzione è simmetricase è speculare rispetto alla metà (prima riga)

asimmetrica se non lo è (negativa=sinistra; positiva=destra)

(32)

Forme di distribuzione

la forma grafica della distribuzione permette di identificare alcune sue caratteristiche

i picchi rappresentano i valori più frequenti

si classificano in unimodali (curve A, B, E, F), bimodali (curva C) e multimodali

si identificano facilmente le distribuzioni simmetriche o vicino alle simmetriche

Una particolare curva simmetrica con forma a campana è chiamata

“normale” o “gaussiana” (curva A) Gaussiana perché studiata da Gauss

Normale perché moltissime misurazioni di eventi fisici e/o naturali si distribuiscono con questa forma, che diventa un punto di riferimento in tutta la statistica

(33)

Istogramma con curva normale (I/R)

Istogramma con classi più piccole

Frequenze

0 5000 10000 15000 20000 25000

0.000000.000040.000080.00012

In SPSS è possibile stampare un’istogramma con sovrapposta la curva normale

(34)

Riepilogo della teoria

Variabili, Valori Scale di misura

Nominale Ordinale

Intervalli equivalenti A rapporto

Tabella delle frequenze Tabella delle percentuali Frequenze e percentuali cumulate

Grafici a barre Istogrammi

(35)

Cos’è un foglio elettronico

Un foglio elettronico è una tabella in cui si possono fare calcoli in tempo reale: cambiando un valore in una cella, cambia il contenuto di eventuali celle collegate (ad es. una somma)

Le righe sono generalmente identificate da numeri progressivi, mentre le colonne da lettere alfabetiche progressive. Le celle vengono quindi identificate tramite gli identificatori di colonna e di riga (A1, BC75) In una cella di un foglio elettronico, oltre a inserire del testo o un numero, si possono inserire “istruzioni” che indicano come usare il contenuto di altre celle per fare calcoli o altre “manipolazioni” (ad es.

=A1+B1; =SOMMA(A1:A5))

Excel, OpenCalc, LibreCalc sono alcuni fogli elettronici che fanno parte di suite come “Microsoft Office”, “OpenOffice”, “LibreOffice”

OpenOffice e LibreOffice sono software “open” (quindi gratuiti).

(36)

Cos’è R

R è un software statistico “open source”, molto potente e sofisticato, interamente programmabile

È come avere a disposizione una mega calcolatrice che permette di svolgere sia calcoli semplici e banali (2+3) sia analisi molto complesse Si può scaricare dal sito “The Comprehensive R Archive Network”

(abbreviato in CRAN,http://cran.r-project.org/o da un suo

“mirror”, uno è a Milano)

Oltre alle guide disponibili in CRAN, potete utilizzare la mia dispensa

“L’uso di R in psicologia” (versione provvisoria)

(37)

Alternative a R: Jasp

Jasp è un’interfaccia per R che mostra i risultati nello stesso formato di SPSS

Non è completo (è alla versione 0.11.1.0) ma è completamente gratuito (e si preoccupa di installare anche R)

Si può scaricare dal sito“JASP | A Fresh Way to Do Statistics”

È disponibile per Windows, Mac e Linux

Ci sono degli help (in inglese) all’interno del software stesso e dei video (in inglese) su Youtube

Alcuni manuali (in inglese e qualche traduzione) si trovano alla pagina dei manuali (non sono aggiornati all’ultimissima versione, ma non è fondamentale): Goss-Sampson, M. A. (2019). Statistical Analysis in JASP 0.10: A Guide for Students

(38)

Alternative a R: Jamovi

Jamoviè un’interfaccia per R che mostra i risultati nello stesso formato di SPSS

Non è completo (è alla versione 1.1.9) ma è completamente gratuito (e si preoccupa di installare anche R)

Si può scaricare dal sito“Jamovi. Stats. Open. Now.”

Esiste una guidauser guide in inglese

e dei contributi scritti dagli utenti sotto (resources by the community), degli help all’interno del software stesso e dei video su Youtube (tutto materiale in inglese)

(39)

Cos’è SPSS

SPSS significa Statistical Package for Social Sciences (Pacchetto statistico per le scienze sociali) ed è un programma a pagamento per gestire dati e calcolare statistiche. Adesso si chiama IBM SPSS

Permette di inserire, nominare e gestire le misurazioni statistiche Permette di manipolare le variabili (in modo analogo ai fogli elettronici Permette di calcolare le statistiche descrittive, di fare grafici

Permette di fare l’analisi dei dati

Esiste un clone “open source” chiamato PSPP(attualmente alla vers.

1.2.0), gratuito ma non ancora completo

(40)

Primo avvio 1

Per eseguire SPSS (Win 10) Start poi scorrere fino alla I e scegliere

IBM SPSS Statistics quindi IBM SPSS Statistics 25

Alla prima esecuzione compare una finestra di dialogo che permette di effettuare alcune scelte.

Selezionare “Nuovo dataset” per aprire una finestra senza dati

Per disattivare l’apertura automatica, click-ate qui

(41)

Primo avvio 2

Potete selezionare “Introduzione con esercitazioni”

Oppure ^Chiudi

(42)

Finestra di base

La finestra principale è formata da due pannelli uno per la visualizzazione dei dati (Vista dati)

uno per la descrizione delle variabili (Vista variabili)

(43)

Finestra di base

Le principali voci di menù sono:

Dati: permette di agire sul file dei dati (ordinare, selezionare, filtrare...) Trasforma: permette di manipolare le variabili (calcolare nuove

variabili, ricodificare, contare valori...)

Analizza: È il menù più utilizzato perché contiene tutte le procedure statistiche disponibili

La prima volta che usate SPSS vi conviene fare l’esercitazione disponibile nell’Help.

Per indicare un percorso di menù, userò questa convenzione voce principale | sottomenù | sotto-sottomenù:

ad es. Analizza | Statistiche descrittive | Frequenze

(44)

Distribuzione e grafici in SPSS

La maggior parte delle statistiche che abbiamo visto e che vedremo e i relativi grafici, si ottengono in SPSS tramite due comandi

Analizza | Statistiche descrittive | Frequenze...

Analizza | Statistiche descrittive | Esplora...

In Spss si può fare solo quello che è previsto dal software; i grafici non sono bellissimi

In Excel si possono fare molti più grafici (anche più “belli”) In R (usato in questi lucidi) si può fare praticamente tutto, ma è molto più complicato

(45)

Spss: frequenze

Calcoliamo le frequenze con il comando Analizza

| Statistiche descrittive | Frequenze...

Poi spostiamo una variabile

nominale/ordinale fra le Variabili

E premiamo OK File: esempio1.sav

(46)

Spss: frequenze

(47)

Spss: istogramma (Frequenze)

Pulsante ^Grafici...

Selezioniamo Istogramma eventualmente anche Con curva normale

Pulsante ^Continua e ^OK

(48)

Spss: istogramma (Esplora)

Selezioniamo Istogramma (non è possibile avere la curva normale)

(49)

Spss: istogramma (Frequenze/Esplora)

Spss usa

automaticamente gli intervalli di classe non è possibile modificare

l’ampiezza di classe La curva normale non c’è con Esplora

(50)

Spss: torta

Selezioniamo Grafici a torta

(51)

Riepilogo SPSS

Per le tabelle delle frequenze, percentuali e percentuali cumulate Per i Grafici a barre

Per gli Istogrammi (anche con curva normale)

Per gli Istogrammi (ma senza curva normale)