Elementi di Psicometria (con laboratorio software 1)
03-Alcuni concetti fondamentali della statistica inferenziale (v. 1.4a, 17 marzo 2021)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2020-21
Sommario
1 Punti z
2 Curva normale
3 Campione e popolazione
4 Probabilità
5 Distribuzioni di probabilità
Interpretazione dei punteggi grezzi
Per le variabili quantitative usiamo delle unità di misura (anni, numero di errori...)
I punteggi grezzi (ciò che abbiamo misurato) sono semplici da interpretare se conosciamo la scala su cui sono misurati (i metri, i gradi centigradi e simili) Non sono facili da interpretare se usano scale non conosciute (ad es.
intervallo 6-36 oppure 30-180)
Variabili diverse possono usare unità diverse (età, soddisfazione...) con metriche diverse (età -> 0-n; soddisfazione -> 0-10, ...) che possono cambiare da una cultura all’altra (kg o libbre, km o miglia, ...)
Interpretazione dei punteggi grezzi
Non sono molto utili neppure per confrontare fra loro variabili diverse:
un 25 in un test di abilità matematica (AM) è migliore o peggiore di un 55 in un test di abilità verbale (AV)?
Dipende dalle relative scale:
se AM ha un intervallo 1-30 e AV un range 10-60
entrambi i punteggi sono abbastanza vicini al valore massimo Ma uno è “migliore” (maggiore) dell’altro?
In termini assoluti, sì: 55 è maggiore di 25 Ma in termini relativi?
Confrontare variabili
Quando misuriamo una lunghezza, usiamo il metro come un’unità di misura e ci chiediamo quante volte il metro sta in una certa distanza.
L’unità di misura ci permette di esprimere lunghezze diverse tramite qualcosa di comparabile e confrontabile
Non posso confrontare fra loro 2 diverse variabili, a meno di non sapere in anticipo che hanno uguale unità di misura
Esempio
Un soggetto ha ottenuto il punteggio 25 su una scala di abilità matematica e il punteggio 55 su una di vocabolario. Qual è migliore?
Non avendo altre informazioni, non possiamo dirlo!
Confrontare variabili
Confrontare variabili diverse fra loro non è possibile se non usando la stessa scala di misura e lo stesso "metro"
È come decidere se 3 banane sono di più di 3 arance Sono cose diverse e non possiamo confrontarle
A meno di non trasformarle in una stessa unità di misura
“3 banane pesano di più di 3 arance?”
“In 3 banane ci sono più vitamine che in 3 arance?”
“3 banane occupano più spazio di 3 arance?”
“ci sono più frutti di tipo ’banane’ o di tipo ’arance’?”
Ma in statistica vorremmo avere un’unica unità di misura che valga per misurare qualsiasi variabile quantitativa
Quale potrebbe essere questa unità di misura?
Distanze dalla media
Ipotizziamo una variabile qualunque:
0 1 2 3 4 5 6 7 8 9 10
L’unità di misura parte da 0 e va fino a 10. (Assumiamo che M=5). Se sottraiamo 5 a tutti i punteggi otteniamo uno spostamento:
-5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5
L’unità di misura parte da -5 e va fino a +5 (la nuova media è 0).
Non cambia nulla, abbiamo trasformato lo zero assoluto in uno zero relativo. La nuova unità di misura è lo scarto dalla media (Xi− M); in termini più precisi è
“quante unità di misura di questa variabile, ogni punteggio dista dalla media della variabile”.
Trasformazioni lineari
Abbiamo visto che se aggiungo o sottraggo una costante ad una distribuzione, la media subisce la stessa trasformazione
(solo denominatore) M =∑︁Xi ⇒ ∑︁(Xi+ k) =∑︁Xi +∑︁k per cui se io tolgo ad AM e AV la loro media, trasformo le due variabili in modo che abbiano entrambe M=0
∑︀(Xi − M)
N =
∑︀(Xi)
N −
∑︀M
N = M − M = 0 Ho semplicemente spostato le misure in modo che la media di entrambe fosse 0.
Trasformazioni lineari
Adesso hanno la stessa media (zero) ma hanno ancora varianza diversa Come possiamo rendere i campi di variazione uguali?
Una prima possibilità è di dividere tutto per un determinato valore (ad es. le rispettive gamme) e poi moltiplicare tutto per uno stesso valore (ad es. 100) Un’altra possibilità è quella di usare la deviazione standard come unità di misura
In pratica, ci chiediamo“Quantedeviazioni standardci sono fra un determinato valore X (di una variabile) e la media (di quella variabile)?”
Punti z
Quante deviazioni standardci sono fra un determinato valore X (di una variabile) e la media (di quella variabile)?
La risposta implica utilizzare la deviazione standard (DS) come nuova unità di misura
Gli scarti dalla media (X − M) vengono divisi per la dev. st.:
zi = Xi− M DS
Il punteggio trasformato in “numero di scarti dalla media” si chiama punto z (o punteggio z o punteggio standardizzato), in alcuni libri punto u
Punti z
Il punto z è una misura standard (come il metro)
La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DSz= 1), perché la
deviazione standard è l’unità di misura
Valori negativi indicano punteggi inferiori alla media Valori positivi, punteggi sopra la media
Punti z
Il punto z è una misura standard (come il metro)
La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media
La somma dei punti z è 0 (∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DSz= 1), perché la
deviazione standard è l’unità di misura
Valori negativi indicano punteggi inferiori alla media Valori positivi, punteggi sopra la media
Punti z
Il punto z è una misura standard (come il metro)
La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0
La deviazione standard dei punti z è 1 (DSz= 1), perché la deviazione standard è l’unità di misura
Valori negativi indicano punteggi inferiori alla media Valori positivi, punteggi sopra la media
Punti z
Il punto z è una misura standard (come il metro)
La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DSz = 1), perché la
deviazione standard è l’unità di misura
Valori negativi indicano punteggi inferiori alla media Valori positivi, punteggi sopra la media
Punti z
Il punto z è una misura standard (come il metro)
La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DSz = 1), perché la
deviazione standard è l’unità di misura
Valori negativi indicano punteggi inferiori alla media
Valori positivi, punteggi sopra la media
Punti z
Il punto z è una misura standard (come il metro)
La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DSz = 1), perché la
deviazione standard è l’unità di misura
Valori negativi indicano punteggi inferiori alla media Valori positivi, punteggi sopra la media
Punti z
La trasformazione in punti z, si dice anche “standardizzazione”
La distribuzione dei punti z si dice “distribuzione standardizzata”
perché è una delle tante possibili curve di frequenza, ma con M e DS conosciute a priori
I punti z permettono di confrontare fra loro punteggi provenienti da diverse distribuzioni di frequenza
Esempio
x=70, M=82, DS=12 (z=-1) x=23, M=35, DS= 6 (z=-2)
23 è 2 DS al di sotto della sua media, mentre 70 è solo 1 DS sotto la sua media; se fossero punteggi di profitto, confrontandoli, dovremmo dire 23 è un valore “peggiore” rispetto a 70 non perché è più piccolo ma perché il suo punto z è inferiore
Esempi d’uso dei punti z
Conoscendo media, varianza e il punto z, si può calcolare il valore di X (cioè il punto grezzo):
X = M + zx · DS
Esempio
Se un test di profitto ha M=82 è DS=12, a quale punteggio corrisponde il punto z=1.2?
X = 82 + 1.2 · 12 = 96.4
Scale derivate dai punti z
Ci sono scale standardizzate utilizzate comunemente in psicologia (specie per i test) che derivano dai punti z
punteggi T: hanno M=50 e DS=10. Si ottengono con T = 10z + 50 punteggi SAT: hanno M=500 e DS=100. Si ottengono con
SAT = 100z + 500
QI o IQ: la maggior parte dei test d’intelligenza (come il WAIS) utilizza M=100 e DS=15. Si ottengono con QI = 15z + 100 QI o IQ: il test d’intelligenza Stanford-Binet utilizza M=100 e DS=16. Si ottengono con QI = 16z + 100
Spss: punti z
Spss permette di calcolare i punti z di una variabile per ogni unità statistica, tramite Analizza | Statistiche descrittive | Descrittive... e attivando il flag Salva valori
standardizzati come variabili
Spss: punti z
In fondo ai dati, viene aggiunta una variabile con il nome corrispondente preceduto da “Z”
Questa variabile può essere usata come qualsiasi altra
Distribuzione normale e standardizzata
La formula della curva normale è:
f (x ) = 1 𝜎√
2𝜋e−
(x −𝜇)2 2𝜎2
dove −∞ < x < ∞
i parametri della curva sono la media, ladev.st. e lavarianza Quindi la curva cambierà di forma in base alla media e alla deviazione standard la versione standardizzata ha media=0 e DS=1
−4 −2 0 2 4
0.00.20.40.60.81.0
x
dnorm(x)
Curva normale (sd=.5; 1; 2)
Distribuzione normale e standardizzata
Se cambia M (ma non DS), non cambia la forma
0 5 10 15 20
0.00.10.20.30.40.5
Valore di X
Probabilità
Curve normali con medie diverse (5, 10, 15) e s=1
Se cambia la DS, cambia la forma:
all’aumentare di DS, la curva si appiattisce e si allarga
−4 −2 0 2 4
0.00.20.40.60.81.0
x
dnorm(x)
Curva normale (sd=.5; 1; 2)
Relazione fra Normale standardizzata e Punti z
La Curva normale standardizzata animatamostra la relazione fra l’area sottesa alla curva e i punti zeta, in base al punto di riferimento (ovale arancione con freccia).
0 to Z mostra la % di area fra z=0 e
z=riferimento
Up to Z mostra la % di area fra la coda negativa e il riferimento
Z onwards mostra la
% di area fra la coda positiva e il riferimento
Tavole della distr. normale
La curva normale è simmetrica Quindi ogni metà è il 50%
Allontanandoci da z=0 abbiamo aree identiche per z identici su entrambi i lati della media
z=-0.10 corrisponde a un’area del 3.98%sotto la media
z=0.10 a un’area del 3.98%sopra la media
Esistono delle tabelle che riportano il valore dell’area corrispondente a vari valori di z
Tavole della distr. normale
Welkowitz, Cohen, Ewen Tavola A (p. 473 ss.)
La tavola riporta la proporzione di area sottesa alla curva normale calcolata a partire dalla media 0 (ricordarsi che l’intera area è simmetrica)
Per ogni punto z viene indicata l’area fra z=0 e il punto z stesso (area in grigio) La proporzione di area è indicata come percentuale (34,13) con due decimali Si può trasformare facilmente in proporzione (.3413) con 4 decimali
https://www.germanorossi.it/mi/file/elem/Tavole_Welkowitz.pdf
Tavole della distr. normale (Welkowitz)
Una copia inTavoleWelkowitz.pdf
La prima colonna indica il primo decimale del punto z, ogni colonna successiva indica il secondo decimale
All’incrocio fra una riga (ad es. 0,3) e una colonna (0,05) troviamo l’area corrispondente
Es. l’area fra z=0,35 e 0 è pari a 13,68
Tavole della distr. normale (Aron)
Aron, Coups, Aron - Tavola A.1 (p. 587 ss.)
La prima colonna indica il punto z (con 2 decimali) La seconda colonna riporta l’area fra il punto z e la media (espressa come %)
Es. l’area fra z=0,05 e 0 è pari a 1,99
La terza colonna riporta l’area fra il punto z e la coda positiva (espressa come %)
Es. l’area fra z=0,05 e la coda positiva è pari a 50-1,99=48.01
Tavole della distr. normale (Field)
Un’altro possibile modo di presentare la tabella
La prima colonna indica il punto z (con 2 decimali)
La seconda colonna riporta l’area fra il punto z e la coda negativa (area bianca del grafico)
Es. l’area fra z=0,05 e la coda negativa è pari a 50+1,99=51.99 La terza colonna riporta l’area fra il punto z e la coda positiva (area azzurra): per z=0,05 è pari a 50-1,99=48.01
La quarta colonna riporta il valore dell’ordinata corrispondente al punto z
Tavole della distr. normale: Punti z particolari
Punti z particolari Fra -1 e +1 DS corrisponde un 68.26%
di area
fra -2 e +2 DS
corrisponde un 95.44%
di area
z≤1.64 corrisponde al 95% / 5%
z≤1.96 corrisponde al 97.5% / 2.5%
Tavole della distr. normale: Punti z particolari
Punti z particolari
l’area fra -1.96 e + 1.96 è del 95% attorno alla media
l’area fra -2.57 e + 2.57 è del 99% attorno alla media
Esempi d’uso dei punti z (1)
Qual è la % di soggetti con un punteggio inferiore a 120 (M=100, s=20)?
calcolo il punto z [(120-100)/20=1]
consulto una tavola della normale e cerco il punto z=1.00, quindi leggo l’area corrispondente [34,13 o .3414]
poiché questa è l’area fra z=0 e z=1 e mi interessa anche la metà inferiore, sommo 50 [50,00 + 34.13
= 84.13%]
Esempi d’uso dei punti z (2)
Qual è la % di soggetti con un punteggio inferiore a 80 (M=100, s=20)?
calcolo il punto z [(80-100)/20=-1]
il punto z è negativo perché sotto la media
consulto le tavole della normale e cerco il punto z=1.0
in base alle tavole che utilizzo, posso leggere l’area fra la z=0 e z=1 corrispondente [34,13] oppure l’area fra z=1 e la coda [15.87]
nel primo caso faccio il complemento a 50,00 [50,00 - 34,13 = 15.87%]
Esempi d’uso dei punti z (3)
Qual è la % di soggetti con punteggio compreso fra 80 e 120?
calcolo i punti z [-1 e +1]
consulto le tavole della normale e cerco il punto z=1.00, e leggo l’area corrispondente [34,13]
poiché questa è l’area fra la z=0 e z=1 (ma sonoenteressato ad entrambi i lati della curva, conto l’area 2 volte [34,13 + 34,13 = 68.26%]
Esempi d’uso dei punti z (4)
A quale punto z corrisponde l’area con il 10% di punteggi superiori?
Usando le tavole che indicano l’area fra z=0 e z=x, devo trovare il resto di 10,00% [50,00-10,00=40,00] e cerco dentro le tavole una
proporzione che si avvicini a 40,00 Usando le tavole che indicano l’area fra z=x e la coda, cerco il valore più vicino a 10%
in entrambi i casi corrisponde a z=1.28
i punteggi il cui z è >= di 1.28, rientrano nel 10% superiore
Esempi d’uso dei punti z (5)
Per una prima selezione dei candidati all’assunzione in una azienda, si decidere di scartare il 70% dei punteggi inferiori ottenuti tramite uno strumento di valutazione (che si distribuisce normalmente) con M=80 e DS=10. Qual è il punteggio minimo per essere ammessi alla seconda selezione?
Un’area del 70% va cercata all’interno delle tavole della normale (che però considerano solo metà dell’area), quindi ci interessa il 20%
Se le tavole indicano l’area fra z=0 e z=x, cerco dentro le tavole una proporzione che si avvicini a 20,00. [corrisponde a z=.52 o (0.53)]
Se le tavole indicano l’area fra z=x e la coda, cerco il valore più vicino a 50-20=30% dentro le tavole [corrisponde a z=.52 o (0.53)]
usando la formula inversa dei punti z, troviamo che il punteggio minimo è x = 80 + .52 × 10 = 85.2
Esempi d’uso dei punti z (6)
Per l’assunzione in una grande grupo bancario e per una specifica
mansione, si decidere di selezionare i candidati il cui punteggio è compreso nel 22% attorno alla media, ottenuti tramite uno strumento di valutazione (che si distribuisce normalmente) che ha M=120 e DS=25. Qual è il punteggio minimo e massimo per considerare gli ammessi?
L’area va cercata nella tavola della normale (simmetrica) e mi interessa un’area pari a 22/2=11%
se le tavole indicano l’area fra z=0 e z=x, cerco una proporzione che si avvicini a 11,00... [corrisponde a z=.28]
usando la formula inversa dei punti z, troviamo che il punteggio minimo è x = 120 − .28 × 25 = 113 e quella massima è
x = 120 + .28 × 25 = 127
Campione e popolazione (1)
Chi si occupa di comportamento necessita di studiare il comportamento delle persone e di trarre delle conclusioni
Gli psicologi, di solito, possono misurare solo una piccola parte di queste persone
Per questo motivo, la maggior parte della ricerca in psicologia si basa su un piccolo campione di dati da cui derivano affermazioni generali La statistica descrittiva si applica a dati di qualsiasi ampiezza (in termini di casi statistici)
Per cui le statistiche descrittive valgono sia per un campione sia per una popolazione
Le statistiche descrittive calcolate (o stimate) su una popolazioni, si chiamano parametri
Campione e popolazione (2)
Uncampione (ricordiamo) è una piccola parte della popolazione Ricordiamo anche che unapopolazione è l’insieme di tutti i casi statistici possibili che presentano le caratteristiche che intendiamo studiare
In altre parole: il campione è costituito da tutte le misurazioni che ho fatto in “questa” raccolta di dati
La popolazione è costituita da tutte le misurazioni che avrei potuto fare in questa raccolta dati
Il campione è semprefinito
La popolazione può essere finitao infinita
Campione e popolazione (3)
Il termine “finito” indica che esiste un numero che rappresenta il massimo dei casi statistici considerabili (Ad es. tutti gli studenti immatricolati a Psicologia nell’a.a. 2014/15)
Il termine “infinito” che non esiste un numero massimo di casi statistici (Ad es. tutti i tempi di reazione a un certo stimolo) Il campionamentoè l‘estrazione di un campione dalla popolazione (secondo determinati criteri) per poterla studiare più agevolmente Se conosciamo le caratteristiche della popolazione (parametri), sarà facile estrarre un campione che ben la rappresenti
oppure riconoscere se il campione in esame rappresenta bene la popolazione oppure no
Campione e popolazione (4)
Molto spesso nelle scienze sociali non si conoscono le caratteristiche della popolazione
Se non le conosciamo dovremo cercare di estrarre un campione che sia una buona stima della popolazione
Dal momento che non sempre conosciamo i parametri della
popolazione, le statistiche descrittive dei campioni sono usate come stima dei corrispondenti parametri
Non abbiamo la certezza che queste stime siano “vere” ma sono le stime “migliori” dal momento che non conosciamo nulla!
Rappresentatività (1)
Generalizziamo il concetto di “buona stima” dicendo che il campione dev’essererappresentativo
Il campione selezionato “dovrebbe” rappresentare “in piccolo” la popolazione che si vuol studiare. . . quindi il campione dovrebbe avere le stesse caratteristiche della popolazione (e nella stessa proporzione)
Gruppo concreto che studio
Omeo- morfi- smo
Gruppo teorico che voglio studiare
Rappresentatività (2)
Sulla base del campione rappresentativo, estendiamo i dati ottenuti all’intera popolazione, tramite l’inferenza statistica
Campione Popolazione
inferenza
Una volta selezionate le variabili che ci interessa studiare (che saranno chiamate variabili dipendenti), si individuano anche delle variabili che si ritengono importanti o che possono essere/produrre influenza su (che verranno chiamate variabili indipendenti). Il campione deve distribuirsi (in queste variabili) proporzionalmente alla popolazione
Rappresentatività (3)
Un modo generalmente usato per avere la rappresentatività è quella della selezione casualedei casi statistici dalla popolazione
Questi campioni sono chiamati casuali ma...
In italiano, “casuale” ha più un significato di arbitrario, informale, quello che capita...
Ma ha anche un significato diverso
Quando metto la mano nel sacchetto con i numeri della tombola, non guardo dentro al sacchetto per poter estrarre un numero casuale...
Casuale (in statistica) significa appunto che non uso strategie per selezionare un caso statistico a scapito di un altro...
Casuale o randomizzato
Il vostro libro usa sia casuale sia randomizzato.
È lo stesso concetto
In inglese, “random” enfatizza il fatto che tutti gli eventi possibili debbano avere la stessa possibilità di essere selezionati
Un campione casuale (o randomizzato) è quindi uno dei possibili campioni estraibili da quella popolazione
Inoltre, tutti i casi selezionati per quel campione devono avere la stessa probabilità di essere selezionati
Estrazione casuale (1)
Esistono numerosi modi per selezionare un campione casuale
In molti casi si tratta di identificare ogni caso in qualche modo (ad es.
con un numero) Poi è possibile (ad es.)
mettere tutti gli identificatori in un “contenitore”, da cui si selezionano
“alla cieca” fino a raggiungere il numero di casi stabilito per il campione usare un numero casuale (computer, calcolatrice, tavole dei numeri casuali) per selezionare i singoli casi
si ordinano gli identificatori e si selezionano quelli che sono in una certa posizione (ad es. 1 ogni 20)
È necessario avere a disposizione un elenco della popolazione (problematico con le leggi sulla privacy se i casi statistici sono individui)
Estrazione casuale (2)
In teoria, dopo aver selezionato un caso, dovremmo ri-immetterlo nel mucchio; altrimenti gli altri non avranno la stessa probabilità dei precedenti
1 n, 1
n − 1, 1 n − 2, ...
non si fa, perché
se stiamo scegliendo un campione, non possiamo usare due volte la stessa unità statistica
(con popolazioni grandi o infinite) la diversa probabilità è piccolissima 1 su 1.000.000 = 0.0000010000 (1 milione)
1 su 999.900 = 0.0000010001 (1 milione-100)
Statistiche e parametri
Le statistiche finora studiate [media, dev. st.,. . . ], sono calcolate sui campioni e vengono normalmente chiamate “statistiche”
Le statistiche calcolate sul campione si possono usare come “stime”
delle stesse informazioni della popolazione. Le informazioni [media, dev. st.,] della popolazione sono chiamate “parametri”
In genere, per i parametri si usano lettere greche, mentre per le statistiche si usano lettere normali
Statistica Parametro
Media M, X 𝜇 (mu, mi)
Varianza DS2, s2 𝜎2 (sigma quadro) dev. st. DS, s, SD 𝜎 (sigma)
correlazione r 𝜌 (rho)
Probabilità di un evento
Nel linguaggio comune, usiamo parole come “sicuro, certo, probabile, possibile, impossibile...” per parlare dell’accadere di un fatto (evento):
0 1
impossibile certo, sicuro
possibile, probabile
Un evento “sicuro, certo” accadrà sicuramente (e sarà un evento con probabilità uguale a 1, p(x ) = 1)
un evento impossibile non accadrà mai (non ci saranno eventi, e la sua probabilità si indica con zero, p(x ) = 0)
Dal momento che la probabilità di un evento è compresa fra 0 e 1, di solito si ometto lo 0 davanti al punto decimale (.50 anziché 0.50) usando, in genere, almeno 2 decimali (meglio 3)
Teorie della probabilità N
Usiamo il termineprobabilità per indicare “quanta possibilità vi sia che un evento accada” fra diversi altri possibili (più di 0 e meno di 1,
0 < p(x ) < 1)
Esistono, sostanzialmente, 3 approcci teorici:
classica: gli eventi possibili sono equiprobabili oppure la loro
probabilità è teoricamente calcolabile o conoscibile (è stata sviluppata soprattutto per i giochi d’azzardo)
frequentista: la probabilità dipende dalla frequenza con cui un certo evento è accaduto nel passato
soggettiva: il rischio che siamo disposti a correre, la probabilità che associamo (senza fare calcoli espliciti) all’accadere di un evento
Probabilità classica
Esistono diversi eventi possibili, ma uno solo può accadere; alcuni eventi possono essere utili ai nostri scopi, tutti gli altri no
La probabilità si calcola dividendo gli eventi che ci servono rispetto a tutti gli eventi egualmente possibili
p(x ) = casi favorevoli casi possibili = f
n
Esempio
Ottenere un numero superiore o uguale a 5 tirando un dado:
se il dado non è truccato, la probabilità di ogni numero è identica due sono gli eventi utili (5 e 6), 6 gli eventi possibili
p(5, 6) = 2/6 = 1/3 = .33
Probabilità frequentista N
Si usa quando gli eventi possibili non hanno la stessa probabilità (ad es. colore dei capelli o degli occhi)
La loro probabilità dipende dalle esperienze passate (frequenza empirica)
Si chiama “frequentista” perché usiamo la frequenza (o meglio la proporzione) di una categoria come stima della probabilità del verificarsi di quella categoria
È ampiamente usata dalle assicurazioni Esempio
Se su 100 compiti di un esame, 15 sono insufficienti; in base alla
probabilità frequentista, la probabilità di superare quell’esame sarebbe di 85/100=.85 oppure la probabilità di NON superare quell’esame sarebbe di 15/100=.15
Probabilità soggettiva N
È la stima che ciascuno di noi fa, sull’accadere di un evento su cui non abbiamo informazioni sicure
Normalmente si usa nelle scommesse: “quanto scommetti che...”
oppure nei giudizi: “mi consigli di fare...”, “devo fare così... o così...”
Esempio
Decidere di affrontare un’esame universitario, dipende dalla probabilità soggettiva di superarlo.
Accelerare o rallentare quando un semaforo diventa giallo, dipende dalla stima soggettiva (probabilità) di riuscire a passare prima che diventi rosso.
Regole della probabilità
Una volta trovata la probabilità di un evento (classica, frequentista o soggettiva) le regole che si applicano sono le stesse
La somma delle probabilità di tutti gli eventi alternativi (e possibili) è (dev’essere) pari a 1 (uno solo è l’evento che può accadere)
La probabilità di ciascuno degli eventi possibili è la distribuzione di probabilità di quel tipo di evento
Le regole sono:
addizionale o della somma (OR, o) moltiplicativa o del prodotto (AND, e)
Regola della somma (OR, o) 1
La probabilità che accada un evento A oppure un evento B è pari a:
somma delle singole probabilità meno la probabilità dell’intersezione:
p(A) + p(B) − p(A ∩ B)
se A e B sono mutualmente escludentisi fra di loro cioè se p(A ∩ B) = 0 (l’intersezione dei due eventi è nulla), allora:
p(A) + p(B)
Esempio
Probabilità di ottenere un numero pari con un lancio del dado:
lanciando un solo dato, p(2 ∩ 4 ∩ 6) = 0
p(2) + p(4) + p(6) − 0 = 1/6 + 1/6 + 1/6 − 0 = 3/6 = 1/2 = .50
Regola della somma (OR, o) 2
se A e B non sono mutualmente escludentisi: p(A) + p(B) − p(A ∩ B) (esistono eventi che cadono in entrambe le categorie)
Esempio
Probabilità di ottenerealmenoun 5 o un 6 con 2 dadi
1 dado 1: p(A = 5, 6) = 2/6 = .33
2 dado 2: p(B = 5, 6) = 2/6 = .33
3 entrambi i dadi: p(A ∩ B = 4/36
4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =
(12 + 12 − 4)/36 = 20/36 = .55
Le possibili combinazioni con due dadi
11 21 31 41 51 61
12 22 32 42 52 62
13 32 33 43 53 63
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66
Regola della somma (OR, o) 2
se A e B non sono mutualmente escludentisi: p(A) + p(B) − p(A ∩ B) (esistono eventi che cadono in entrambe le categorie)
Esempio
Probabilità di ottenerealmenoun 5 o un 6 con 2 dadi
1 dado 1: p(A = 5, 6) = 2/6 = .33
2 dado 2: p(B = 5, 6) = 2/6 = .33
3 entrambi i dadi: p(A ∩ B = 4/36
4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =
(12 + 12 − 4)/36 = 20/36 = .55
Le possibili combinazioni con due dadi
11 21 31 41 51 61
12 22 32 42 52 62
13 32 33 43 53 63
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66
Regola della somma (OR, o) 2
se A e B non sono mutualmente escludentisi: p(A) + p(B) − p(A ∩ B) (esistono eventi che cadono in entrambe le categorie)
Esempio
Probabilità di ottenerealmenoun 5 o un 6 con 2 dadi
1 dado 1: p(A = 5, 6) = 2/6 = .33
2 dado 2: p(B = 5, 6) = 2/6 = .33
3 entrambi i dadi: p(A ∩ B = 4/36
4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =
(12 + 12 − 4)/36 = 20/36 = .55
Le possibili combinazioni con due dadi
11 21 31 41 51 61
12 22 32 42 52 62
13 32 33 43 53 63
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66
Regola della somma (OR, o) 2
se A e B non sono mutualmente escludentisi: p(A) + p(B) − p(A ∩ B) (esistono eventi che cadono in entrambe le categorie)
Esempio
Probabilità di ottenerealmenoun 5 o un 6 con 2 dadi
1 dado 1: p(A = 5, 6) = 2/6 = .33
2 dado 2: p(B = 5, 6) = 2/6 = .33
3 entrambi i dadi: p(A ∩ B = 4/36
4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =
(12 + 12 − 4)/36 = 20/36 = .55
Le possibili combinazioni con due dadi
11 21 31 41 51 61
12 22 32 42 52 62
13 32 33 43 53 63
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66
Regola della somma (OR, o) 2
se A e B non sono mutualmente escludentisi: p(A) + p(B) − p(A ∩ B) (esistono eventi che cadono in entrambe le categorie)
Esempio
Probabilità di ottenerealmenoun 5 o un 6 con 2 dadi
1 dado 1: p(A = 5, 6) = 2/6 = .33
2 dado 2: p(B = 5, 6) = 2/6 = .33
3 entrambi i dadi: p(A ∩ B = 4/36
4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =
(12 + 12 − 4)/36 = 20/36 = .55
Le possibili combinazioni con due dadi
11 21 31 41 51 61
12 22 32 42 52 62
13 32 33 43 53 63
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66
Regola della somma (Esercizio 1) N
Esercizio
Lanciando 4 monete qual è la probabilità di ottenere almeno 3 Teste? [3 o 4 T]
Soluzione
p(3t) + p(4t) = .25 + .0625a = .3125 Esercizio
Non più di 1 Testa?
Soluzione
p(0t) + p(1t) = .125a+ .0625a = .1875
a Vedi slide 54
Regola della somma (Esercizio 2) N
Esercizio
Estraendo una carta da un mazzo di 40 carte (4 semi, 7 numeri e 3 figure, qual è la probabilità che sia una figura oppure una carta di cuori?
Soluzione
Ci sono 3 figure per seme e 10 carte per seme, quindi
p(figura) + p(cuori) − p(figura di cuori) = 12/40 + 10/40 − 3/40 = 19/40 = .475
Regola del prodotto (AND, e) 1
La probabilità che accadano contemporaneamente 2 eventi (fra loro indipendenti oppure con re-immissione) è pari al prodotto delle singole probabilità p(A e B) = p(A) p(B)
Esempio
Lanciando 4 monete, qual è la probabilità di ottenere 4 teste simultaneamente?
Ogni faccia della moneta (se non è truccata) ha la stessa probabilità, quindi p(A)=1/2 o p=.50
1 2 * 1
2* 1 2 *1
2 = (︂1
2 )︂4
= .54 = .0625
Regola del prodotto (AND, e) 2 N
Esempio
E la probabilità di rispondere correttamente (e casualmente) ad un questionario a scelta multipla di 30 domande? (4 scelte)
(︂1 4
)︂30
= 8.67E −19 = 0.000000000000000000867 Se gli eventi non sono indipendenti fra loro, si usa la probabilità condizionata
Ovvero la probabilità di un evento condizionato dall’accadere di un’altro evento: p(A/B)
Probabilità condizionata (eventi dipendenti) N
Anni Genere Età esperienza
lavorativa
1 M 43 14
2 M 36 6
3 F 56 28
4 F 47 12
5 F 28 1
6 F 37 6
7 M 46 5
8 F 30 2
9 M 28 2
10 F 26 1
F M
A(<=10) 4 3 7 B(>10) 2 1 3
6 4 10
Esempio
Qual è la probabilità che, avendo estratto una femmina (F), questa abbia più di 10 anni di esperienza (B)? (eventi dipendenti)
Corrisponde alla probabilità
dell’intersezione (p(B ∩ F )) diviso la probabilità dell’evento condizionato (p(F )).
ovvero
p(B/F ) = p(B ∩ F )/p(F ) 2
10/ 6 10 = 2
10 10
6 = 2 6
Probabilità condizionale N
Probabilità di ottenere un certo evento dopo che si è verificato un primo evento:
p(A/B) = p(A ∩ B)
p(B) = fA∩B
fB
Esempio
Probabilità che, un asso estratto da un mazzo di 52 carte, sia di cuori (eventi indipendenti)
p(asso)=4/52=0.077 p(cuori)=13/52=0.25
p(asso ∩ cuori ) = 1/52 = 0.0192 p(A/B) = 1
52/13 52 = 1
52 52 13 = 1
13 =.077
Probabilità di 2 eventi indipendenti N
Due eventi sonoindipendenti fra loro se:
p(A/B) = p(A) e contemporaneamente p(B/A) = p(B) ovvero se la probabilità del primo evento (condizionata dal secondo) è uguale a quella del primo
Esempio
p(A ∩ B) = 1/52 p(asso)=4/52=1/13
p(asso/cuori)=(1/52) / (13/52) = 1/13
p(cuori)=13/52=1/4
p(cuori/asso)=(1/52) / (4/52) = 1/4
Il concetto di indipendenzafra due variabili, ci servirà quando affronteremo la statistica di 𝜒2 (chi-quadro, al capitolo 13)
Applicare entrambe le regole N
Con 4 monete, probabilità di 3 teste e 1 croce p(t) = p(c) = .5
Approccio classico: eventi favorevoli (tttc, ttct, tctt, cttt) / eventi possibili 4/16 = .25
Approccio alternativo:
AND - 4 eventi simultanei = .54= .0625
OR - 4 possibili combinazioni (tttc, ttct, tctt, cttt) ciascuna con probabilità .54= .0625
.0625 + .0625 + .0625 + .0625 = .0625 * 4 = .25
Distribuzioni di probabilità
Tutte le alternative possibili di un “evento” costituiscono i
“valori” di quell’evento I valori di un evento possono essere trattati come
“misurazioni” e rappresentate come distribuzioni di frequenza (in questo caso di proporzioni) Esistono delle distribuzioni di probabilità le cui caratteristiche
sono conosciute 0 20 40 60 80 100
0.000.020.040.060.08
Probabilità con 100 lanci di una moneta
Numero di teste
Probabilità
Distr. di prob. note
La distribuzione binomiale la distribuzione ipergeometrica* la distribuzione normale
la distribuzione normale standardizzata la distribuzione di chi-quadro (𝜒2) la distribuzione F di Snedecor la distribuzione t di Student la distribuzione campionaria
* Non la affronteremo
Distribuzione normale e standardizzata
Formula della famiglia di curve normali
f (x ) = 1 𝜎√
2𝜋e
−
(x − 𝜇 )2 2 𝜎2
dove −∞ < x < ∞;
I parametri della curva sono lamedia, ladev.st. e la varianza
Quindi la curva cambierà di forma in base allamediae alladeviazione standard La Normale standardizzata
hamedia0 edev.st. 1 −4 −2 0 2 4
0.00.20.40.60.81.0
x
dnorm(x)
Curva normale (sd=.5; 1; 2)
Distribuzione binomiale (con p=.5)
0 20 40 60 80 100
0.000.020.040.060.08
Probabilità con 100 lanci di una moneta
Numero di teste
Probabilità
Formula della famiglia di curve binomiali
P(x ) = (︂m
x )︂
px(1 − p)m−x
dove x = 1, 2, · · · m; m è il valore massimo possibile; e p è la probabilità dell’evento “successo”
la curva è simmetrica solo con p=.5
Distribuzione di chi-quadro (𝜒
2)
0 5 10 15 20 25 30
0.00.10.20.30.40.50.6
Valore di chi
Probabilità
Curve di chi quadro per 1,2,3,4,5 e 10 g.l
f (x ) = 2−k/2
Γ(k/2)x(k−2)/2e−x /2 dove k è il valore dei gradi di libertà
Caratteristiche
Essendo distribuzioni di probabilità note, per ciascuna, noi
conosciamo non solo la media e la deviazione standard, ma anche la porzione di area corrispondente ad ogni valore che compone la distribuzione (ascissa)
Viceversa, conoscendo una porzione di area possiamo risalire al valore (ascissa) che vi è associato
Il valore in ascissa (z, t, F, 𝜒2) può quindi essere associato ad un’area e ad una probabilità
La statistica inferenziale si baserà su alcune di queste distribuzioni di probabilità conosciute