Elementi di Psicometria (con laboratorio software 1) 03-Alcuni concetti fondamentali della statistica inferenziale (v. 1.4a, 17 marzo 2021) Germano Rossi

(1)

Elementi di Psicometria (con laboratorio software 1)

03-Alcuni concetti fondamentali della statistica inferenziale (v. 1.4a, 17 marzo 2021)

Germano Rossi¹ [email protected]

1Dipartimento di Psicologia, Università di Milano-Bicocca

a.a. 2020-21

(2)

Sommario

1 Punti z

2 Curva normale

3 Campione e popolazione

4 Probabilità

5 Distribuzioni di probabilità

(3)

Interpretazione dei punteggi grezzi

Per le variabili quantitative usiamo delle unità di misura (anni, numero di errori...)

I punteggi grezzi (ciò che abbiamo misurato) sono semplici da interpretare se conosciamo la scala su cui sono misurati (i metri, i gradi centigradi e simili) Non sono facili da interpretare se usano scale non conosciute (ad es.

intervallo 6-36 oppure 30-180)

Variabili diverse possono usare unità diverse (età, soddisfazione...) con metriche diverse (età -> 0-n; soddisfazione -> 0-10, ...) che possono cambiare da una cultura all’altra (kg o libbre, km o miglia, ...)

(4)

Interpretazione dei punteggi grezzi

Non sono molto utili neppure per confrontare fra loro variabili diverse:

un 25 in un test di abilità matematica (AM) è migliore o peggiore di un 55 in un test di abilità verbale (AV)?

Dipende dalle relative scale:

se AM ha un intervallo 1-30 e AV un range 10-60

entrambi i punteggi sono abbastanza vicini al valore massimo Ma uno è “migliore” (maggiore) dell’altro?

In termini assoluti, sì: 55 è maggiore di 25 Ma in termini relativi?

(5)

Confrontare variabili

Quando misuriamo una lunghezza, usiamo il metro come un’unità di misura e ci chiediamo quante volte il metro sta in una certa distanza.

L’unità di misura ci permette di esprimere lunghezze diverse tramite qualcosa di comparabile e confrontabile

Non posso confrontare fra loro 2 diverse variabili, a meno di non sapere in anticipo che hanno uguale unità di misura

Esempio

Un soggetto ha ottenuto il punteggio 25 su una scala di abilità matematica e il punteggio 55 su una di vocabolario. Qual è migliore?

Non avendo altre informazioni, non possiamo dirlo!

(6)

Confrontare variabili

Confrontare variabili diverse fra loro non è possibile se non usando la stessa scala di misura e lo stesso "metro"

È come decidere se 3 banane sono di più di 3 arance Sono cose diverse e non possiamo confrontarle

A meno di non trasformarle in una stessa unità di misura

“3 banane pesano di più di 3 arance?”

“In 3 banane ci sono più vitamine che in 3 arance?”

“3 banane occupano più spazio di 3 arance?”

“ci sono più frutti di tipo ’banane’ o di tipo ’arance’?”

Ma in statistica vorremmo avere un’unica unità di misura che valga per misurare qualsiasi variabile quantitativa

Quale potrebbe essere questa unità di misura?

(7)

Distanze dalla media

Ipotizziamo una variabile qualunque:

0 1 2 3 4 5 6 7 8 9 10

L’unità di misura parte da 0 e va fino a 10. (Assumiamo che M=5). Se sottraiamo 5 a tutti i punteggi otteniamo uno spostamento:

-5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5

L’unità di misura parte da -5 e va fino a +5 (la nuova media è 0).

Non cambia nulla, abbiamo trasformato lo zero assoluto in uno zero relativo. La nuova unità di misura è lo scarto dalla media (X_i− M); in termini più precisi è

“quante unità di misura di questa variabile, ogni punteggio dista dalla media della variabile”.

(8)

Trasformazioni lineari

Abbiamo visto che se aggiungo o sottraggo una costante ad una distribuzione, la media subisce la stessa trasformazione

(solo denominatore) M =^∑︁Xi ⇒ ^∑︁(Xi+ k) =^∑︁Xi +^∑︁k per cui se io tolgo ad AM e AV la loro media, trasformo le due variabili in modo che abbiano entrambe M=0

∑︀(Xi − M)

N =

∑︀(Xi)

N −

∑︀M

N = M − M = 0 Ho semplicemente spostato le misure in modo che la media di entrambe fosse 0.

(9)

Trasformazioni lineari

Adesso hanno la stessa media (zero) ma hanno ancora varianza diversa Come possiamo rendere i campi di variazione uguali?

Una prima possibilità è di dividere tutto per un determinato valore (ad es. le rispettive gamme) e poi moltiplicare tutto per uno stesso valore (ad es. 100) Un’altra possibilità è quella di usare la deviazione standard come unità di misura

In pratica, ci chiediamo“Quantedeviazioni standardci sono fra un determinato valore X (di una variabile) e la media (di quella variabile)?”

(10)

Punti z

Quante deviazioni standardci sono fra un determinato valore X (di una variabile) e la media (di quella variabile)?

La risposta implica utilizzare la deviazione standard (DS) come nuova unità di misura

Gli scarti dalla media (X − M) vengono divisi per la dev. st.:

zi = Xi− M DS

Il punteggio trasformato in “numero di scarti dalla media” si chiama punto z (o punteggio z o punteggio standardizzato), in alcuni libri punto u

(11)

Punti z

Il punto z è una misura standard (come il metro)

La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (^∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DS_z= 1), perché la

deviazione standard è l’unità di misura

Valori negativi indicano punteggi inferiori alla media Valori positivi, punteggi sopra la media

(12)

Punti z

La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media

La somma dei punti z è 0 (^∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DS_z= 1), perché la

(13)

Punti z

La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (^∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0

La deviazione standard dei punti z è 1 (DS_z= 1), perché la deviazione standard è l’unità di misura

(14)

Punti z

La media dei punti z è 0 (z = 0), visto che un qualunque punteggio corrispondente alla media originale sarebbe a 0 scarti dalla media La somma dei punti z è 0 (^∑︁z = 0), perché i punti z sono scarti dalla media trasformati in modo uniforme e la somma degli scarti è 0 La deviazione standard dei punti z è 1 (DS_z = 1), perché la

(15)

Punti z

Valori negativi indicano punteggi inferiori alla media

Valori positivi, punteggi sopra la media

(16)

Punti z

(17)

Punti z

La trasformazione in punti z, si dice anche “standardizzazione”

La distribuzione dei punti z si dice “distribuzione standardizzata”

perché è una delle tante possibili curve di frequenza, ma con M e DS conosciute a priori

I punti z permettono di confrontare fra loro punteggi provenienti da diverse distribuzioni di frequenza

Esempio

x=70, M=82, DS=12 (z=-1) x=23, M=35, DS= 6 (z=-2)

23 è 2 DS al di sotto della sua media, mentre 70 è solo 1 DS sotto la sua media; se fossero punteggi di profitto, confrontandoli, dovremmo dire 23 è un valore “peggiore” rispetto a 70 non perché è più piccolo ma perché il suo punto z è inferiore

(18)

Esempi d’uso dei punti z

Conoscendo media, varianza e il punto z, si può calcolare il valore di X (cioè il punto grezzo):

X = M + z_x · DS

Esempio

Se un test di profitto ha M=82 è DS=12, a quale punteggio corrisponde il punto z=1.2?

X = 82 + 1.2 · 12 = 96.4

(19)

Scale derivate dai punti z

Ci sono scale standardizzate utilizzate comunemente in psicologia (specie per i test) che derivano dai punti z

punteggi T: hanno M=50 e DS=10. Si ottengono con T = 10z + 50 punteggi SAT: hanno M=500 e DS=100. Si ottengono con

SAT = 100z + 500

QI o IQ: la maggior parte dei test d’intelligenza (come il WAIS) utilizza M=100 e DS=15. Si ottengono con QI = 15z + 100 QI o IQ: il test d’intelligenza Stanford-Binet utilizza M=100 e DS=16. Si ottengono con QI = 16z + 100

(20)

Spss: punti z

Spss permette di calcolare i punti z di una variabile per ogni unità statistica, tramite Analizza | Statistiche descrittive | Descrittive... e attivando il flag Salva valori

standardizzati come variabili

(21)

Spss: punti z

In fondo ai dati, viene aggiunta una variabile con il nome corrispondente preceduto da “Z”

Questa variabile può essere usata come qualsiasi altra

(22)

Distribuzione normale e standardizzata

La formula della curva normale è:

f (x ) = 1 𝜎√

2𝜋e⁻

(x −𝜇)² 2𝜎²

dove −∞ < x < ∞

i parametri della curva sono la media, ladev.st. e lavarianza Quindi la curva cambierà di forma in base alla media e alla deviazione standard la versione standardizzata ha media=0 e DS=1

−4 −2 0 2 4

0.00.20.40.60.81.0

x

dnorm(x)

Curva normale (sd=.5; 1; 2)

(23)

Distribuzione normale e standardizzata

Se cambia M (ma non DS), non cambia la forma

0 5 10 15 20

0.00.10.20.30.40.5

Valore di X

Probabilità

Curve normali con medie diverse (5, 10, 15) e s=1

Se cambia la DS, cambia la forma:

all’aumentare di DS, la curva si appiattisce e si allarga

−4 −2 0 2 4

0.00.20.40.60.81.0

x

dnorm(x)

(24)

Relazione fra Normale standardizzata e Punti z

La Curva normale standardizzata animatamostra la relazione fra l’area sottesa alla curva e i punti zeta, in base al punto di riferimento (ovale arancione con freccia).

0 to Z mostra la % di area fra z=0 e

z=riferimento

Up to Z mostra la % di area fra la coda negativa e il riferimento

Z onwards mostra la

% di area fra la coda positiva e il riferimento

(25)

Tavole della distr. normale

La curva normale è simmetrica Quindi ogni metà è il 50%

Allontanandoci da z=0 abbiamo aree identiche per z identici su entrambi i lati della media

z=-0.10 corrisponde a un’area del 3.98%sotto la media

z=0.10 a un’area del 3.98%sopra la media

Esistono delle tabelle che riportano il valore dell’area corrispondente a vari valori di z

(26)

Tavole della distr. normale

Welkowitz, Cohen, Ewen Tavola A (p. 473 ss.)

La tavola riporta la proporzione di area sottesa alla curva normale calcolata a partire dalla media 0 (ricordarsi che l’intera area è simmetrica)

Per ogni punto z viene indicata l’area fra z=0 e il punto z stesso (area in grigio) La proporzione di area è indicata come percentuale (34,13) con due decimali Si può trasformare facilmente in proporzione (.3413) con 4 decimali

https://www.germanorossi.it/mi/file/elem/Tavole_Welkowitz.pdf

(27)

Tavole della distr. normale (Welkowitz)

Una copia inTavoleWelkowitz.pdf

La prima colonna indica il primo decimale del punto z, ogni colonna successiva indica il secondo decimale

All’incrocio fra una riga (ad es. 0,3) e una colonna (0,05) troviamo l’area corrispondente

Es. l’area fra z=0,35 e 0 è pari a 13,68

(28)

Tavole della distr. normale (Aron)

Aron, Coups, Aron - Tavola A.1 (p. 587 ss.)

La prima colonna indica il punto z (con 2 decimali) La seconda colonna riporta l’area fra il punto z e la media (espressa come %)

Es. l’area fra z=0,05 e 0 è pari a 1,99

La terza colonna riporta l’area fra il punto z e la coda positiva (espressa come %)

Es. l’area fra z=0,05 e la coda positiva è pari a 50-1,99=48.01

(29)

Tavole della distr. normale (Field)

Un’altro possibile modo di presentare la tabella

La prima colonna indica il punto z (con 2 decimali)

La seconda colonna riporta l’area fra il punto z e la coda negativa (area bianca del grafico)

Es. l’area fra z=0,05 e la coda negativa è pari a 50+1,99=51.99 La terza colonna riporta l’area fra il punto z e la coda positiva (area azzurra): per z=0,05 è pari a 50-1,99=48.01

La quarta colonna riporta il valore dell’ordinata corrispondente al punto z

(30)

Tavole della distr. normale: Punti z particolari

Punti z particolari Fra -1 e +1 DS corrisponde un 68.26%

di area

fra -2 e +2 DS

corrisponde un 95.44%

di area

z≤1.64 corrisponde al 95% / 5%

z≤1.96 corrisponde al 97.5% / 2.5%

(31)

Tavole della distr. normale: Punti z particolari

Punti z particolari

l’area fra -1.96 e + 1.96 è del 95% attorno alla media

l’area fra -2.57 e + 2.57 è del 99% attorno alla media

(32)

Esempi d’uso dei punti z (1)

Qual è la % di soggetti con un punteggio inferiore a 120 (M=100, s=20)?

calcolo il punto z [(120-100)/20=1]

consulto una tavola della normale e cerco il punto z=1.00, quindi leggo l’area corrispondente [34,13 o .3414]

poiché questa è l’area fra z=0 e z=1 e mi interessa anche la metà inferiore, sommo 50 [50,00 + 34.13

= 84.13%]

(33)

Esempi d’uso dei punti z (2)

Qual è la % di soggetti con un punteggio inferiore a 80 (M=100, s=20)?

calcolo il punto z [(80-100)/20=-1]

il punto z è negativo perché sotto la media

consulto le tavole della normale e cerco il punto z=1.0

in base alle tavole che utilizzo, posso leggere l’area fra la z=0 e z=1 corrispondente [34,13] oppure l’area fra z=1 e la coda [15.87]

nel primo caso faccio il complemento a 50,00 [50,00 - 34,13 = 15.87%]

(34)

Esempi d’uso dei punti z (3)

Qual è la % di soggetti con punteggio compreso fra 80 e 120?

calcolo i punti z [-1 e +1]

consulto le tavole della normale e cerco il punto z=1.00, e leggo l’area corrispondente [34,13]

poiché questa è l’area fra la z=0 e z=1 (ma sonoenteressato ad entrambi i lati della curva, conto l’area 2 volte [34,13 + 34,13 = 68.26%]

(35)

Esempi d’uso dei punti z (4)

A quale punto z corrisponde l’area con il 10% di punteggi superiori?

Usando le tavole che indicano l’area fra z=0 e z=x, devo trovare il resto di 10,00% [50,00-10,00=40,00] e cerco dentro le tavole una

proporzione che si avvicini a 40,00 Usando le tavole che indicano l’area fra z=x e la coda, cerco il valore più vicino a 10%

in entrambi i casi corrisponde a z=1.28

i punteggi il cui z è >= di 1.28, rientrano nel 10% superiore

(36)

Esempi d’uso dei punti z (5)

Per una prima selezione dei candidati all’assunzione in una azienda, si decidere di scartare il 70% dei punteggi inferiori ottenuti tramite uno strumento di valutazione (che si distribuisce normalmente) con M=80 e DS=10. Qual è il punteggio minimo per essere ammessi alla seconda selezione?

Un’area del 70% va cercata all’interno delle tavole della normale (che però considerano solo metà dell’area), quindi ci interessa il 20%

Se le tavole indicano l’area fra z=0 e z=x, cerco dentro le tavole una proporzione che si avvicini a 20,00. [corrisponde a z=.52 o (0.53)]

Se le tavole indicano l’area fra z=x e la coda, cerco il valore più vicino a 50-20=30% dentro le tavole [corrisponde a z=.52 o (0.53)]

usando la formula inversa dei punti z, troviamo che il punteggio minimo è x = 80 + .52 × 10 = 85.2

(37)

Esempi d’uso dei punti z (6)

Per l’assunzione in una grande grupo bancario e per una specifica

mansione, si decidere di selezionare i candidati il cui punteggio è compreso nel 22% attorno alla media, ottenuti tramite uno strumento di valutazione (che si distribuisce normalmente) che ha M=120 e DS=25. Qual è il punteggio minimo e massimo per considerare gli ammessi?

L’area va cercata nella tavola della normale (simmetrica) e mi interessa un’area pari a 22/2=11%

se le tavole indicano l’area fra z=0 e z=x, cerco una proporzione che si avvicini a 11,00... [corrisponde a z=.28]

usando la formula inversa dei punti z, troviamo che il punteggio minimo è x = 120 − .28 × 25 = 113 e quella massima è

x = 120 + .28 × 25 = 127

(38)

Campione e popolazione (1)

Chi si occupa di comportamento necessita di studiare il comportamento delle persone e di trarre delle conclusioni

Gli psicologi, di solito, possono misurare solo una piccola parte di queste persone

Per questo motivo, la maggior parte della ricerca in psicologia si basa su un piccolo campione di dati da cui derivano affermazioni generali La statistica descrittiva si applica a dati di qualsiasi ampiezza (in termini di casi statistici)

Per cui le statistiche descrittive valgono sia per un campione sia per una popolazione

Le statistiche descrittive calcolate (o stimate) su una popolazioni, si chiamano parametri

(39)

Campione e popolazione (2)

Uncampione (ricordiamo) è una piccola parte della popolazione Ricordiamo anche che unapopolazione è l’insieme di tutti i casi statistici possibili che presentano le caratteristiche che intendiamo studiare

In altre parole: il campione è costituito da tutte le misurazioni che ho fatto in “questa” raccolta di dati

La popolazione è costituita da tutte le misurazioni che avrei potuto fare in questa raccolta dati

Il campione è semprefinito

La popolazione può essere finitao infinita

(40)

Campione e popolazione (3)

Il termine “finito” indica che esiste un numero che rappresenta il massimo dei casi statistici considerabili (Ad es. tutti gli studenti immatricolati a Psicologia nell’a.a. 2014/15)

Il termine “infinito” che non esiste un numero massimo di casi statistici (Ad es. tutti i tempi di reazione a un certo stimolo) Il campionamentoè l‘estrazione di un campione dalla popolazione (secondo determinati criteri) per poterla studiare più agevolmente Se conosciamo le caratteristiche della popolazione (parametri), sarà facile estrarre un campione che ben la rappresenti

oppure riconoscere se il campione in esame rappresenta bene la popolazione oppure no

(41)

Campione e popolazione (4)

Molto spesso nelle scienze sociali non si conoscono le caratteristiche della popolazione

Se non le conosciamo dovremo cercare di estrarre un campione che sia una buona stima della popolazione

Dal momento che non sempre conosciamo i parametri della

popolazione, le statistiche descrittive dei campioni sono usate come stima dei corrispondenti parametri

Non abbiamo la certezza che queste stime siano “vere” ma sono le stime “migliori” dal momento che non conosciamo nulla!

(42)

Rappresentatività (1)

Generalizziamo il concetto di “buona stima” dicendo che il campione dev’essererappresentativo

Il campione selezionato “dovrebbe” rappresentare “in piccolo” la popolazione che si vuol studiare. . . quindi il campione dovrebbe avere le stesse caratteristiche della popolazione (e nella stessa proporzione)

Gruppo concreto che studio

Omeo- morfi- smo

Gruppo teorico che voglio studiare

(43)

Rappresentatività (2)

Sulla base del campione rappresentativo, estendiamo i dati ottenuti all’intera popolazione, tramite l’inferenza statistica

Campione Popolazione

inferenza

Una volta selezionate le variabili che ci interessa studiare (che saranno chiamate variabili dipendenti), si individuano anche delle variabili che si ritengono importanti o che possono essere/produrre influenza su (che verranno chiamate variabili indipendenti). Il campione deve distribuirsi (in queste variabili) proporzionalmente alla popolazione

(44)

Rappresentatività (3)

Un modo generalmente usato per avere la rappresentatività è quella della selezione casualedei casi statistici dalla popolazione

Questi campioni sono chiamati casuali ma...

In italiano, “casuale” ha più un significato di arbitrario, informale, quello che capita...

Ma ha anche un significato diverso

Quando metto la mano nel sacchetto con i numeri della tombola, non guardo dentro al sacchetto per poter estrarre un numero casuale...

Casuale (in statistica) significa appunto che non uso strategie per selezionare un caso statistico a scapito di un altro...

(45)

Casuale o randomizzato

Il vostro libro usa sia casuale sia randomizzato.

È lo stesso concetto

In inglese, “random” enfatizza il fatto che tutti gli eventi possibili debbano avere la stessa possibilità di essere selezionati

Un campione casuale (o randomizzato) è quindi uno dei possibili campioni estraibili da quella popolazione

Inoltre, tutti i casi selezionati per quel campione devono avere la stessa probabilità di essere selezionati

(46)

Estrazione casuale (1)

Esistono numerosi modi per selezionare un campione casuale

In molti casi si tratta di identificare ogni caso in qualche modo (ad es.

con un numero) Poi è possibile (ad es.)

mettere tutti gli identificatori in un “contenitore”, da cui si selezionano

“alla cieca” fino a raggiungere il numero di casi stabilito per il campione usare un numero casuale (computer, calcolatrice, tavole dei numeri casuali) per selezionare i singoli casi

si ordinano gli identificatori e si selezionano quelli che sono in una certa posizione (ad es. 1 ogni 20)

È necessario avere a disposizione un elenco della popolazione (problematico con le leggi sulla privacy se i casi statistici sono individui)

(47)

Estrazione casuale (2)

In teoria, dopo aver selezionato un caso, dovremmo ri-immetterlo nel mucchio; altrimenti gli altri non avranno la stessa probabilità dei precedenti

1 n, 1

n − 1, 1 n − 2, ...

non si fa, perché

se stiamo scegliendo un campione, non possiamo usare due volte la stessa unità statistica

(con popolazioni grandi o infinite) la diversa probabilità è piccolissima 1 su 1.000.000 = 0.0000010000 (1 milione)

1 su 999.900 = 0.0000010001 (1 milione-100)

(48)

Statistiche e parametri

Le statistiche finora studiate [media, dev. st.,. . . ], sono calcolate sui campioni e vengono normalmente chiamate “statistiche”

Le statistiche calcolate sul campione si possono usare come “stime”

delle stesse informazioni della popolazione. Le informazioni [media, dev. st.,] della popolazione sono chiamate “parametri”

In genere, per i parametri si usano lettere greche, mentre per le statistiche si usano lettere normali

Statistica Parametro

Media M, X 𝜇 (mu, mi)

Varianza DS², s² 𝜎² (sigma quadro) dev. st. DS, s, SD 𝜎 (sigma)

correlazione r 𝜌 (rho)

(49)

Probabilità di un evento

Nel linguaggio comune, usiamo parole come “sicuro, certo, probabile, possibile, impossibile...” per parlare dell’accadere di un fatto (evento):

0 1

impossibile certo, sicuro

possibile, probabile

Un evento “sicuro, certo” accadrà sicuramente (e sarà un evento con probabilità uguale a 1, p(x ) = 1)

un evento impossibile non accadrà mai (non ci saranno eventi, e la sua probabilità si indica con zero, p(x ) = 0)

Dal momento che la probabilità di un evento è compresa fra 0 e 1, di solito si ometto lo 0 davanti al punto decimale (.50 anziché 0.50) usando, in genere, almeno 2 decimali (meglio 3)

(50)

Teorie della probabilità N

Usiamo il termineprobabilità per indicare “quanta possibilità vi sia che un evento accada” fra diversi altri possibili (più di 0 e meno di 1,

0 < p(x ) < 1)

Esistono, sostanzialmente, 3 approcci teorici:

classica: gli eventi possibili sono equiprobabili oppure la loro

probabilità è teoricamente calcolabile o conoscibile (è stata sviluppata soprattutto per i giochi d’azzardo)

frequentista: la probabilità dipende dalla frequenza con cui un certo evento è accaduto nel passato

soggettiva: il rischio che siamo disposti a correre, la probabilità che associamo (senza fare calcoli espliciti) all’accadere di un evento

(51)

Probabilità classica

Esistono diversi eventi possibili, ma uno solo può accadere; alcuni eventi possono essere utili ai nostri scopi, tutti gli altri no

La probabilità si calcola dividendo gli eventi che ci servono rispetto a tutti gli eventi egualmente possibili

p(x ) = casi favorevoli casi possibili = f

n

Esempio

Ottenere un numero superiore o uguale a 5 tirando un dado:

se il dado non è truccato, la probabilità di ogni numero è identica due sono gli eventi utili (5 e 6), 6 gli eventi possibili

p(5, 6) = 2/6 = 1/3 = .33

(52)

Probabilità frequentista N

Si usa quando gli eventi possibili non hanno la stessa probabilità (ad es. colore dei capelli o degli occhi)

La loro probabilità dipende dalle esperienze passate (frequenza empirica)

Si chiama “frequentista” perché usiamo la frequenza (o meglio la proporzione) di una categoria come stima della probabilità del verificarsi di quella categoria

È ampiamente usata dalle assicurazioni Esempio

Se su 100 compiti di un esame, 15 sono insufficienti; in base alla

probabilità frequentista, la probabilità di superare quell’esame sarebbe di 85/100=.85 oppure la probabilità di NON superare quell’esame sarebbe di 15/100=.15

(53)

Probabilità soggettiva N

È la stima che ciascuno di noi fa, sull’accadere di un evento su cui non abbiamo informazioni sicure

Normalmente si usa nelle scommesse: “quanto scommetti che...”

oppure nei giudizi: “mi consigli di fare...”, “devo fare così... o così...”

Esempio

Decidere di affrontare un’esame universitario, dipende dalla probabilità soggettiva di superarlo.

Accelerare o rallentare quando un semaforo diventa giallo, dipende dalla stima soggettiva (probabilità) di riuscire a passare prima che diventi rosso.

(54)

Regole della probabilità

Una volta trovata la probabilità di un evento (classica, frequentista o soggettiva) le regole che si applicano sono le stesse

La somma delle probabilità di tutti gli eventi alternativi (e possibili) è (dev’essere) pari a 1 (uno solo è l’evento che può accadere)

La probabilità di ciascuno degli eventi possibili è la distribuzione di probabilità di quel tipo di evento

Le regole sono:

addizionale o della somma (OR, o) moltiplicativa o del prodotto (AND, e)

(55)

Regola della somma (OR, o) 1

La probabilità che accada un evento A oppure un evento B è pari a:

somma delle singole probabilità meno la probabilità dell’intersezione:

p(A) + p(B) − p(A ∩ B)

se A e B sono mutualmente escludentisi fra di loro cioè se p(A ∩ B) = 0 (l’intersezione dei due eventi è nulla), allora:

p(A) + p(B)

Esempio

Probabilità di ottenere un numero pari con un lancio del dado:

lanciando un solo dato, p(2 ∩ 4 ∩ 6) = 0

p(2) + p(4) + p(6) − 0 = 1/6 + 1/6 + 1/6 − 0 = 3/6 = 1/2 = .50

(56)

Regola della somma (OR, o) 2

se A e B non sono mutualmente escludentisi: p(A) + p(B) − p(A ∩ B) (esistono eventi che cadono in entrambe le categorie)

Esempio

Probabilità di ottenerealmenoun 5 o un 6 con 2 dadi

1 dado 1: p(A = 5, 6) = 2/6 = .33

2 dado 2: p(B = 5, 6) = 2/6 = .33

3 entrambi i dadi: p(A ∩ B = 4/36

4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =

(12 + 12 − 4)/36 = 20/36 = .55

Le possibili combinazioni con due dadi

11 21 31 41 51 61

12 22 32 42 52 62

13 32 33 43 53 63

14 24 34 44 54 64

15 25 35 45 55 65

16 26 36 46 56 66

(57)

Regola della somma (OR, o) 2

Esempio

1 dado 1: p(A = 5, 6) = 2/6 = .33

2 dado 2: p(B = 5, 6) = 2/6 = .33

4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =

(12 + 12 − 4)/36 = 20/36 = .55

11 21 31 41 51 61

12 22 32 42 52 62

13 32 33 43 53 63

14 24 34 44 54 64

15 25 35 45 55 65

16 26 36 46 56 66

(58)

Regola della somma (OR, o) 2

Esempio

1 dado 1: p(A = 5, 6) = 2/6 = .33

2 dado 2: p(B = 5, 6) = 2/6 = .33

4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =

(12 + 12 − 4)/36 = 20/36 = .55

11 21 31 41 51 61

12 22 32 42 52 62

13 32 33 43 53 63

14 24 34 44 54 64

15 25 35 45 55 65

16 26 36 46 56 66

(59)

Regola della somma (OR, o) 2

Esempio

1 dado 1: p(A = 5, 6) = 2/6 = .33

2 dado 2: p(B = 5, 6) = 2/6 = .33

4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =

(12 + 12 − 4)/36 = 20/36 = .55

11 21 31 41 51 61

12 22 32 42 52 62

13 32 33 43 53 63

14 24 34 44 54 64

15 25 35 45 55 65

16 26 36 46 56 66

(60)

Regola della somma (OR, o) 2

Esempio

1 dado 1: p(A = 5, 6) = 2/6 = .33

2 dado 2: p(B = 5, 6) = 2/6 = .33

4 p(A) + p(B) − p(A ∩ B) = 2/6 + 2/6 − 4/36 =

(12 + 12 − 4)/36 = 20/36 = .55

11 21 31 41 51 61

12 22 32 42 52 62

13 32 33 43 53 63

14 24 34 44 54 64

15 25 35 45 55 65

16 26 36 46 56 66

(61)

Regola della somma (Esercizio 1) N

Esercizio

Lanciando 4 monete qual è la probabilità di ottenere almeno 3 Teste? [3 o 4 T]

Soluzione

p(3t) + p(4t) = .25 + .0625^a = .3125 Esercizio

Non più di 1 Testa?

Soluzione

p(0t) + p(1t) = .125^a+ .0625^a = .1875

a Vedi slide 54

(62)

Regola della somma (Esercizio 2) N

Esercizio

Estraendo una carta da un mazzo di 40 carte (4 semi, 7 numeri e 3 figure, qual è la probabilità che sia una figura oppure una carta di cuori?

Soluzione

Ci sono 3 figure per seme e 10 carte per seme, quindi

p(figura) + p(cuori) − p(figura di cuori) = 12/40 + 10/40 − 3/40 = 19/40 = .475

(63)

Regola del prodotto (AND, e) 1

La probabilità che accadano contemporaneamente 2 eventi (fra loro indipendenti oppure con re-immissione) è pari al prodotto delle singole probabilità p(A e B) = p(A) p(B)

Esempio

Lanciando 4 monete, qual è la probabilità di ottenere 4 teste simultaneamente?

Ogni faccia della moneta (se non è truccata) ha la stessa probabilità, quindi p(A)=1/2 o p=.50

1 2 * 1

2* 1 2 *1

2 = (︂1

2 )︂4

= .5⁴ = .0625

(64)

Regola del prodotto (AND, e) 2 N

Esempio

E la probabilità di rispondere correttamente (e casualmente) ad un questionario a scelta multipla di 30 domande? (4 scelte)

(︂1 4

)︂30

= 8.67E −19 = 0.000000000000000000867 Se gli eventi non sono indipendenti fra loro, si usa la probabilità condizionata

Ovvero la probabilità di un evento condizionato dall’accadere di un’altro evento: p(A/B)

(65)

Probabilità condizionata (eventi dipendenti) N

Anni Genere Età esperienza

lavorativa

1 M 43 14

2 M 36 6

3 F 56 28

4 F 47 12

5 F 28 1

6 F 37 6

7 M 46 5

8 F 30 2

9 M 28 2

10 F 26 1

F M

A(<=10) 4 3 7 B(>10) 2 1 3

6 4 10

Esempio

Qual è la probabilità che, avendo estratto una femmina (F), questa abbia più di 10 anni di esperienza (B)? (eventi dipendenti)

Corrisponde alla probabilità

dell’intersezione (p(B ∩ F )) diviso la probabilità dell’evento condizionato (p(F )).

ovvero

p(B/F ) = p(B ∩ F )/p(F ) 2

10/ 6 10 = 2

10 10

6 = 2 6

(66)

Probabilità condizionale N

Probabilità di ottenere un certo evento dopo che si è verificato un primo evento:

p(A/B) = p(A ∩ B)

p(B) = fA∩B

f_B

Esempio

Probabilità che, un asso estratto da un mazzo di 52 carte, sia di cuori (eventi indipendenti)

p(asso)=4/52=0.077 p(cuori)=13/52=0.25

p(asso ∩ cuori ) = 1/52 = 0.0192 p(A/B) = 1

52/13 52 = 1

52 52 13 = 1

13 =.077

(67)

Probabilità di 2 eventi indipendenti N

Due eventi sonoindipendenti fra loro se:

p(A/B) = p(A) e contemporaneamente p(B/A) = p(B) ovvero se la probabilità del primo evento (condizionata dal secondo) è uguale a quella del primo

Esempio

p(A ∩ B) = 1/52 p(asso)=4/52=1/13

p(asso/cuori)=(1/52) / (13/52) = 1/13

p(cuori)=13/52=1/4

p(cuori/asso)=(1/52) / (4/52) = 1/4

Il concetto di indipendenzafra due variabili, ci servirà quando affronteremo la statistica di 𝜒² (chi-quadro, al capitolo 13)

(68)

Applicare entrambe le regole N

Con 4 monete, probabilità di 3 teste e 1 croce p(t) = p(c) = .5

Approccio classico: eventi favorevoli (tttc, ttct, tctt, cttt) / eventi possibili 4/16 = .25

Approccio alternativo:

AND - 4 eventi simultanei = .5⁴= .0625

OR - 4 possibili combinazioni (tttc, ttct, tctt, cttt) ciascuna con probabilità .5⁴= .0625

.0625 + .0625 + .0625 + .0625 = .0625 * 4 = .25

(69)

Distribuzioni di probabilità

Tutte le alternative possibili di un “evento” costituiscono i

“valori” di quell’evento I valori di un evento possono essere trattati come

“misurazioni” e rappresentate come distribuzioni di frequenza (in questo caso di proporzioni) Esistono delle distribuzioni di probabilità le cui caratteristiche

sono conosciute 0 20 40 60 80 100

0.000.020.040.060.08

Probabilità con 100 lanci di una moneta

Numero di teste

Probabilità

(70)

Distr. di prob. note

La distribuzione binomiale la distribuzione ipergeometrica^* la distribuzione normale

la distribuzione normale standardizzata la distribuzione di chi-quadro (𝜒²) la distribuzione F di Snedecor la distribuzione t di Student la distribuzione campionaria

* Non la affronteremo

(71)

Distribuzione normale e standardizzata

Formula della famiglia di curve normali

f (x ) = 1 𝜎√

2𝜋e

−

(x − 𝜇 )² 2 𝜎²

dove −∞ < x < ∞;

I parametri della curva sono lamedia, ladev.st. e la varianza

Quindi la curva cambierà di forma in base allamediae alladeviazione standard La Normale standardizzata

hamedia0 edev.st. 1 ⁻⁴ ⁻² ⁰ ² ⁴

0.00.20.40.60.81.0

x

dnorm(x)

(72)

Distribuzione binomiale (con p=.5)

0 20 40 60 80 100

0.000.020.040.060.08

Probabilità con 100 lanci di una moneta

Numero di teste

Probabilità

Formula della famiglia di curve binomiali

P(x ) = (︂m

x )︂

p^x(1 − p)^m−x

dove x = 1, 2, · · · m; m è il valore massimo possibile; e p è la probabilità dell’evento “successo”

la curva è simmetrica solo con p=.5

(73)

Distribuzione di chi-quadro (𝜒

²

)

0 5 10 15 20 25 30

0.00.10.20.30.40.50.6

Valore di chi

Probabilità

Curve di chi quadro per 1,2,3,4,5 e 10 g.l

f (x ) = 2^−k/2

Γ(k/2)x^(k−2)/2e^{−x /2} dove k è il valore dei gradi di libertà

(74)

Caratteristiche

Essendo distribuzioni di probabilità note, per ciascuna, noi

conosciamo non solo la media e la deviazione standard, ma anche la porzione di area corrispondente ad ogni valore che compone la distribuzione (ascissa)

Viceversa, conoscendo una porzione di area possiamo risalire al valore (ascissa) che vi è associato

Il valore in ascissa (z, t, F, 𝜒²) può quindi essere associato ad un’area e ad una probabilità

La statistica inferenziale si baserà su alcune di queste distribuzioni di probabilità conosciute