• Non ci sono risultati.

11. MODELLI PROBABILISTICI DI USO COMUNE 11.1 Introduzione

N/A
N/A
Protected

Academic year: 2021

Condividi "11. MODELLI PROBABILISTICI DI USO COMUNE 11.1 Introduzione"

Copied!
22
0
0

Testo completo

(1)

11. MODELLI PROBABILISTICI DI USO COMUNE

11.1 Introduzione

I modelli probabilistici vengono impiegati in molti ambiti diversi per descrivere o per interpretare fenomeni casuali sulla base dei valori dei parametri presenti nel modello stesso. Esempi comuni di ricorso a modelli probabilistici si hanno in campo economico (in ambito micro: per risolvere problemi legati alla gestione delle scorte, al problema della selezione portafoglio, alla ottimizzazione temporale della produzione; in ambito macro: per prevedere l’andamento del tasso di inflazione, del PIL, del debito pubblico), in campo demografico (per rappresentare e prevedere gli sviluppi di una determinata popolazione nel corso degli anni), in campo biologico (per analizzare le sequenze proteiche, di DNA o di RNA) o medico (per valutare la probabilità della presenza di agenti patogeni, per il conteggio del numero di batteri in un alimento, per prendere decisioni diagnostiche o terapeutiche in condizioni di incertezza).

L’utilizzo di questi modelli rende possibile una trattazione rigorosa del fenomeno oggetto di indagine, ma al tempo stesso comporta necessariamente una certa semplificazione della realtà osservata e tale semplificazione implica anche un certo grado di arbitrarietà nella scelta del modello, sulla base di quello che il ricercatore considera rilevante per il fenomeno considerato.

In ogni caso la formulazione matematica di un modello probabilistico risponde all’esigenza di conoscere la realtà osservata, ne favorisce la comprensione e l’interpretazione e consente di individuare le scelte operative più adeguate.

Una prima classificazione di questi modelli teorici li distingue a seconda che si riferiscano a variabili casuali discrete o a variabili casuali continue.

Nel primo caso, indicata con X la v.c. di interesse, il modello teorico f(x) assegna a ciascun possibile valore di X una probabilità, mentre nel secondo caso assegna una densità di probabilità.In entrambi i casi il modello teorico f(x), caratterizzato da uno o più parametri che servono per adattare il modello stesso ai dati di volta in volta rilevati, è una rappresentazione semplificata ed astratta della realtà.

Nei paragrafi seguenti vengono descritti i modelli probabilistici più comuni, a partire da quelli utilizzati quando la variabile casuale considerata è di tipo discreto.

(2)

213 11.2 La distribuzione Zero-Uno (o di Bernoulli)

Data una popolazione in cui N1 unità possiedono una certa caratteristica A, mentre N2 non la possiedono, si consideri l’esperimento che consiste nell’estrarre in modo casuale una singola unità per controllare se possiede o meno la caratteristica in esame. In generale, la situazione presa in esame consiste in una prova il cui risultato è dicotomico, ossia può assumere due sole modalità (assente/presente, positivo/negativo, maschio/femmina, alto/basso) che in genere sono chiamate successo e insuccesso.

La situazione può essere schematizzata facendo riferimento a un’urna contenente N palline, di cui N1

bianche e N2 nere (con N = N1+ N2). Se il successo nella prova corrisponde, per esempio, al verificarsi dell'evento 1 "uscita di una pallina bianca", mentre l’insuccesso corrisponde al verificarsi dell'evento complementare "uscita di una pallina nera", il rapporto

= N1/N

corrisponde alla probabilità del successo, pari alla proporzione di palline bianche contenute nell’urna, purché il sistema di sorteggio assegni a ogni pallina la stessa probabilità di essere estratta. L'evento corrispondente all’insuccesso ha quindi probabilità 1.

Il risultato dell'esperimento può essere descritto utilizzando la v.c. X "numero di palline bianche estratte"

che assume il valore 1 (quando si verifica il successo) con probabilità  ed il valore 0 (quando si verifica l'insuccesso) con probabilità 1.

La v.c. X così definita è detta variabile Zero-Uno o di Bernoulli.

La v.c. Zero-uno è una v.c. discreta che in una prova può assumere i due soli valori zero ed uno con probabilità rispettivamente pari a 1 e .

La distribuzione di probabilità di una v.c. Zero-uno è completamente specificata dal valore dell’unico parametro  e può essere descritta mediante una tabella analoga alla 11.2.1

Tabella 11.2.1

Distribuzione di una v.c. Zero-uno o di Bernoulli

x P(x)

0 1

1 

1 o mediante la f.p.

(3)

f(x) = x(1)1x x = 0, 1; 0 < < 1. 11.2.1

Il generico momento dall’origine di ordine r della v.c. Zero-Uno è pari a

E(X r) = r×(1)1x + r×= 

per cui il suo valore atteso è

E(X) =  =   11.2.2

mentre la varianza è

2 = E(X)2 = E(X2) E(X)]2 =  2 =   11.2.3

Si consideri, per esempio, una popolazione di 20 individui di cui 15 sono occupati e 5 disoccupati e un esperimento che consiste nell’estrarre in modo casuale un individuo per controllare se è occupato o disoccupato. Indicata con X la v.c. “numero di individui disoccupati”, la sua f.p. assume la forma riportata nella tabella 11.2.2

Tabella 11.2.2

Esempio di distribuzione di una v.c. Zero-uno

x P(x)

0 0.

1 0.

1.00 che può essere descritta anche mediante l’espressione equivalente

f(x) = 0.25x × 0.751-x x = 0, 1.

Il valore atteso e la varianza della X assumono rispettivamente i valori  = 0.25 e 2 = 0.1875

(4)

215 Esempio 11.2.1

Considerata una moneta truccata in cui la probabilità di ottenere la faccia testa è il doppio della probabilità di ottenere la faccia croce, si consideri l’esperimento che consiste nel lanciare una volta la moneta e sia X la v.c.

“numero di croci ottenute”. Determinare la sua funzione di massa, il valore atteso e la varianza.

Indicato con E l’evento “uscita della faccia croce” e con Ec l’evento “uscita della faccia testa” le probabilità corrispondenti devono verificare le due condizioni seguenti

P(E) + P(Ec) = 1 P(Ec) = 2P(E)

da cui, sostituendo 2P(E) al posto di P(Ec) nella prima uguaglianza, si ottiene 2P(E) + P(E) =1

e quindi P(E) =1/3, La f.p. della v.c. X è quindi

f(x) = (1/3)x × (2/3)1-x x = 0, 1.

Esempio 11.2.2

Considerato un esperimento che consiste nel lancio di un dado equilibrato si consideri la v.c. X che assume valore 1 se si ottiene la faccia contrassegnata da 6 punti e valore 0 in caso contrario. Determinare l’espressione della funzione di probabilità della v.c. X, il suo valore atteso e il coefficiente di variazione.

Sia la probabilità di ottenere la faccia contrassegnata da 6 punti.

La funzione di probabilità di X è

f(x) = P(X=x) = (1/6)x × (5/6)1-x x = 0, 1 E(X) = = 1/6

V(X) = × = 1/6×5/6 = 5/36 6 5

/ 1

6

5 

CV

Esempio 11.2.3

Considerata una moneta truccata in modo che la faccia testa abbia una probabilità tripla rispetto alla faccia croce, determinare l’espressione della funzione di probabilità della v.c. X “numero di teste ottenute nel lancio di una moneta” e determinarne valore atteso e deviazione standard.

Soluzione

Sia la probabilità di ottenere la faccia testa, per cui è la probabilità di ottenere la faccia croce. Dalla somma

+ = 1 si ottiene

=3/4

La funzione di probabilità di X è

f(x) = P(X=x) = (3/4)x × (1/4)1-x x = 0, 1 E(X) = = 3/4

V(X) = × = 3/4×1/4 = 3/16

x=

4 3

(5)

11.3 La distribuzione Binomiale

Data un’urna contenente N1 palline bianche e N2 palline nere (con N = N1+N2) si consideri l’esperimento che consiste nell’estrarre un campione casuale di n palline per contare il numero di successi ottenuti che, per esempio, possono corrispondere alle palline bianche estratte. Se l’estrazione è effettuata con ripetizione, ossia reinserendo ogni pallina estratta nell’urna prima di procedere a una nuova estrazione, i possibili risultati delle n prove risultano indipendenti fra di loro, in quanto la composizione dell’urna resta la medesima in ognuna delle n estrazioni.

Indicata ancora con  = N1/N la proporzione di palline bianche contenute nell’urna, se il sistema di sorteggio assegna a ogni pallina la stessa probabilità di essere estratta, la probabilità di ottenere un numero y di successi (con 0  y  n) ed ny insuccessi in un dato ordine è

y(1)ny, 11.3.1

In generale, però, in esperimenti come quello considerato non interessa l’ordine in cui le palline sono state estratte, ma solo il numero di successi ottenuti.

Per esempio, in un esperimento che consiste nel lancio di un certo numero di dadi si può essere interessati al numero di facce con 6 punti o al numero di punteggi dispari, mentre nel caso del lancio ripetuto di una moneta si può essere interessati a determinare il numero di “teste” o di “croci”. In questi casi non interessa conoscere in quali lanci si sia ottenuto un particolare risultato, ma solo il numero di risultati di un certo tipo. Pertanto, considerata l’urna con palline bianche e nere, si è quindi generalmente interessati a determinare la distribuzione di probabilità della v.c. Y “numero di palline bianche estratte”, dove y rappresenta il numero dei successi e ny il numero degli insuccessi.

La Y è evidentemente una v.c. discreta che può assumere i valori y = 0, 1, ..., n e la probabilità che Y risulti uguale a y corrisponde alla somma delle probabilità associate a tutte le ennuple che contengono y palline bianche ed ny palline nere, indipendentemente dall’ordine, ossia a tutte quelle ennuple che differiscono fra loro solo per l’ordine in cui si presentano gli y successi e gli ny insuccessi.

Dato che a ciascuna di queste ennuple è associata la probabilità 11.3.1 e che il numero di queste ennuple è uguale a 

 y

n e cioè al numero delle combinazioni1 di n elementi di classe y, la f.p. di Y assume la forma

  

y PYy

f y

 

n y

y

n

 

 

1

, y = 0, 1, ..., n ; 0 < < 1; n  1. 11.3.2

1 La spiegazione del termine “combinazione” è stata illustrata in una nota del paragrafo 8.2

(6)

217

La v.c. Y così definita è detta variabile Binomiale, dato che le probabilità associate ai suoi possibili valori corrispondono ordinatamente ai termini dello sviluppo di Newton della quantità

 

π 1π

n.

Per indicare che una v.c. Y ha una distribuzione di questo tipo si usa la notazione seguente,

Y~ Binomiale(n, )

in cui compaiono i due parametri che caratterizzano la distribuzione.

Si osservi che per n = 1 la variabile Binomiale coincide ovviamente con la variabile Zero-uno.

Data, per esempio, un’urna contenente uno stesso numero di palline bianche, nere e rosse, si consideri l’esperimento che consiste nell’estrarre 4 palline con ripetizione e sia Y la v.c. “numero di palline bianche estratte”. Risulta quindi Y~Binomiale(4, 1/3) e nella tabella 11.3.1 sono indicati i possibili valori della variabile e le probabilità corrispondenti, mentre la sua rappresentazione grafica è illustrata nella figura 11.3.1.

Tabella 11.3.1

Esempio di distribuzione binomiale per n = 4 e  = 1/3

y f(y)

0 0.1975

1 0.3951

2 0.2963

3 0.0988

4 0.0123

Totale 1.0000

Figura 11.3.1

Grafico della f.p. della v.c. binomiale definita nella tabella 11.3.1

0 0,1 0,2 0,3 0,4

0 1 2 3 4

f(y)

Y

(7)

Dalla tabella e dal grafico si nota subito che il valore modale di Y è pari a 1, per cui il risultato più probabile in 4 estrazioni è costituito da 1 pallina bianca e 3 palline di un colore differente. Come si vede, inoltre, è poco probabile che il campione sia composto da 3 palline bianche e 1 pallina nera oppure rossa e vi è poco più di una probabilità su 100 che le palline estratte siano tutte bianche.

Il numero medio di palline bianche, cioè il valore atteso di Y, è pari a 4/3, mentre la sua varianza è uguale a 8/9.

La f.r. di Y assume la forma







4 1

4 3 9877 . 0

3 2 8889 . 0

2 1 5926 . 0

1 0 1975 . 0

0 0

) (

x x x x x x

x F

mentre il grafico corrispondente è riportato nella figura 11.3.2.

Figura 11.3.2

Grafico della f.r. della v.c. binomiale definita nella tabella 11.3.1

Per determinare le caratteristiche della v.c. binomiale Y “numero di successi in n prove” è utile osservare che in ciascuna delle n prove è definita una v.c. Zero-uno Xi (con i = 1, 2, ..., n) “numero di successi alla i- esima prova” che assume valore 0 se si è ottenuto un insuccesso e valore 1 in caso di successo.

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

-2 -1 0 1 2 3 4 5 6

F(y)

Y

(8)

219

La v.c. Y corrisponde semplicemente alla somma di queste n variabili Xi che hanno tutte una stessa funzione di probabilità e risultano indipendenti fra di loro, dato che metodo di estrazione è effettuato con ripetizione. Si ha quindi

n

i

Xi

Y

1

da cui si ottiene in modo molto semplice il valore atteso e la varianza della v.c. binomiale sulla base delle proprietà di combinazioni lineari di variabili casuali. Sulla base delle 10.6.7 e 10.6.8 risulta infatti

) E(X E(Y)

n

i

i

1

11.3.3

 

 

 

1

1

n X V V(Y)

n

i

i , 11.3.4

data l’indipendenza delle Xi.

In alcune situazioni reali si può essere interessati a rilevare la “proporzione” di elementi estratti che presentano una certa caratteristica, invece del “numero” di elementi con tale caratteristica. Così, per esempio, si può essere interessati a conoscere la frazione di spettatori che hanno seguito un determinato programma televisivo, la proporzione di elettori a favore di un referendum abrogativo, la proporzione di articoli difettosi prodotta da un macchinario.

Se si utilizza un’estrazione con ripetizione, la determinazione della distribuzione di probabilità della v.c.

Pˆ “proporzione di successi in n prove” si ottiene dalla distribuzione della v.c. binomiale Y appena definita, dato che

n

PˆY 11.3.5

per cui fra i valori y = 0, 1, ..., n di Y e i valori 1,...,1 ,

ˆ 0

pn di vi è una corrispondenza biunivoca.

La f.p. della v.c. Pˆ si ottiene dalla 11.3.2 della Y tenendo presente l’uguaglianza

Y P nˆ ,

(9)

e può essere posta nella forma

 

p P

 

Pp

f ˆ ˆ ˆ np

 

n p

p n

n ˆ 1 ˆ

ˆ 1



 

1,...,1 ,

ˆ 0

pn ; 0 <  < 1; n  1 11.3.6

per cui ~ n

1Binomiale(n, ).

Il valore atteso e la varianza di Pˆ si ottengono dai corrispondenti valori caratteristici di Y utilizzando le proprietà delle trasformazioni lineari e corrispondono rispettivamente a

 

 

 

  EY

n n E Y P

E ˆ 1 , 11.3.7

     

n Y - n V n V Y P

V ˆ 1 1

2



 

  . 11.3.8

Questi due risultati sono particolarmente importanti perché consentono di fare alcune prime considerazioni sulle caratteristiche dei risultati campionari.

Considerata, per esempio, una popolazione dicotomica assimilabile ad un’urna contenente palline bianche e nere e considerato un esperimento che consiste nell’estrazione di n palline con ripetizione allo scopo di conoscere la proporzione ignota di palline bianche contenute nell’urna, sulla base delle 11.3.7 e 11.3.8 risulta che la proporzione di palline bianche presenti nel campione è uguale, in media, alla proporzione di palline bianche presenti nell’urna e che la varianza della proporzione campionaria diminuisce quando aumenta il numero delle palline estratte, per cui i possibili risultati campionari tendono a concentrarsi intorno alla vera proporzione di palline bianche contenute nell’urna.

Data, per esempio, una popolazione in cui la proporzione di unità statistiche che presentano una certa caratteristica di interesse è pari a  = 0.7, se si estrae un campione casuale con ripetizione di 10 elementi, i possibili valori della proporzione campionaria sono 0,

10

1 , ..., 1 e le probabilità corrispondenti,

ottenute in base alla 11.3.6, sono riportate nella tabella 11.3.2

(10)

221 Tabella 11.3.2

Distribuzione di probabilità della proporzione campionaria. p = 0,7, n= 10

pˆ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

 

p

f ˆ 0.000.. 0.0001 0.0014 0.0090 0.0368 0.1029 0.2001 0.2668 0.2335 0.1211 0.0283

La rappresentazione grafica di questa f.p. è riportata nella successiva figura 11.3.3.

Figura 11.3.3

Rappresentazione grafica della f.p. descritta nella tabella 11.3.2

In questo caso la probabilità che il campione contenga una proporzione di unità statistiche con la caratteristica di interesse inferiore o uguale a 0.2 è molto piccola, mentre è pari a 0.9244 la probabilità che il campione contenga una proporzione di unità con la caratteristica di interesse compresa nell’intervallo [0.5, 0.9]. Come si vede, si ha una probabilità abbastanza elevata che un campione casuale di 10 elementi contenga una proporzione di unità con la caratteristica di interesse pari a quella della popolazione più o meno 0.2 e quindi che la composizione del campione non sia molto diversa da quella della popolazione.

Si può osservare infine che il valore più probabile di in questo caso corrisponde al valore di  nella popolazione.

Esempio 11.3.1

Considerato un test composto da 5 quesiti ciascuno con 5 possibili risposte, di cui solo una corretta, determinare la probabilità che, rispondendo in modo casuale, si risponda correttamente ad almeno 3 quesiti.

Indicata con X la v.c. “numero di quesiti corretti”, la sua distribuzione è una Binomiale di parametri n=5 e =0.2 per cui

       

0.2 0.8 0.2 0.05792

4 8 5 . 0 2 . 3 0 5 5 4

3

3 3 2  4  5



 

 



PX PX P X

X P

o anche 0 0,1 0,2 0,3

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

(11)

         

0.2 0.8 0.05792 2

8 5 . 0 2 . 1 0 8 5 . 0 . 1 2 1

0 1

3 5 4 2 3





  



 

 



PX PX PX

X P

Esempio 11.3.2

Sapendo che il 5% degli articoli prodotti da un macchinario non rispetta gli standard richiesti, determinare la probabilità che estraendo in modo casuale 10 articoli con ripetizione, il numero di quelli che non rispettano gli standard richiesti sia: a) zero; b) 1; c) non più di 2.

Estraendo in modo casuale 1000 elementi, determinare il valore atteso e la varianza della v.c. ‘numero di articoli che non rispettano gli standard’.

Indicata con X la v.c. “numero di articoli che non rispettano gli standard”, le probabilità richieste sono:

a) P

X0

0.95100.5987

b)

 

0.05 0.95 0.1937 1

1 10  9



X P

c) P

X2

 

PX0

 

PX1

 

PX2

0.59870.19370.07460.867

Per n = 1000 il valore atteso e la varianza della v.c. X sono uguali a E(X) = 1000×0.05 = 50

V(X) = 1000×0.05×0.95 = 47.5

Esempio 11.3.3

Considerata una v.c. X che si distribuisce come una Binomiale di valore atteso 8 e varianza 1.6, si determini il valore dei suoi parametri e si calcoli la probabilità che X risulti: a) maggiore di 9; b) minore di 2.

Dal sistema

 



6 . 1 1

8

n n

si ottengono le soluzioni n=10 e =0.8.

Le probabilità richieste risultano

a) P

X9

 

PX10

0.8100.1073741824

b)

     

0.8 0.2 0.0000041984

1 2 10 . 0 1 0

2 10   9



PX PX

X P

(12)

223 11.4 La distribuzione Normale

Il più importante modello teorico per le variabili casuali continue è costituito dalla distribuzione normale o di Gauss. Una v.c. X si distribuisce come una normale quando la sua f.d. assume la forma seguente

2

2 1

2 ) 1 (

 

x

e x

f ,   x  +;    +; 2  0 11.4.1

in cui il parametro  corrisponde alla moda, al valore atteso e alla mediana della distribuzione, mentre il parametro  corrisponde alla deviazione standard ed indica quindi il grado di addensamento dei valori della variabile intorno a .

Nella figura successiva sono riportati i grafici di alcune distribuzioni normali per diversi valori dei suoi parametri2.

Figura 11.4.1

Rappresentazione grafica di alcune distribuzioni normali

2 https://it.wikipedia.org/wiki/Distribuzione_normale

(13)

Per indicare che una v.c. X si distribuisce in modo normale con media  e varianza 2 si usa la notazione abbreviata

X ~ N(, 2).

Questo modello risulta adeguato in numerose situazioni reali perché molti fenomeni quantitativi in natura tendono a distribuirsi in modo normale.

- In biologia il modello normale consente di approssimare i risultati delle misurazioni di alcune caratteristiche fisiche di esseri viventi, come l'altezza, il peso, l'apertura alare, la circonferenza toracica, il diametro delle cellule.

- In fisica il modello normale viene utilizzato diffusamente nell'ambito della Teoria degli errori di misura, secondo la quale si suppone che ogni grandezza fisica abbia una misura "vera" che però non è osservabile perché le misurazioni stesse sono soggette ad errori. Questi errori si distinguono in errori sistematici (dovuti, per esempio, alla sensibilità degli strumenti e agli eventuali difetti di fabbricazione) e in errori casuali (dovuti a fattori non controllabili, come per esempio le variazioni delle condizioni ambientali). Mentre il primo tipo di errore tende a causare una sistematica sottostima o sovrastima del valore vero, gli errori accidentali portano a misurazioni che si discostano per difetto e per eccesso dal valore "vero" solo per effetto del caso. Se si effettuano n misurazioni di una determinata grandezza fisica, nelle condizioni quanto più simili possibile, la distribuzione delle misurazioni ottenute risulta essere bene approssimata da una distribuzione normale il cui valore atteso μ è considerata il valore "vero" ignoto. La media aritmetica dei valori misurati è da considerarsi il valore più attendibile per la misura "vera" ed è presa proprio quale stima del parametro ignoto μ. Questo è il motivo per cui la distribuzione normale viene detta anche distribuzione degli errori accidentali.

- In statistica e nella teoria della probabilità il modello normale è essenziale nelle diverse formulazioni del cosiddetto teorema limite fondamentale (o teorema limite centrale) in base al quale si dimostra che la somma (o la media) di un numero elevato di variabili casuali indipendenti e identicamente distribuite (i.i.d.) tende distribuirsi in modo normale, indipendentemente dalla distribuzione delle singole variabili. Questo teorema ha un'importanza enorme in Statistica perché consente di ottenere la forma della distribuzione della somma (o della media) di n v.c. i.i.d. di distribuzione ignota quando il numero delle v.c. stesse è elevato.

La funzione di ripartizione del modello 11.4.1 assume la forma seguente

(14)

225

 

x

t

dt e

x F

2

2 1

2 ) 1

(

11.4.2

che non può essere formulata esplicitamente in quanto non è nota la primitiva della funzione integranda, ma che può essere calcolata numericamente in modo approssimato.

Per ottenere i valori della f.r. di una v.c. X ~ N(, 2) occorre innanzitutto utilizzare la seguente trasformazione di standardizzazione

X

Z 11.4.3

da cui risulta



Z X

e anche

d z dx

per cui la 11.4.2 assume la forma

   

 

 

 

 

z x

x

z x z

dz e x

F

2

2 1

2 ) 1

( 11.4.4

La funzione3

  

z z e t dt

2

2 1

2 1

11.4.5

corrisponde alla funzione di ripartizione della variabile Z avente f.d. normale di parametri  = 0 e 2 = 1,

3Il simbolo  si legge “ fi ”.

(15)

Z ~ N(, 1),

che è anche detta variabile normale standardizzata.

I valori approssimati della f.r. di Z, ottenuti attraverso opportune procedure numeriche di calcolo, sono riportati in apposite tavole, analoghe alla Tavola A, riportata in Appendice.

In questa tavola sono elencati sulla prima colonna alcuni valori z di Z con una cifra decimale e sulla seconda colonna i corrispondenti valori di (z) per cui, per esempio, in corrispondenza del valore z = 0.7 sulla seconda colonna è riportato il valore (0.7) = 0.758 che corrisponde all’integrale 11.4.5 nell’intervallo (, 0.7].

Il valore della f.r. con due cifre decimali si ottengono spostandosi sulla destra, fino a incontrare la colonna che riporta sull’intestazione la seconda cifra decimale. Per esempio, la f.r. in corrispondenza di z = 0.72 si determina procedendo verso destra sulla stessa riga di z = 0.7 fino ad incontrare la colonna che ha sull’intestazione il valore 0.02, ottenendo il risultato (0.72) = 0.7642.

I valori della f.r. per valori z di Z negativi si ottengono dalla stessa tavola, tenendo presente che, a causa della simmetria della variabile intorno allo zero, si ha

) ( 1 )

(z   z

 .

I valori della f.r. 11.4.2 della variabile X per qualsiasi valore assunto da x,  e 2 si ottengono semplicemente calcolando il valore

x z

ed individuando sulla tavola il corrispondente valore di

 

z x 

 

 



.

Come per il calcolo della f.r., anche il calcolo dei quantili può essere effettuato con la precisione desiderata mediante opportune procedure numeriche ed anche in questo caso esistono delle tavole, analoghe a quella riportata nell’Appendice B, che forniscono i valori dei quantili di Z di uso più comune.

Questi quantili sono definiti formalmente dall’equazione

(16)

227

xp p



 

 

 

0 < p < 1

da cui, applicando la funzione inversa 1 ad entrambi i termini dell’uguaglianza, si ricava

p

p p z

x

1( )

dove 1(p) è il quantile zp di ordine p della normale standardizzata Z.

I quantili xp di una v.c. normale X ~ N(, 2) si ottengono quindi dalla trasformazione lineare dei quantili zp dello stesso ordine della v.c. Z ~ N(, 1).

Esempio 11.4.1

Data una v.c. X con distribuzione N(2, 9) determinare la probabilità che X assuma un valore: a) inferiore a -3, b) superiore a 0, c) compreso fra 1 e 1.

Determinare inoltre il valore dei quantili x0.025, x0.5 e x0.975.

a)

0.33

1

 

0.33 1 0.6293 0.3707

3 2 -3) 3

P(      

 

 

X

b) 1

 

0.67 1 0.7486 0.2514

3 2 1 0

0) P(

- 1 0)

P(     

 

 

X

X

c)

   

1 0.33 0.8413 0.6293 0.212

3 2 1 3

2 -1) 1

P(

1) P(

1)

P(-1     

 

 



 

 

X X X

I tre quartili risultano

x0.025 = 2 + 3×(1.96) = 7.88 x0.5 = 2

x0.975 = 2 + 3×(1.96) = 3.88

La distribuzione normale verifica alcune importanti proprietà che non verranno dimostrate in questa sede, ma che risultano particolarmente utili nell’inferenza statistica.

Prima proprietà

Si può dimostrare che, data una v.c. X ~ N(x, 𝜎𝑥2), ogni sua trasformazione lineare del tipo Y = a + bX ha una distribuzione N(a + bx, b2𝜎𝑥2)

In base a questa proprietà, quindi, la trasformata lineare di una v.c. normale è ancora normale con un valore atteso e una varianza che si ottengono in base alle proprietà delle trasformazioni lineari.

Un’applicazione di questa proprietà è stata utilizzata in precedenza, nel caso della trasformazione di standardizzazione 11.4.3.

(17)

Seconda proprietà

Si può dimostrare che, date k v.c. Xi ~ N(i, 𝜎𝑖2), ogni loro combinazione lineare del tipo Z = a + b1X1 + b2X2 + …+ bkXk ha ancora, a meno di alcuni casi anomali, una distribuzione normale il cui valore atteso e la cui varianza derivano dalle proprietà delle combinazioni lineari.

La terza proprietà è quella più importante di tutte, in quanto fondamentale nell’inferenza statistica quando non si conosce la distribuzione della variabile di interesse nella popolazione, ma si intende stimarne la sua media, oppure quando si desidera stimare la proporzione di individui che presentano una certa caratteristica.

Terza proprietà (Teorema limite centrale)

Si può dimostrare che, date n v.c. Xi i.i.d. di valore atteso  e varianza 2, la loro somma

T = X1 + X2 + … + Xk =

k

i

Xi 1

ha una distribuzione che può essere approssimata, al crescere di n, da una N(n, n2).

Se di tali variabili si considera invece la media aritmetica

  

k

i i

k X

X k X

k X X

1 2

1

... 1 1

la sua distribuzione può essere approssimata, al crescere di n, da una N(, 2/n).

Esempio 11.4.2

Sia X una variabile normale di valore atteso 10 e deviazione standard 6 e sia Y una variabile indipendente da X, con distribuzione normale di valore atteso e deviazione standard 2. Calcolare P(X<10, Y>12).

 

 

0114 . 0 0.0228 0.5

) 12 , 10 P(

0228 . 0 2 2 1

8 1 12

) 12 P(

5 . 0 6 0

10 ) 10

10 P(



 

 



 

 

Y X Y X

(18)

229 Esempio 11.4.3

Sia X una variabile normale con valore atteso 8 e varianza 2 e sia Y una variabile indipendente da X, con distribuzione normale con valore atteso 4 e varianza 8. Calcolare P[(2XY)>10].

Occorre innanzitutto calcolare il valore atteso e la varianza di 2XY che risultano rispettivamente uguali a

     

22

24

   

 4282481612

Y V X V Y X V

Y E X E Y X E

per cui la probabilità cercata risulta pari a

 

 

1 Φ

0.5

1

1 Φ

 

05

06915 4

12 Φ 10 1 10

2X Y . . .

P       

 

  

Esempio 11.4.4

4. Si considerino le variabili X ~ N(10, 2) e Y ~ N(8, 3). Sapendo che Cov(X, Y)=5.5, calcolare P[(XY) < 1].

Il valore atteso e la varianza della v.c. XY risultano

   

V( ) 2Cov( , ) 2 3 2

5.5

16 )

V(

2 8 10 ) E(

) E(

Y X Y

X V Y X

Y X E Y X

per cui la probabilità cercata risulta pari a

  

0.25

1

 

0.25 1 0.5987 0.4013 4

2 1 1

) (

P      

 

 

Y X

Nota

Anche se una qualsiasi v.c. normale X ~ N(, 2) è definita su tutto l’asse reale, è opportuno sottolineare come la quasi totalità della massa probabilistica della sua distribuzione è contenuta all’interno dell’intervallo (3, +3), come risulta immediatamente calcolando la probabilità

P(3 ≤ X ≤+3) = P(X ≤+3)  P(X ≤ 3) =

3 3 

     

3 3 3 

1

 

3

2

 

3 10.9974

 

  



 

  

   

 

(19)

11.5 La distribuzione Chi-quadrato

Dalla v.c. normale standardizzata si ottengono le distribuzioni di probabilità di altre v.c. trasformate che sono utilizzate frequentemente nell’inferenza statistica.

In particolare, la somma dei quadrati di k v.c. normali standardizzate indipendenti Zi ~ N(, 1), (per i = 1, 2, …, k)

k

i i

k Z

1 2

2 11.5.1

corrisponde a una variabile chi-quadrato con k gradi di libertà (g.d.l.), dove i g.d.l. rappresentano il parametro che caratterizza la funzione di densità di probabilità della variabile. Nella figura 11.5.1 sono indicati i grafici4 di alcune v.c. chi-quadrato per diversi valori dei gradi di libertà.

Figura 11.5.1

Grafico delle f.d. di variabili chi-quadrato per diversi valori dei gradi di libertà

Il valore atteso e la varianza di questa variabile sono pari rispettivamente a

4https://it.wikipedia.org/wiki/Distribuzione_chi_quadrato

(20)

231

 

k

E

χ

k2  11.5.2

 

k

V

χ

k2 2 . 11.5.3

Come nel caso della v.c. normale, anche per la v.c. chi-quadrato non esiste una espressione esplicita della sua f.r. per cui i valori di tale funzione, calcolati approssimativamente con opportune procedure numeriche, sono contenuti in apposite tavole, analoghe a quella riportata nell’appendice C che, per diversi valori dei g.d.l. forniscono i quantili di ordine p,

k2, p, ossia quei valori della variabile chi-quadrato con k gradi di libertà che isolano alla loro sinistra un’area pari a p (con 0 < p < 1).

Così, per esempio, considerato un numero di g.d.l. pari a 10, il quantile di ordine 0.05 corrisponde a 3.94, mentre il quantile di ordine 0.99 è pari a 23.21.

Al crescere del numero k di g.d.l. anche la distribuzione chi-quadrato tende, in accordo con il teorema limite centrale, ad una distribuzione normale, i cui parametri corrispondono ovviamente alle precedenti espressioni 11.5.2 e 11.5.3. In generale questa approssimazione viene utilizzata per un numero di g.d.l.

maggiore di 50.

(21)

11.6 La distribuzione t di Student

Considerata una variabile Z ~ N(, 1) ed una variabile chi-quadrato con k g.d.l. tra loro indipendenti, il rapporto

k t Z

k

k

2 11.6.1

dà origine alla cosiddetta variabile t di Student con k gradi di libertà.

Anche questa variabile è caratterizzata da un solo parametro, sempre chiamato gradi di libertà, il cui valore corrisponde al numero dei g.d.l. della variabile chi-quadrato che compare al denominatore nella 11.6.1, per cui la t di Student viene comunemente indicata con la notazione tk.

La tk è definita su tutto l’asse reale e la sua f.d. ha una forma campanulare ed è simmetrica rispetto allo 0, che rappresenta la moda, il valore atteso e la mediana della distribuzione mentre la sua varianza è pari a k/(k2), per k > 2.

Dalla figura 11.6.1 che riporta alcuni grafici5 della sua f.d. per diversi valori dei g.d.l., risulta chiaramente che la forma di tali distribuzioni è abbastanza simile alla forma della normale standardizzata, anche se le sue code sono più “pesanti”, per cui la sua curtosi, misurata dall’indice 4.5.2, risulta maggiore di 3.

Figura 11.6.1

Grafico di alcune f.d. di variabili t di Student per diversi valori dei gradi di libertà

5https://it.wikipedia.org/wiki/Distribuzione_t_di_Student

(22)

233

Al crescere di k la distribuzione di tk tende rapidamente alla distribuzione normale N(0, 1), tanto che per un valore k > 30 i valori della sua f.r. e dei suoi quantili vengono approssimati dai valori della f.r. e dei quantili della normale standard.

Come nei casi precedenti, anche per la v.c. t di Student non esiste l’espressione esplicita della sua f.r. ma i suoi valori, calcolati approssimativamente con opportune procedure numeriche, sono contenuti in apposite tavole, analoghe a quella riportata nell’Appendice D.

Analogamente al caso della variabile chi-quadrato, la tavola D riporta, per un valore dei g.d.l. compreso fra 1 e 30, i quantili di ordine p, tk,p, ossia quei valori della variabile che isolano alla loro sinistra un’area pari a p (con 0.5 < p < 1).

Data la simmetria della distribuzione, la tavola riporta i soli quantili positivi, dato che i quantili di ordine 1p corrispondono ai quantili di ordine p presi con il segno negativo.

Per esempio, il quantile di ordine 0.025 della t9, ossia t9,0.025, corrisponde al quantile di ordine 0.975 cambiato di segno, per cui è pari a –2.262, mentre il quantile di ordine 0.01 della t25 è pari a 2.485.

Riferimenti

Documenti correlati

Si eseguono estrazioni ripetute

I risultati saranno appena possibile sul sito http://matematica.univaq.it/˜cancrini/probabilita Visione dei compiti /orale/ verbalizzazione: lunedi 10.4.2006 ore 14.15 studio IV

ALL03 VERIFICA SOMMATIVA SUL CALCOLO DELLA PROBABILITA'. Tempo a disposizione: 1:30 ora dalla consegna. E' consentito l'uso della calcolatrice.

La seconda contiene n−k palline bianche mentre le restanti sono nere.. Supponiamo di estrarre dalla urna 1 una pallina ed inserirla

3.1 Considerato un esperimento che consiste nel lanciare due volte un dado in cui le facce contrassegnate con 1 e 2 punti hanno probabilità doppia rispetto alle altre,

, x 16 un campione, composto da 16 osservazioni indipendenti ed identi- camente distribuite, proveniente da una distribuzione normale con varianza incognita... [5 pt] Si enunci

Quanti tipi di coni a due palline si possono scegliere se la gelateria offre 3

Catena doppiamente infinita: In questo caso i modi normali sono dati dal- le (11), con la relazione di dispersione (12).. Gli spettri di frequenze e di numeri d’onda sono continui