• Non ci sono risultati.

Elementi di probabilita utili per la Statistica

N/A
N/A
Protected

Academic year: 2022

Condividi "Elementi di probabilita utili per la Statistica"

Copied!
11
0
0

Testo completo

(1)

Elementi di probabilita’ utili per la Statistica

Scalia Tomba March 23, 2020

1 Com’erano pensate le prime settimane...

2/3 Intro (tesine)... Birthdays, inclusion-exclusion, indicators, rencontres 4/3 Calcolo con distribuzioni, distr univariate

9/3 Demo R, numeri pseudo-aleatori, simulazione e LLN, CLT and 12 U[0,1]

11/3 Integrali multipli, convoluzione,distr congiunte.

16/3 Convergenza in distribuzione, Normale + multivariata + CLT multivar 18/3 Legge limite del massimo + Bin →Poisson

Questo contenuto corrisponde grosso modo a pezzi dei 5 primi capitoli del libro Casella & Berger Statistical Inference... + il linguaggio R

Come aiuto per iniziare con R, mettero’ in rete (Didattica.web → Statistica) un libro/manuale di Statistica con R, in origine scritto per biologi, ma va bene lo stesso... Ricordatevi del sito base di R, www.r-project.org ...

Passeremo una settimana o due a perfezionare questa parte con spiegazioni ed esercizi, poi passiamo a Statistica...

Adesso provo a riassumere le parti importanti e indicare gli esercizi necessari.

1.1 Tesine

Verso la fine del corso, assegnero’ delle tesine da fare, con teoria e R, a quelli che vogliono fare l’esame... A secondo di COVID, vedremo la forma esatta dell’esame finale...

(2)

2 La prima settimana, richiami e ampliamenti...

I problemi del primo giorno richiamano cose semplici, ma con generalizzazioni...

Birthdays e’ un problema semplice: se ci sono n persone con date di nascita scelte a caso, quanto e’ probabile che ce ne siano almeno due con lo stesso compleanno (dunque 365 giorni ugualmente probabili, per semplificare...). In realta’ en prob- lema di tipo multinomiale: quanto bisogna aspettare perche capitino due palline nella stessa casella se si lanciano palline a caso nelle 365 caselle... La soluzione e’ anche semplice, si passa alla probabilita’ di non avere compleanni uguali in k persone scelte a caso (poi si fara’ 1 - P)...

P(0 uguali) = 365365 × 364365 × . . . × 365−(k−1)365 =Qk−1

i=0(1 −365i )

Questo prodotto non e’ molto semplice da stimare direttamente, si puo’ calcolare numericamente ma una una stima molto accurata si ottiene con l’approssimazione e−x ≈ 1 − x, per x ≈ 0. Il vantaggio e’ che gli esponenti si possono sommare...

Dunque P(0 uguali) ≈ exp(−(0 + 1 + . . . + (k − 1))/365) = exp(−k(k − 1)/730).

Adesso si puo’ vedere, per avere per esempio exp(−a) = 0.05 serve a = 3 e per avere k(k − 1)/730 = 3 serve k tra 47 e 48. Dunque bastano 48 persone per essere 95% sicuri di trovare due compleanni uguali... Questo e’ un risultato un po’ sor- prendente...

Inclusion-exclusion e’ la generalizzazione della formula fondamentale P (A ∪ B) = P (A) + P (B) − P (A ∩ B) a piu’ di due insiemi... La formula finale per P (A1 ∪ A2 ∪ . . . ∪ An) e’ piu’ facile a parole che in simboli: somma delle singole proba- bilita’ P (Ai), meno la somma di tutte le probabilita’ di intersezioni di due insiemi P (Ai ∩ Aj), piu’ somma di tutte le probabilita’ di intersezioni di tre insiemi, e cosi’ via fino alla probabilita’ finale, con segno + o - secondo la parita’ di n, dell’intersezione di tutti gli insiemi, P (A1 ∩ A2 ∩ . . . ∩ An). Questa formula e’ di interesse normalmente teorico, poiche’ contiene presto troppi termini per essere di interesse pratico. Infatti, i termini singoli sono n1, quelli con due insiemi n2, e cosi’ via... Poi si sa cheP

k n

k = 2n . . .

Una dimostrazione interessante della formula di inclusione-esclusione si ottiene con un po’ di calcolo ”booleano”... Si inizia con osservare che se si calcola il valore at- teso di una variabile indicatrice, cioe’ X=1 se succede A, se no X=0, e’ uguale a P(A). Indicando una tale variabile con 1A, si vede che 1AC = 1 − 1A, 1A∩B = 1A1B e 1A∪B = 1A + 1B − 1A1B. Questi simboli tramutano dunque operazioni su in- siemi in operzioni su variabili 0/1, cioe’ booleane. Adesso una delle formule di De Morgan dicono che P ((A1∪ A2∪ . . . ∪ An)C) = 1 − P (A1 ∪ A2∪ . . . ∪ An) = P (AC1∩. . .∩ACn) = E((1−1A1) . . . (1−1An)). Ma essendo quest’ultimo un prodotto

(3)

tra quantita’ numeriche, si puo’ esplicitare come 1 − (1A1+ . . . + 1An) + (1A11A2+ . . . + 1A11An+ 1A21A3+ . . . + 1An−11An) − . . . ± 1A1. . . 1An. Facendo adesso E(.) su ogni termine viene la formula desiderata...

Finalmente, questa formula serve per risolvere un altro problema famoso, il prob- lema delle rencontres (incontri...) Si puo’ formulare scherzosamente come ”rac- cogliere i documenti di n persone, ridarli a caso e constatare che nessuno ha avuto quello giusto...”. Piu’ matematicamente, iniziando con i numeri da 1 a n, pen- sando all’insieme di tutte le n! permutazioni di questi numeri e scegliendo una di queste permutazioni a caso, confrontandola poi con la sequenza originale, trovare che nessun numero coincide... La domanda e’: quant’e’ la probabilita’ che questo succeda, cioe’ di 0 coincidenze (poi ci si puo’ chiedere qual e’ la probabilita’ di 1, 2, ecc coincidenze...).

Riformulando la domanda in termini degli eventi Ak = {l’elemento k:esimo e’ k}, la domanda diventa 1−P (A1∪A2∪. . .∪An), poiche’ l’unione vuol dire ’almeno uno coincide”. Le intersezioni previste nella formula di inclusione-esclusione significano due o piu’ elementi ”sono al posto giusto” e le relative probabilita’ sono facili da calcolare data la struttura delle permutazioni. Per esempio se si vuole che tre elementi particolari (ci sono n3 scelte differenti di questi tre elementi...) siano ai posti giusti, uno ”li mette li’” e poi lascia permutare i rimanenti (n-3) elementi a piacere,,, Dunque la probabilita’ sara’ (n−3)!n! e, visto che la probabilita’ sara’ la stessa per ogni scelta di tre elementi, la somma prevista nella formula di I-E per termini con tre insiemi sara’ n3(n−3)!

n! = 3!1. Pensando cosi’ per ogni ordine di intersezioni, avremo

1 − P (A1∪ A2∪ . . . ∪ An) = 1 − (1 1! − 1

2! ± 1 n!) =

n

X

0

(−1)k 1 k!

poiche’ 1/0! = 1. Ma questo e’ l’inizio della serie di Taylor per exp(−1), che converge molto rapidamente, e dunque la probabilita’ ricercata di 0 ”incontri” si avvicina, con n crescente, molto rapidamente a exp(−1) = 0.37 e rimane cosi’ per tutti i valori grandi di n...

Questi problemi dovrebbero avere l’effetto di ”ravvivare” le cognizioni precedenti di probabilita’ e di aggiungere qualcosa a queste..

I richiami a come maneggiare distribuzioni univariate di probabilita’, cioe’ relative a una variabile aleatoria, sono fondamentali... Questo corrisponde piu’ o meno ai primi 3 capitoli del libro Casella & Berger Le sezioni 2.3, 2.4, 3.4, 3.5 e 3.6 potrebbero contenere qualche elemento di novita’... e adesso ne parliamo...

(4)

La sezione 2.3 presenta le funzioni generatrici di momenti. Il momento k:esimo di una variabile X (o della sua distribuzione) e’ E(Xk) (il momento centrato e’

E((X − E(X))k); il primo momento di una variabile e’ il suo valore atteso, il secondo centrato e’ la sua varianza, ecc). In particolare valore atteso e varianza seguono regole generali molto utili per trasformazioni lineari di variabile e per somme:

E(aX + b) = aE(X) + b ,

E(X + Y ) = E(X) + E(Y ) ,

E(XY ) = E(X)E(Y ) , se X e Y sono indipendenti,

V ar(aX + b) = a2V ar(X) ,

V ar(X + Y ) = V ar(X) + V ar(Y ) , se X e Y sono indipendenti.

La funzione generatrice dei momenti e’ un aiuto soprattutto tecnico per il calcolo di momenti e’ puo’ definirsi in modi un po’ differenti secondo il tipo di distribuzione (discreto o continuo...), ma non solo...

Consideriamo X ∼ Bin(n, p) e calcoliamo g(s) = E(sX) = Pn

k=0sk nkpk(1 − p)n−k = (1−p+ps)n, secondo la formula binomiale di Newton. Questa funzione ha molte proprieta’ interessanti, per esempio g(1) = 1, poiche’ corrisponde alla somma di tutte le probabilita’ della distribuzione, g0(s) =Pn

k=1ksk−1 nkpk(1 − p)n−k ma anche pn(1 − p + ps)n−1, per cui g0(1) corrisponde alla somma che definisce E(X), la seconda derivata g00(s) =Pn

k=2k(k − 1)sk−2 nkpk(1 − p)n−k, per cui g00(1) cor- risponde a E(X(X − 1)) = E(X2) − E(X), da cui si puo’ poi calcolare la varianza V ar(X) = E(X2) − E(X)2, ecc... Un fatto piu’ ”astratto” e’ che conoscere g(s) significa conoscere la distribuzione di X ( in teoria, derivando g(s) e ponendo s=0, si ottengono una dopo l’altra tutte le singole probabilita’ della distribuzione, nel caso discreto...) e anche che l’uso di questo tipo di funzione permette di stabilire la convergenza in distribuzione di variabili, di cui parleremo dopo...

Un altro fatto interessante, se abbiamo due variabili indipendenti X e Y e le corrispondenti funzioni generatrici gX(s) = E(sX) e gY(s) = E(sY) e vogliamo sapere la funzione generatrice della somma X + Y , cioe’ gX+Y = E(sX+Y) = E(sX)E(sY) = gX(s)gY(S), poiche’ sX e sY sono indipendenti, e’ che possiamo,

(5)

semplicemente riconoscendo di quale distribuzione gX+Y e’ funzione generatrice, dire qual e’ la distribuzione di X+Y. Per esempio se X e Y sono indipendenti,X ∼ Bin(n, p) e Y ∼ Bin(m, p), le corrispondenti funzioni generatrici sono (1−p+ps)n e (1 − p + ps)m, il prodotto e’ (1 − p + ps)n+m, questa e’ la funzione generatrice di Bin(n+m,p), dunque X + Y ∼ Bin(n + m, p).

Non e’ necessario definire la funzione generatrice come E(sX), che tutto sommato funziona bene solo per variabili discrete con valori non-negativi, si puo’ invece definire come E(esX) o perfino E(eisX) (dove i e’ l’unita’ immaginaria...) e, anche se cambiano un po’ di dettagli, la funzione rimane la stessa...

La sezione 2.4 descrive un’operazione utile in analisi matematica, lo scambio di due processi di limite e quando lo scambio non influenza il risultato. Un classico problema in analisi concerne la convergenza di una sequenza di funzioni gn(x) a una funzione limite g(x), quando n tende all’infinito. Ci si puo’ allora chiedere se, per esempio, le derivate g0n(x) convergono a g0(x). Ricordando che la derivata di una funzione e’ un’operazione di limite, la domanda diventa ”il limite delle derivate e’ uguale alla derivata del limite?”, cioe’ se e’ permesso scambiare l’ordine delle due operazioni.

Ci sono molti esempi di questo tipo di scambio di ordine e uno particolarmente interessante per questioni statistiche teoriche e’ lo scambio tra integrazione e derivazione in un argomento che compare nell’integrale (vedere formula (2.4.1), variabile θ). la regola generale e’ che questi scambi di ordine sono permessi sotto certe condizioni, generalmente espresse in libri di analisi matematica, oppure nella sezione 2.4, che sono spesso soddisfatte, in particolare in tutti i casi normalmente sotto esame. Comunque leggere i dettagli e’ utile per la cultura matematica gen- erale...

Il capitolo 3 inizia con molti esempi e risultati su varie distribuzioni particolari, discrete e continue, e tutti questi risultati sono utili per il seguito. Le 3 prime sezioni sono d’obbligo!

La sezione 3.4 presenta una classe di distribuzioni che si possono scrivere in un modo particolare, come una famiglia esponenziale. Se delle distribuzioni sono di questo tipo, hanno una serie di proprieta’ utili... Dal punto di vista pratico, (quasi) tutte le distribuzioni che tratteremo nel corso sono di questo tipo, salvo la distribuzione uniforme su un intervallo [0, θ], dove θ funge da parametro libero, θ > 0. Questa distribuzione e altre di stesso tipo, serviranno da controesempio a vari risultati che sono veri per molte distribuzioni, ma non tutte.

(6)

La sezione 3.5 fa notare come la posizione e funzione di parametri all’interno di una funzione puo’ avere un’interpretazione semplice, come nel caso di parametri che descrivono posizione e scala...//

La sezione 3.6 contiene alcune formule generali, identita’ e disuguaglianze, che servono soprattutto in ragionamenti teorici e dimostrazioni. Tra le piu’ importanti, c’e’

la disuguaglianza di Chebychev (traslitterare un nome russo e’ sempre difficile e diventa differente in varie lingue...):

P (|X − µ| > tσ) ≤ 1 t2,

dove µ = E(X) e σ =pV ar(X) (la deviazione standard). La parte teoricamente interessante e’ che la disuguaglianza stabilisce una relazione tra il valore della varianza/deviazione standard di una variabile e quanta probabilita’ puo’ trovarsi lontana dal ”centro” µ. Per esempio, prendendo t=2, ci puo’ essere al massimo la probabilita’ 1/4 su valori piu’ lontani di 2σ da µ. Questo tipo di risultato puo’ servire per varie dimostrazioni, ma non in pratica... Per esempio, nella dis- tribuzione normale, molto importante per le applicazioni, la frazione di probabilita’

per valori piu’ lontani di 2σ da µ e’ appena 0.05. Dunque il limite 1/4 e’ molto sovrastimato, ma questo perche’ e’ vero per tutte ;le distribuzioni, non solo per la normale...

La maggioranza degli altri risultati nella sezione e’ sorvolabile, vale la pena men- zionare una disuguaglianza che non mi sembra trattata in questa sezione, ma che spesso e’ invocata:

la disuguaglianza di Jensen per funzioni convesse (in matematica, una funzione e’

convessa se la curva e’ sempre sopra alle sue tangenti oppure se la seconda derivata e’ non-negativa, esempi g(x) = x2, g(x) = 1/x, g(x) = exp(x):

E(g(X)) ≥ g(E(X)).

3 La seconda settimana, distribuzioni multivari- ate...

Se si vogliono trattare questioni che coinvolgono piu’ di una variabile aleatoria, per esempio somme di variabili o altro, bisogna poter parlare della loro distribuzione congiunta che sara’una distribuzione multivariata di probabilita’. Iniziamo con un esempio:

sia X una variabile aleatoria discreta che prende i valori 0,1 e 2 con probabilita’

1/3 ciascuno. Consideriamo adesso un’altra variabile aleatoria Y che puo’ prendere anche i valori 0,1 e 2, anche lei con probabilita’ 1/3 ciascuno. Vogliamo sapere

(7)

P (X + Y = 4). E’ chiaro che P (X + Y = 4) = P (X = 1 ∩ Y = 3) + P (X = 2 ∩ Y = 2)+P (X = 3∩Y = 1), ma quanto valgono queste 3 probabilita’ ? La teoria base di probabilita’ ci insegna che non c’e’ una formula generale per intersezione, dipende per esempio dall’indipendenza o meno degli eventi.

L’insieme di probabilita’ P (X = i, Y = j) per i, j = 0, 1, 2 costituisce la dis- tribuzione congiunta di X eY. Sono 9 numeri non-negativi che si sommano a 1, ma non hanno altro vincolo teorico. C’e’ un caso particolare, quando P (X = i, Y = j) = P (X = i)P (Y = j) per ogni combinazione i, j. Si dice allora che le variabili sono indipendenti. Se non e’ cosi’, le variabili sono dipendenti.

Partendo da una distribuzione congiunta, si possono definire altre distribuzioni e quantita’, per esempio le distribuzioni marginali. Per esempio, la distribuzione marginale di X sono le probabilita’ P (X = i) per i = 0, 1, 2. In generale una di queste probabilita’ si ricava sommando sull’altra, cioe’ P(X=1) = P(1,0)+P(1,1)+P(1,2) e cosi’ via per gli altri valori di X e analogamente per Y. In questi termini, si puo’ dire che due variabili sono indipendenti se la distribuzione congiunta e’

il prodotto delle marginali. Si puo’ anche definire una distribuzione condizion- ata, per esempio la distribuzione di Y dato X. Questo vuol dire calcolare P(Y=j

— X=i) per ogni combinazione di i e j, secondo l’usuale definizione di proba- bilita’ condizionata, pero’ per ogni i fissato questo sara’ una distribuzione sui valori di j e si puo’ per esempio calcolare il valore atteso in questa distribuzione E(Y |X = i) = P

jjP (Y = j|X = i). Questo valore atteso dipendera’ dal valore X=i, cioe’ sara’ una funzione di X e come tale si puo’ calcolare il valore atteso di questa funzione, utilizzando la distribuzione (marginale) di X. Il risultato e’

una celebre formula che si usa scrivere E(E(Y |X)) = E(Y ) che, pensandoci, cor- risponde alla formula di probabilita’ totali dove un evento viene suddiviso da una partizione e poi ricomposto con le probabilita’ dei componenti della partizione.

Qui un valore atteso viene suddiviso secondo i valori della variabile X e poi ricom- posto con le probabilita’ di questi valori...

Finche’ le distribuzioni sono discrete, i calcoli sono sempre somme, anche se con piu’ indici, e i concetti illustrati sopra si possono generalizzare per piu’ di 2 vari- abili. Se la distribuzione tratta di 2 variabili, si dice spesso bivariata, con piu’ di due, multivariata. Bisogna abituarsi ed allenarsi a fare calcoli con distribuzioni multivariate, poiche’ quasi tutti i problemi trattano di piu’ di una variabile, sim- bolizzanti le osservazioni di qualche fenomeno che si desidera descrivere o analiz- zare. L’ambito delle distribuzioni multivariate e’ necessario per trattarer problemi che coinvolgono due o piu’ variabili. Per esempio, portiamo a termine l problema enunciato all’inizio, della somma delle due variabili X e Y. Supponiamo che le variabili siano indipendenti e che le marginali siano come sopra, probabilita’ 1/3

(8)

per ogni valore. Allora la somma, che chiamiamo S, per esempio, puo’ assumere i valori 0,1,2,3 e 4 e, visto che abbiamo P (S = 4) = P (X = 1 ∩ Y = 3) + P (X = 2 ∩ Y = 2) + P (X = 3 ∩ Y = 1) e ognuna delle probabilita’ congiunte vale 1/9, la probabilita’ P(S=4) = 3/9. In modo simile possiamo determinare le probabilita’

degli altri valori di S.

Se le variabili coinvolte sono continue, abbiamo bisogno di una densita’ di proba- bilita’ multivariata per descrivere la distribuzione congiunta delle variabili. Tutte le operazioni di sommazione sopra saranno sostituite da integrali multipli. Tutte le definizioni necessarie sono date nella sezione 4.1 del libro. Per chi non e’abituato a integrali multipli, la regola pratica e’ che i calcoli, se necessari, si fanno con integrali singoli (quelli soliti...) iterati, variabile per variabile. Naturalmente bisogna anche abituarsi un po’ al comportamento di funzioni di piu’ variabili. Quasi tutto quello che vale per n variabili si puo’ capire generalizzando quello che si puo’ ”vedere”

per due variabili. Una funzione f(x,y) di due variabili si puo’ pensare come una superficie che ”galleggia” sopra il piano delle coordinate (x,y). L’altezza della superficie sopra il punto (x,y) e’ appunto il valore della funzione f(x,y). Si puo’

per esempio generalizzare il concetto di derivata da una funzione di una variabile a una funzione di due variabili, ma visto che derivata significa calcolare quanto cambia la funzione se ci si sposta un pochino nella variabile, se ci sono due vari- abili e’ possibile spostarsi in varie direzione nel piano da un dato punto (x,y).

Ogni direzione e’ pero’ una combinazione di uno spostamento lungo la direzione x e lungo la direzione y e percio’ e’ sufficiente calcolare due ”derivate parziali”.

Per esempio, si calcola la derivata parziale di f(x,y) nella variabile x derivando come al solito in quella variabile, considerando y costante ogni qualvolta si incon- tra nell’espressione di f(x,y). Per esempio, se f(x,y) = x + y + xy + exp(xy) e vogliamo calcolare la derivata parziale ”in x” (considerando y come una costante), avremo∂f∂x(x, y) = 1+0+y+y exp(xy). Il vettore con componenti (∂f∂x(x, y),∂f∂y(x, y) indica la direzione, partendo dal punto (x,y) lungo la quale i valori di f crescono di piu’. Questo vettore si chiama il gradiente della funzione.

Invece, l’integrale doppio di f(x,y) sopra un dominio A nel piano (x,y) e’ il volume che ha come ”base” il dominio A e come ”tetto” la funzione f(x,y), considerata sopra A, una specie di cilindro, insomma... Si scrive

Z Z

A

f (x, y)dxdy

ma si calcola in modo iterato, variabile per variabile (l’idea e’ come sommare tutti i numeri in una tabella, prima si puo’ sommare solo in ogni riga e poi si sommano i risultati parziali ottenuti, che adesso sono in una colonna marginale...). Esempio:

(9)

Z Z

Q

x2+ y2dxdy

dove Q e’ il quadrato {0 ≤ x ≤ 1, 0 ≤ y ≤ 1}. decidiamo di integrare prima in y, tenendo x fisso, cioe’ come costante. Allora facciamo

Z 1 0

x2+ y2dy = x2y + y3/31

y=0= (x2+ 1/3) − (0 + 0) = x2+ 1/3 Adesso bisogna integrare il risultato in x, cioe’

Z 1 0

x2+ 1/3dx = x3/3 + x/31

x=0 = (1/3 + 1/3) − (0 + 0) = 2/3

Bisogna avere un po’ di fantasia tridimensionale per capire quale volume si e’

calcolato... La superficie descritta da f (x, y) = x2 + y2 e’ un paraboloide, una variante tridimensionale di una parabola. Si puo’ per esempio esaminare una sezione della superficie mettendo x=0, taglio lungo l’asse y. Si vede una parabola (f (0, y) = y2) e cosi’ anche tagliando lungo l’asse x. Ci immaginiamo adesso questo paraboloide sopra il quadrato [0,1]x[0,1]. Questo strano solido ha il volume 2/3...

L’importante e’ che questi calcoli si possono fare anche senza ”capire” che figure si sta studiando... In particolare se generalizziamo a piu’ variabili, non si puo’

”vedere” cosa si fa, ma si puo’ continuare a fare...

Comunque sia, adesso abbiamo cio’ che serve per calcolare con piu’ variabili con- tinue. Per esempio, supponiamo di avere due variabili X e Y che consideriamo indipendenti, ognuna con distribuzione esponenziale di parametro 1, cioe’ con densita’ f (x) = exp(−x) per x > 0. La densita’ congiunta f(x,y) (e’ un vizio dei probabilisti di chiamare tutte le densita’ f anche se si tratta di funzioni dif- ferenti in occasioni differenti) e’ f (x, y) = exp(−(x + y)) per x, y > 0. La dis- tribuzione di S = X+Y e’ determinata se calcoliamo la sua funzione di ripartizione FS(t) = P (S ≤ t) = P (X + Y ≤ t). Il dominio definito da x > 0, y > 0, x + y ≤ t nel piano (x,y) e’ un triangolo con vertici (0,0), (0,t),(t,0) e dobbiamo integrare la densita’ congiunta su questo dominio per avere la probabilita’ desiderata. Iniziamo tenendo x fissato a un valore tra 0 e t. Nel dominio y puo’ allora variare tra 0 e t-x. Calcoliamo l’integrale

Z t−x 0

exp(−(x + y))dy = − exp(−(x + y))]t−xy=0 = − exp(−t) + exp(−x) Adesso questo risultato deve essere integrato in x, tra 0 e t:

Z t

exp(−x) − exp(−t)dx = − exp(−x) − exp(−t)x]t =

(10)

− exp(−t) − t exp(−t) + 1 = 1 − exp(−t) − t exp(−t)

La derivata della funzione di ripartizione e’ la densita’ di probabilita’, dunque fS(t) = t exp(−t), una densita’ Γ(2, 1).

3.1 La legge dei grandi numeri, LLN

Adesso possiamo parlare di distribuzioni di somme di variabili e anche di variabili indipendenti. Allora possiamo enunciare un risultato importante, la Legge dei grandi numeri.

Supponiamo di avere delle variabili aleatorie indipendenti X1, . . . , Xn, tutti con la stessa distribuzione. In questa distribuzione il valore atteso e’ µ. Denotiamo con X la media campionaria delle variabili, cioe’¯

n= X1+ . . . + Xn n

Allora ¯Xn converge a µ quando n va all’infinito. La convergenza si puo’ capire in vari modi, ma a noi interessera’ principalmente una modalita’ chiamata convegenza in distribuzione, cioe’ in questo caso la probabilita’ nella distribuzione di ¯Xn si concentra sempre di piu’ attorno al valore µ, in modo che, alla fine, fuori da ogni intervallino attorno a µ che vogliamo considerare la probabilita’ andra’ a zero con n che tende all’infinito.

La dimostrazione piu’ semplice consiste nel constatare che, secondo le leggi di valore atteso e varianza, abbiamo E( ¯Xn) = µ, ma V ar( ¯Xn) = σ2/n, dove σ2 = V ar(X), la varianza nella distribuzione comune a tutti gli X. Dunque, quando n tende all’infinito, la varianza di ¯Xn tende a zero, il che vuol dire 0 variabilita’, cioe’ fisso a un valore costante che deve essere µ...

3.2 Il teorema limite centrale, CLT

Abbiamo visto che una media campionaria converge verso il valore atteso quando n tende all’infinito. In un certo senso, il Teorema limite centrale spiega in che

”modo” questa convergenza avviene. Il CLT coinvolge la distribuzione normale o gaussiana, una delle distribuzioni piu’ importanti del calcolo delle probabilita’ e della statistica. C’e’ una descrizione dettagliata nella sezione 3.3 del libro... Una distribuzione normale e’ specificata da due parametri, il valore atteso µ e la vari- anza σ2. Quella distribuzione normale che ha µ = 0 e σ2 = 1 e’ chiamata normale standard. Spesso una variabile aleatoria con questa distribuzione e’ denotata Z e la distribuzione in se’ N(0,1). La funzione di ripartizione P (Z ≤ t) e’ di solito

(11)

denotata Φ(t) e la densita’ di probabilita’ φ(t). Il CLT approssima la distribuzione della media campionaria nel seguente modo:

P (√

nX¯n− µ

σ ≤ t) → Φ(t)

quando n tende all’infinito. Un altro modo di dire la stessa cosa, dato il modo in cui si calcola con la distribuzione normale (tramite standardizzazione) e’ che si approssima la distribuzione di ¯Xn con una N (µ, σ2/n). Si puo’ anche dire che si approssima la distribuzione della somma X1 + . . . + Xn con la distribuzione N (nµ, nσ2).

L’applicazione storica di quest’approssimazione, che ha un nome proprio, il teo- rema di De Moivre - Laplace, e’ l’approssimazione della distribuzione binomi- ale Bin(n,p), in quanto somma dei suoi singoli esperimenti, con la distribuzione N(np,np(1-p)). Esiste anche un raffinamento dell’approssimazione, per ragioni diciamo geometriche, chiamata la correzione del mezzo, formulata cosi’ per una variabile aleatoria X ∼ Bin(n,p)

P (a ≤ X ≤ b) ≈ P (a − 1/2 − np

pnp(1 − p) ≤ Z ≤ b + 1/2 − np pnp(1 − p) ).

3.3 Il seguito...

E’ molto importante in questa fase fare molti esercizi, per esempio la prima decina di ogni sezione principale. Per cominciare, si puo’ fare a meno di approfondirsi in sezioni 2.3, 3.4, 3.6 e iniziare nel Ch. 4 con 4.1 e 4.2... La prossima nota illustrera’

il resto di Ch.4 e Ch. 5... Intanto iniziamo cosi’...

Riferimenti

Documenti correlati

Mauro

4 In tal senso la (66) esprime la regola di derivazione della somma due funzioni, immediatamente generalizzabile a n funzioni.. Graficare il rapporto cos`ı ottenuto

[r]

La velocità istantanea indica la “rapidità” con cui varia lo spazio al variare del tempo e coincide con il coefficiente angolare della retta tangente nel punto considerato.

[2] Dare la definizione di derivata direzionale per una funzione di due variabili, enunciare la formula del gradiente.. [3]Enunciare e dimostrare il Criterio di monotonia (relazione

Allora si può dire che il valore della derivata di una funzione rappresenta il coefficiente angolare della retta r s , tangente la funzione nel

[r]

Intro- ducendo un riferimento cartesiano della retta contenente tale segmento, risulta che la massa della barra `e una funzione m (x) con x ∈ [0, L].. Come `e noto, tale funzione