Elementi di Probabilit` a e Statistica - 052AA - A.A. 2014-2015
Prima prova di verifica intermedia - 9 aprile 2015
Problema 1. Dati due eventi A, B, su uno spazio probabilizzato (Ω, F , P), diciamo che A `e in favore di B se vale P(A) > 0 e P(B|A) ≥ P(B). Discutere la validit`a delle seguenti affermazioni, per eventi A, B, C.
1. Se A `e in favore di B e P(B) > 0, allora B `e in favore di A.
2. Se A `e in favore di B e P(B) < 1, allora Bc `e in favore di Ac.
3. (Facoltativo) Se A `e in favore di B e B `e in favore di C, allora A `e in favore di C.
Supponete ora di avere davanti a voi due scatole dall’esterno indistinguibili, non vuote, di cui per`o sapete che una contiene solo N1 palline, tutte bianche, e l’altra contiene N2 palline, di cui alcune bianche e altre nere. Scegliete una scatola da cui estraete una pallina (senza guardare il contenuto della scatola). Usando il linguaggio introdotto sopra, si pu`o affermare che l’evento la pallina estratta `e bianca `e in favore dell’evento la scatola scelta contiene solo palline bianche? (Per giustificare la risposta non `e strettamente necessario esibire esplicitamente uno spazio di probabilit`a relativo alla situazione).
Soluzione 1. Diamo qui una soluzione che usa la formula di Bayes. L’esercizio si pu`o an- che risolvere notando che A `e in favore di B se e solo se P(A) > 0 e P(A∩B) ≥ P(A)P(B), e ricondurre tutti i calcoli a probabilit`a non condizionate (Questa riformulazione mostra anche che A `e in favore di B se P(A) > 0 e le v.a. 1A, 1B sono positivamente correlate).
1. Affermazione vera in generale. Per la formula di Bayes, se A `e in favore di B e P(B) > 0 allora
P(A|B) = P(A)P(B|A)
P(B) ≥ P(A).
2. Affermazione vera in generale. Ancora per la formula di Bayes, se A `e in favore di B e P(Bc) = 1 − P(B) > 0, allora
P(Ac|Bc) = 1 − P(A|Bc) = 1 − P(A)P(Bc|A)
P(Bc) = 1 − P(A)1 − P(B|A)
1 − P(B) ≥ 1 − P(A), dove abbiamo usato (1 − P(B|A))/(1 − P(B)) ≤ 1 perch´e P(B|A) ≥ P(B).
3. Affermazione falsa in generale. Basta notare che se A ⊆ B, allora A `e in favore di B (e quindi anche B `e in favore di A) e considerare A, C ⊆ B disgiunti e non trascurabili, cos`ı P(C|A) = 0 < P(C).
L’evento A, la pallina estratta `e bianca, `e in favore dell’evento B, la scatola scelta contiene solo palline bianche. Infatti, considerando un qualunque spazio di probabilit`a che `e un modello ragionevole per la situazione descritta, l’evento B sar`a non trascurabile e P(A|B) = 1. Da questo segue che l’evento A `e non trascurabile (perch´e P(A) ≥ P(A|B)P(B)) e B `e in favore di A, quindi anche A `e in favore di B.
Problema 2. Per N ∈ N, N ≥ 1, indichiamo con XN una variabile aleatoria avente legge uniforme su {0, . . . , N − 1} (definita su un opportuno spazio (ΩN, FN, PN)).
1. Calcolare la funzione generatrice delle probabilit`a GXN.
2. Calcolare valore atteso e varianza di XN. (Ricorda che un possibile approccio consiste nel derivare la funzione generatrice GXN e determinarne il valore in t = 1).
3. Mostrare che il polinomio GX6 si fattorizza in (almeno) due modi diversi come prodotto di polinomi GX6(t) = a1(t)a2(t) = a3(t)a4(t) con ai polinomio a coefficienti non-negativi e ai(1) = 1 (per i ∈ {1, . . . , 4}). Dare un’interpretazione probabilistica di questo fatto.
4. (Facoltativo) Per ogni k ∈ N, k ≥ 1, mostrare che limN →∞N−kEN[XNk] esiste e determinarlo.
Soluzione 2. 1. La funzione generatrice GXN `e un polinomio di grado N − 1:
GXN(t) = 1 N
N −1
X
`=1
tk = 1 N
tN − 1
t − 1 , per t 6= 1, dove la seconda forma `e utile per i calcoli che seguono.
2. Qui ci sono diversi modi di procedere. Procediamo come suggerito, cio`e differen- ziando la funzione generatrice, per t < 1,
d
dtGXN(t) = 1 N
N tN −1(t − 1) − (tN − 1) (t − 1)2 = 1
N
(N − 1)tN − N tN −1+ 1 (t − 1)2
e valutandone il limite per t = 1 (usando e.g. il teorema di de l’Hˆopital ), da cui
EN[XN] = lim
t→1
d
dtGXN(t) = 1 N
(N − 1)N (N − 1) − N (N − 1)(N − 2)
2 = N − 1
2 . Differenziando un’altra volta la funzione generatrice, per t < 1, abbiamo
d dt
2
GXN(t) = 1 N
(N − 1)(N − 2)tN − 2N (N − 2)tN −1+ N (N − 1)tN −2− 2 (t − 1)3
e valutandone il limite per t = 1 (usando ancora il teorema di de l’Hˆopital ), otteniamo
EN[XN(XN − 1)] = lim
t→1
d dt
2
GXN(t)
= (N − 1)(N − 2) [(N − 1)(N − 2) − 2(N − 2)(N − 3) + (N − 3)(N − 4)]
6
= (N − 1)(N − 2)
3 .
A questo punto, per la varianza si ottiene
Var(XN) = EN[XN(XN − 1)] + EN[XN] − EN[XN]2 = N2− 1 12 .
3. Possiamo scrivere GX6(t) = 1
6 t6− 1
t − 1 = (t3− 1)(t3+ 1)
6(t − 1) = (t3+ 1) 2
(t2+ t + 1)
3 = a1(t)a2(t), oppure
GX6(t) = 1 6
t6− 1
t − 1 = (t2− 1)(t4+ t2+ 1)
6(t − 1) = (t + 1) 2
(t4+ t2+ 1)
3 = a3(t)a4(t).
Per l’interpretazione probabilistica, notiamo che a1 corrisponde alla funzione ge- neratrice di una v.a. Y1 che assume valori in {0, 3} con probabilit`a uniforme, a2 corrisponde alla funzione generatrice di una v.a. Y2 che assume valori in {0, 1, 2}
con probabilit`a uniforme, e quindi la legge di X6 corrisponde alla legge di Y1 + Y2 (se Y1 e Y2 sono indipendenti). Similmente a3 corrisponde ad una legge uniforme su {0, 1} mentre a4 corrisponde ad una legge uniforme su {0, 2, 4}.
4. Per definizione di valore atteso, possiamo scrivere
EN
"
XN N
k#
=
N −1
X
`=0
` N
k
1 N =
N −1
X
`=0
f ` N
1 N,
dove f (x) = xk. L’ultima espressione si pu`o interpretare come somma di Riemann, da cui deduciamo il limite
N →∞lim EN
"
XN N
k#
= Z 1
0
xkdx = 1 k + 1.
Per una dimostrazione senza integrali (in cui sostanzialmente prima integriamo per parti e poi passiamo al limite), notiamo ad esempio che, per ` ∈ {0, . . . , N − 1}, possiamo scrivere, via espansione binomiale di Newton,
`k = (` + 1)k+1− (`)k+1
k + 1 + Rk(`), dove Rk(`) = Ok(`k−1), infatti
0 ≤ Rk(`) = 1 k + 1
k+1
X
i=2
k + 1 i
`k+1−i ≤ 2k+1 k + 1`k−1. Perci`o,
1 Nk+1
N −1
X
`=0
`k = 1 Nk+1
N −1
X
`=0
(` + 1)k+1− `k+1
k + 1 + 1
Nk+1
N −1
X
`=0
Ok(`k)
= 1
k + 1 + Ok(N−1).
Problema 3. Il valore di un titolo quotato in borsa, da un giorno all’altro cala o cresce di un’unit`a oppure rimane costante (rispetto ad una certa unit`a di misura e ammettendo un certo grado di approssimazione). Detto Si il valore al termine del giorno i-esimo, vale Si = Si−1+ Xi dove Xi `e la variazione avvenuta durante il giorno i-esimo (i ≥ 1).
Come descritto sopra, supponiamo quindi che ciascuna variazione Xi assuma solamente valori in {−1, 0, +1}. In un periodo di n ≥ 1 giorni, in cui la borsa `e abbastanza stabile, supponiamo che le variabili X1, . . . , Xn siano indipendenti, ugualmente distribuite, con uguale probabilit`a di valere +1 o −1. Indichiamo con θ ∈ [0, 1/2] la probabilit`a di valere +1 (o, il che `e lo stesso, di valere −1). Un agente di borsa vuole stimare θ.
1. Scrivere un (adeguato) modello statistico parametrico e la relativa verosimiglianza.
2. Trovare, se c’`e, lo stimatore di massima verosimiglianza, esaminando se sia corretto e se sia consistente per n → ∞.
3. Trovare una regione di fiducia di livello 1 − α, con α ∈ (0, 1) assegnato. Si cerchi di trovarne una esatta, pur pi`u grande del necessario; ed una migliore, cio`e pi`u piccola, anche se approssimata.
Soluzione 3. 1. Consideriamo il modello statistico parametrico Ω = {−1, 0, 1}n, A = P(Ω), Pθ con verosimiglianza
L(θ, k1, . . . , kn) =
n
Y
i=1
θ|ki|(1 − 2θ)1−|ki|, θ ∈ Θ =
0,1
2
, (k1, . . . , kn) ∈ Ω.
In altre parole, consideriamo il modello canonico relativo ad un campione di taglia n (X1, . . . , Xn), con legge mθ(k) = θ|k|(1 − 2θ)1−|k|, k ∈ {−1, 0, 1} (per includere anche i casi θ ∈ {0, 1/2}, usiamo la convenzione 00 = 1). Poniamo inoltre s = s(k1, . . . , kn) :=Pn
i=1|ki|, cos`ı
L(θ, k1, . . . , kn) = θs(1 − 2θ)n−s = exp {log(θ)s + log(1 − 2θ)(n − s)} , (dove l’ultima identit`a ha senso anche per θ ∈ {0, 1/2}, ponendo log(0) = −∞).
2. Lo stimatore di massima verosimiglianza si ottiene dall’equazione 0 = ∂
∂θL(θ, k1, . . . , kn) = s
θ − 2(n − s) 1 − 2θ
L(θ, k1, . . . , kn)
che implica ˆθ = 2ns . In realt`a, per concludere che ˆθ `e davvero il massimo, control- liamo esplicitamente i valori di bordo θ ∈ {0, 1/2}. Se s /∈ {0, n}, `e chiaro che ˆθ
`e un massimo, perch´e in quel caso la verosimiglianza `e nulla al bordo. Se s = 0, vale ˆθ = 0, e allora la verosimiglianza vale 1; similmente se s = n, vale ˆθ = 1/2 e allora la verosimiglianza vale 1. Pi`u esplicitamente, abbiamo trovato lo stimatore di massima verosimiglianza
θ =ˆ 1 2n
n
X
i=1
|Xi| .
Notiamo che le variabili aleatorie |Xi| sono indipendenti (Proposizione 2.5.11 delle dispense, estesa a n-variabili) ciascuna con legge Bernoulli di parametro 2θ (perch´e {|Xi| = 1} = {Xi = 1} ∪ {Xi = −1} unione disgiunta di eventi ciascuno con pro- babilit`a θ). Pertanto le |Xi| sono un campione di taglia n di v.a. Bernoulli di parametro 2θ.
Grazie a questa osservazione, notiamo che ˆθ `e corretto e consistente per n → ∞, grazie alla disuguaglianza
Pθ(|ˆθ − θ| ≥ d) ≤ Var(|X1| /2)
nd2 = 2θ(1 − 2θ)
4nd2 ≤ 1
16nd2.
3. La disuguaglianza scritta sopra si pu`o usare per ottenere una regione di fiducia (esatta) della forma C = (ˆθ − d, ˆθ + d). Dato α ∈ (0, 1), ponendo α = 16nd1 2, otteniamo d = 4√1nα.
Possiamo anche studiare regioni di fiducia ottenute via TLC, con l’approssimazione (valida in una situazione in cui n sia grande)
Pθ(|ˆθ−θ| ≥ d) = Pθ
√n n1
Pn
i=1|Xi| − 2θ p2θ(1 − 2θ) ≥
√n2d p2θ(1 − 2θ)
!
≈ 1−
Z d0
−d0
e−x2/2
√2π dx,
dove abbiamo indicato d0 = 2d
√n
√
2θ(1−2θ). Imponendo d0 = q1−α/2 (qt indica il quantile gaussiano) e rimuovendo la dipendenza da θ ∈ [0, 1/2], otteniamo d = q1−α/22√n .