Laboratorio di Probabilit`a Funzioni relative a variabili aleatorie in R

(1)

Laboratorio di Probabilit` a

Funzioni relative a variabili aleatorie in R

In R sono implementate le seguente funzioni relative alle variabili aleatorie pi`u comuni.

• d<nome-var-al>(x,<altri parametri>) densit`a (o funzione di probabilit`a) della v. a. nel punto x

• p<nome-var-al>(x,<altri parametri>) funzione di distribuzione cumulata nel punto x

• q<nome-var-al>(a,<altri parametri>) quantile a-esimo

• r<nome-var-al>(n,<altri parametri>) campione di n elementi estratti secondo la variabile aleatoria

Variabile aleatoria binomiale

Per la variabile aleatoria con legge Binomiale di parametri (n, p)

dbinom(x,n,p) pbinom (x,n,p) qbinom (a,n,p) rbinom (N,n,p)

A fianco sono riportate rappresentazioni grafiche delle funzioni di probabilit`a e di distribuzione cumulata.

Attenzione: non sono grafici di funzione!! (come dovrebbero essere fatti propriamente?) Per`o, per comodit`a espositiva, qui e in seguito ci riferiremo a queste rappresentazioni come “grafici di”.

n=20 p=0.40 x=seq(0,n) dbinom(x,n,p) pbinom(x,n,p)

cbind(x,round(dbinom(x,n,p),6),round(pbinom(x,n,p),6)) x

[1,] 0 0.000037 0.000037 [2,] 1 0.000487 0.000524 [3,] 2 0.003087 0.003611 [4,] 3 0.012350 0.015961 [5,] 4 0.034991 0.050952 [6,] 5 0.074647 0.125599 [7,] 6 0.124412 0.250011 [8,] 7 0.165882 0.415893 [9,] 8 0.179706 0.595599 [10,] 9 0.159738 0.755337 [11,] 10 0.117142 0.872479 [12,] 11 0.070995 0.943474 [13,] 12 0.035497 0.978971 [14,] 13 0.014563 0.993534 [15,] 14 0.004854 0.998388

0 5 10 15 20

0.000.050.100.15

Binomiale n=20 p=0.4

x dbinom(x, n, p) 0.40.60.81.0

Binomiale n=20 p=0.4

(2)

0 5 10 15 20

0.000.100.200.30

Binomiale n=20 p= 0.1

0 5 10 15 20

0.000.100.200.30

0 5 10 15 20

0.000.100.200.30

0 5 10 15 20

0.000.100.200.30

Grafici della densità [probabilità] binomiale per n=10 e per diversi valori della probabilità di successo

pr=c(0.10,0.30,0.50,0.90) par(mfrow=c(2,2))

for (i in pr) {

prob_bin= dbinom(x,n,i) plot(x, prob_bin ,type="h",

ylim=c(0,.3),

ylab = " ",xlab = " ",

main=paste("Binomiale n=20 p=",i)) abline(h=0)

}

par(mfrow=c(1,1))

a) Che cosa si osserva? Quale forma hanno le diverse funzioni di probabilit`a? Quale `e la moda?

b) Calcolare la media delle variabili aleatorie binomiali per i valori di probabilit`a scelti a partire dai valori tabulati precedentemente e confrontarli con quelli teorici.

media=rep(0,length(pr)) for (i in 1:length(pr)) { prob_bin= dbinom(x,n,pr[i]) media[i]=sum(prob_bin*x) }; media

c) Calcolare la mediana “teorica” delle variabili aleatorie binomiali per i valori di probabilit`a scelti.

mediana=rep(0,length(pr)) for (i in 1:length(pr))

{ mediana[i]= qbinom(0.50,n,pr[i]) } mediana

ESERCIZI DA SVOLGERE

1. Si sa che il 70% di una certa variet`a di bulbi fiorir`a. Si piantano 10 bulbi.

(a) Calcolare la probabilit`a che fioriscano: esattamente 3 bulbi; al pi`u 6 bulbi; almeno 2 bulbi.

(b) Se si piantano 100 bulbi quanto deve valere k affinch´e la probabilit`a che fioriscano almeno k bulbi sia maggiore dell’80%?

2. In una citt`a si suppone, in base ai risultati di un sondaggio, che il 35% di elettori che votano in un seggio sia favorevole al candidato A. Nel seggio votano 130 elettori.

(a) Calcolare la probabilità che in quel seggio il candidato A abbia non più del 70% di voti. E la probabilità che abbia non più del 30%.

(b) Qual `e il numero di voti pi`u probabile per il candidato A?

3. L’incubatrice di un allevamento di polli deve mantenere una temperatura che permetta la schiusa delle uova; per far ci`o devono funzionare contemporaneamente almeno 5 e non pi`u di 9 apposite resistenze.

Ciascuna resistenza ha una probabilità di essere funzionante per tutto il periodo necessario alla schiusa pari a 0.85; le resistenze funzionano l’una indipendentemente dall’altra. Supponiamo inoltre che non intervengano altri fattori che incidano sul funzionamento dell’incubatrice. Si vuole stabilire qual è il numero minimo di resistenze che occorre attivare per avere una probabilità maggiore del 95% che almeno 5 resistenze restino sempre funzionanti.

(3)

Laboratorio di Probabilit` a

Introduzione ai test statistici nel caso binomiale

Un esperimento ha due possibili risultati, denominati successo, codificato con 1, e insuccesso, codificato con 0. Si sa che la probabilità di successo può assumere i valori 0.3 e 0.7 (e solo uno di questi). Si effettuano 20 prove indipendenti dell’esperimento e sulla base dei risultati campionari si deve decidere quale delle due probabilità è vera. I risultati delle 20 prove indipendenti sono modellabili con una variabile aleatoria X con legge binomiale:

X ∼ B(20, p) Si hanno due ipotesi per la probabilit`a di successo:

H₀: p = 0.3 ipotesi principale o ipotesi nulla H₁: p = 0.6 ipotesi alternativa

A fianco sono riportati i grafici delle funzioni di probabilit`a nei due casi (i valori sulle ascisse sono lievemente spostati a destra e a sinistra dell’intero per problemi di leggibilit`a).

x=seq(0,20)

y0=dbinom(x,20,0.3) y1=dbinom(x,20,0.7)

plot(x+0.1,y0,xlim=c(0,20),ylim=c(0,.2),type="h",lwd=3, xlab=" ",ylab=" ",col="red")

par(new=T)

plot(x-0.1,y1,xlim=c(0,20),ylim=c(0,.2),type="h",lwd=3, xlab=" ",ylab=" ")

abline(h=0)

0 5 10 15 20

0.000.050.100.150.20

0 5 10 15 20

0.000.050.100.150.20

Bisogna scegliere “opportunamente” una soglia s per i successi ottenuti nel campione in modo tale da decidere quale delle due ipotesi `e vera. Si rifiuta H₀se il numero di successi supera tale soglia e si accetta H₀se il numero di successi `e minore o uguale a s.

Il valore della soglia c determinato in modo che, supponendo vera l’ipotesi principale, P(X > s | p = 0.3) <0.05

Infatti se si ottiene un numero di successi “alto” si ritiene pi`u probabile che questo sia la realizzazione di una variabile aleatoria con p = 0.7.

Con il comando R s=qbinom(0.95,20,0.3);s si ottiene 9.

La regola di decisione sulla scelta delle ipotesi diventa: “se nelle 20 prove effettuate si ottengono pi`u di 9 successi, si rifiuta H0, che corrisponde a p = 0.3 (e si accetta H1, che corrisponde a p = 0.7).”

La probabilità di rifiutare H₀quando questa è vera, che sopra è stata posta pari a 0.05, è detta probabilità di errore di prima specie e viene indicata con α.

Può succedere che nelle 20 prove si ottenga un numero di successi minore o uguale a 9 anche se la probabilità “vera” è 0.7, come è 50.2050.20

(4)

Con quale probabilit`a, essendo vera H1, cio`e p = 0.7, si accetta H0? Con il comando R pbinom(9,20,0.7) si ottiene 0.01714482 .

La probabilità ottenuta, di accettare H₀quando è vera H₁, è detta probabilità di errore di seconda specie e viene indicata con β.

Le decisioni prese sono quindi affette da errore, come `e sintetizzato nelle seguenti tabelle.

DECISIONE PROBABILIT `A

H₀ accettata H₀ rifiutata H₀accettata H₀rifiutata H1 rifiutata H1 accettata H1 rifiutata H1 accettata H0 vera

corretta sbagliata 1 − α α

H₁ falsa H0 falsa

sbagliata corretta β 1 − β

H1 vera

Sotto sono riportati grafici delle distribuzioni cumulate nelle due ipotesi ed `e indicata la soglia individuata.

Indicare α e β nel grafico.

x1=seq(0,s) x2=seq(s+1,20) y0_2=dbinom(x2,20,0.3) y1_1=dbinom(x1,20,0.7)

plot(x2,y0_2,xlim=c(0,20),ylim=c(0,.2),type="h",lwd=3, xlab=" ",ylab=" ",col="red")

par(new=T) plot(x1,y1_1,xlim=c(0,20),ylim=c(0,.2),type="h", lwd=3,xlab=" ",ylab=" ")

abline(h=0) abline(v=s+.5, col="blue",lwd=3)x=seq(0,20) y0=pbinom(x,20,0.3)

y1=pbinom(x,20,0.7)

plot(x,y0,xlim=c(0,20),ylim=c(0,1),type="s",lwd=3,xlab=" ",ylab=" ", col="red")

par(new=T)

plot(x,y1,xlim=c(0,20),ylim=c(0,1),type="s",lwd=3, xlab=" ",ylab=" ") abline(h=0)

abline(h=c(pbinom(s,20,0.7),pbinom(s,20,0.3)),v=s,lwd=2,col="blue" ) ⁰ ⁵ ¹⁰ ¹⁵ ²⁰

0.00.20.40.60.81.0

0 5 10 15 20

0.00.20.40.60.81.0

Effettuare il test invertendo le ipotesi H0 e H1. La soglia rimane la stessa?

(5)

Laboratorio di Probabilit` a Variabile aleatoria ipergeometrica

Le funzioni implementate in R per la variabile aleatoria con legge Ipergeometrica di parametri (m, n, k) dove m è il numero di successi nella popolazione, n è il numero di insuccessi nella popolazione, k è il numero di estrazioni, sono:

dhyper(x, m, n, k) – phyper(q, m, n, k) – qhyper(p, m, n, k) – rhyper(nn, m, n, k)

ESERCIZI

1. Un urna contiene 500 palline di cui 200 rosse e 300 bianche. Si eseguono 10 estrazioni. Per le domande successive considerare, confrontandoli, i due casi:

• senza reinserimento

• con reinserimento

(a) Calcolare la probabilità di estrarre almeno quattro palline rosse (b) Costruire il grafico della densità di probabilità

(c) Costruire il grafico della distribuzione cumulata

(d) Qual è il numero di palline rosse estratte più frequente, quale è la media e la mediana

se si vogliono disegnare su uno stesso sistema di assi due grafici fra un plot e l’altro inserire il comando par(new=T); alla fine ricordare par(new=F)

Rispondere alle domande precedenti nel caso in cui si facciano 50 estrazioni.

2. Calcolare il quadrato della somma degli errori commessi approssimando la distribuzione ipergeometrica con quella binomiale nei seguenti casi:

(m, n, k) = (200, 300, 15) (m, n, k) = (200, 300, 50) (m, n, k) = (10, 490, 15) (m, n, k) = (10, 490, 100) Commentare le differenze.

(6)

Laboratorio di Probabilit` a

Variabili aleatorie “geometrica” e “tempo di arrivo del primo successo”

Le funzioni implementate in R per la variabile aleatoria con legge Geometrica di parametro p sono:

dgeom(x,p) – pgeom(x,p) – qgeom(a,p) – rgeom(n,p)

con i significati usuali: funzione di probabilit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ATTENZIONE: La Variabile aleatoria X con legge Geometrica di parametro p implementata in R assume valori 0, 1, 2, ... e modella il numero di insuccessi prima del primo successo; la sua densit`a di probabilit`a :

P(X = x) = p(1 − p)^x per x = 0, 1, 2, ...

Per ottenere la variabile aleatoria Y che modella il tempo di arrivo del primo successo, (valori 1, 2, 3...) `e necessario operare la trasformazione:

Y = X + 1 con P(Y = y) = p(1 − p)^(y−1) y = 1, 2, ...

Ad esempio, se p = 0.2, per avere la probabilit`a che il primo successo arrivi alla 10-ima prova il comando `e:

dgeom(10-1, 0.2) cio`e bisogna operare la trasformazione inversa X = Y − 1.

ESERCIZIO SVOLTO

Costruire il grafico della densità [probabilità] geometrica per diversi valori della probabilità di successo [es. p = 0.20, 0.40, ...0.90]. Che cosa si osserva? Quale forma hanno le diverse funzioni di probabilità?

pr=seq(0.20,0.80,0.20) y=seq(1,10)

par(mfrow=c(2,2)) for (i in pr) {

plot(y, dgeom(y-1,i) ,type="h",

## attenzione a y e y-1 ylim=c(0,0.85), ylab = " ",xlab = " ", main=paste("Arrivo primo successo-p=",i)) abline(h=0)

}

par(mfrow=c(1,1))

2 4 6 8 10

0.00.40.8

Arrivo primo successo−p= 0.2

2 4 6 8 10

0.00.40.8

2 4 6 8 10

0.00.40.8

2 4 6 8 10

0.00.40.8

ESERCIZI DA SVOLGERE

1. Calcolare la media delle variabili aleatorie geometriche per i valori di probabilit`a scelti a partire dai valori tabulati precedentemente e confrontarli con quelli teorici [attenzione le densit`a tabulate sono sono “troncate” a differenza del caso binomiale visto in precedenza]

2. Calcolare la mediana teorica del tempo di attesa del primo successo per i valori di probabilit`a scelti.

3. Paolo scommette con Chiara che lanciando un dado equilibrato, l’1 uscirà per la prima volta prima (<) della sesta prova. Con quale probabilità Paolo avrà il gelato? Quanti lanci bisogna fare per avere una probabilità del 90% che si verifichi la prima uscita dell’1?

4. In media una persona su 10 che passano in un viale entra in un negozio. Qual la probabilit`a che la prima persona che entra nel negozio dopo che `e aperto la mattina sia la quinta che passa nel viale? E la decima?

(7)

Laboratorio di Probabilit` a

Variabili aleatorie “binomiale negativa” e

“tempo di arrivo del k-simo successo o Pascal”

Le funzioni implementate in R per la variabile aleatoria con legge Binomiale negativa di parametro p e taglia k sono:

dnbinom(x, size, p) – pnbinom(q, size, p) – qnbinom(a, size, prob) – rnbinom(n, size, prob) con i significati usuali: funzione di probabilit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ATTENZIONE: La Variabile aleatoria X con legge Binomiale negativa di parametro p implementata in R assume valori 0, 1, 2, ... e modella il numero di insuccessi prima del k-esimo successo; la sua densità di probabilità è:

P(X = x) =x + k − 1 k − 1

p^k(1 − p)^x per x = 0, 1, 2, ...

Per ottenere la variabile aleatoria Y che modella il tempo di arrivo del k-esimo successo, (valori k, k + 1, k + 2, k + 3...) `e necessario operare la trasformazione:

Y = X + k con P(Y = y) =

y − 1 k − 1

p^k(1 − p)^(y−k) y = k, k + 1, k + 2, k + 3 . Ad esempio, se p = 0.2, per avere la probabilit`a che il terzo successo arrivi alla 10-ima prova il comando `e:

dnbinom(10-3, 3, 0.2) cio`e bisogna operare la trasformazione inversa X = Y − 3.

ESERCIZIO SVOLTO

Costruire il grafico della densità (funzione di probabilità) Pascal per diversi valori della probabilità di successo e per diversi numeri di successi (es. k = 1, 5, 9, ... A che cosa corrisponde k = 1?). Quale forma hanno le diverse funzioni di probabilità?

Qui sotto `e riportato solo il codice per k = 5.

Attenzione alle diverse scale delle ascisse e delle ordinate per i tre gruppi di grafici riportati sotto.

pr=seq(0.20,0.80,0.20) k=5

fin=20

y=seq(k,fin+k)

par(mfrow=c(2,2)) for (i in pr) {

plot(y, dnbinom(y-k,k,i) ,type="h",

## attenzione a y e y-k ylim=c(0,0.35), ylab = " ",xlab = " ", main=paste("Arrivo", k, "successo p = ",i)) abline(h=0)

}

par(mfrow=c(1,1))

5 10 15 20

0.00.20.40.60.8

Arrivo 1 successo p = 0.2

5 10 15 20

0.00.20.40.60.8

5 10 15 20

0.00.20.40.60.8

5 10 15 20

0.00.20.40.60.8

(8)

5 10 15 20 25

0.000.150.30

5 10 15 20 25

0.000.150.30

5 10 15 20 25

0.000.150.30

5 10 15 20 25

0.000.150.30

10 15 20 25

0.000.100.20

10 15 20 25

0.000.100.20

10 15 20 25

0.000.100.20

10 15 20 25

0.000.100.20

ESERCIZIO

Per uno studio si effettuano una serie di fotografie di varie cellule, ma non tutte risultano di buona qualità; la probabilità che una fotografia sia utilizzabile è 0.8. Si supponga che le qualità delle immagini siano indipendenti. Per lo studio sono necessarie 8 fotografie utilizzabili. Si continuano a fare fotografie fino a quando non se ne ottengono 8 di buona qualit. Ciascuna fotografia costa 1 euro. Calcolare la probabilità di aver sprecato 5 euro (in fotografie di cattiva qualità)? Qual à la mediana del numero di fotografie sprecate?

(9)

La v.a. di Pascal come somma di v.a. geometriche

Scegliamo k = 8. Simuliamo con R 8 realizzazioni della v.a. tempo di arrivo del primo successo con parametro p e sommiamo i risultati. Verifichiamo graficamente come la funzione di probabilit`a e di distribuzione cumulata della somma ottenuta siano legate a quelle (teoriche) di una variabile aleatoria con legge di Pascal con parametri (k, p)

Sotto sono riportati i grafici con un diverso numero di simulazioni, 100 e 1000. Attenzione alle diverse scale per le ordinate.

Histogram of Empirical_Pascal

Empirical_Pascal

Density

10 20 30 40

0.000.020.040.060.080.10

10 20 30 40

0.000.020.040.060.080.10

10 20 30 40

0.00.20.40.60.81.0

ecdf(Empirical_Pascal)

x

Fn(x)

● ●

●

●●

●

●●

●

●●

●

● ● ●

● ●

● ●● ●● ● ●

10 20 30 40

0.00.20.40.60.81.0

Histogram of Empirical_Pascal

Empirical_Pascal

Density

10 20 30 40 50 60

0.000.010.020.030.040.050.060.07

10 20 30 40 50 60

0.000.010.020.030.040.050.060.07

10 20 30 40 50 60

0.00.20.40.60.81.0

ecdf(Empirical_Pascal)

x

Fn(x)

●●●●●●●

●●

●

●●

●

●●

●●●●●●●●●●●●●●●●●● ●● ●

10 20 30 40 50 60

0.00.20.40.60.81.0

(10)

Laboratorio di Probabilit` a Variabile aleatoria di Poisson

Le funzioni implementate in R per la variabile aleatoria con legge di Poisson di parametro λ, valore atteso, sono:

dpois(x, lambda) – ppois(x, lambda) – qpois(a, lambda) – rpois(n, lambda)

con i significati usuali: funzione di probabilit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ESERCIZIO SVOLTO

Costruire il grafico della densità (funzione di probabilità) di Poisson per diversi valori di λ. Quale forma hanno le diverse funzioni di probabilità?

Qui sotto `e riportato solo il codice R.

lambda=c(0.8, 1,4.5,10) x=seq(1,20)

par(mfrow=c(2,2)) for (i in lambda) {

plot(x, dpois(x,i) ,type="h",

ylim=c(0,0.4), ylab = " ",xlab = " ", main=paste("Poisson - lambda = ",i)) abline(h=0)

}

par(mfrow=c(1,1))

0 5 10 15 20

0.00.20.4

Poisson − lambda = 0.8

0 5 10 15 20

0.00.20.4

Poisson − lambda = 1

0 5 10 15 20

0.00.20.4

Poisson − lambda = 4.5

0 5 10 15 20

0.00.20.4

Poisson − lambda = 10

ESERCIZI

Sia X una variabile aleatoria di Poisson con parametro 3.

1. Sia Y = X + 4. Dire, se `e possibile, in che relazione stanno fra loro le mediane di X e Y e le funzioni di distribuzione cumulata di X e Y . Dopo aver dato la risposta disegnare le due funzioni di distribuzione cumulata su uno stesso sistema di assi.

2. Sia Z = X²+ 2X calcolare P(Z > 3).

Sia X una variabile aleatoria di Poisson con media 6.

1.

2. Trovare il pi`u piccolo k tale che P(X > k) ≤ 0.7 3. Trovare il pi`u piccolo h tale che P(|X − 6| < h) ≤ 0.4.

(11)

Laboratorio di Probabilit` a Variabile aleatoria esponenziale

Le funzioni implementate in R per la variabile aleatoria con legge esponenziale di parametro λ sono:

dexp(x, lambda) – pexp(q, lambda) – qexp(a, lambda) – rexp(n, lambda)

con i significati usuali: funzione di densit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ESERCIZIO SVOLTO

Disegnare, su uno stesso sistema di assi, il grafico della funzione densit`a per diversi valori di λ.

Disegnare, su uno stesso sistema di assi, il grafico della funzione di distribuzione cumulata per diversi valori di λ.

lambda=c(1,5,10) x=seq(0,4,0.01)

colore=c("red","blue","green")

par(new=F) for (i in 1:3) {

plot(x, dexp(x,lambda[i]) ,type="l",

ylim=c(0,max(lambda)+1), ylab = " ",xlab = " ", main=paste("Esponenziale"),

col=colore[i]) abline(h=0,v=0) par(new=T) }

plot(x, pexp(x,lambda[i]) ,type="l", ylim=c(0,1), ylab = " ",xlab = " ", main=paste("Esponenziale"),

col=colore[i]) abline(h=c(0,1),v=0) par(new=T)

}

0 1 2 3 4

0246810

Esponenziale

0 1 2 3 4

0246810

Esponenziale

0 1 2 3 4

0246810

Esponenziale

0 1 2 3 4

0.00.20.40.60.81.0

Esponenziale

0 1 2 3 4

0.00.20.40.60.81.0

Esponenziale

0 1 2 3 4

0.00.20.40.60.81.0

Esponenziale

ESERCIZIO

Un impianto ha registrato, a partire da un tempo determinato, guasti alle ore 7 8 23 24 25 27 44 49 52 58 82 92 123 125 134 Considerare i tempi fra due guasti successivi nel campione considerato.

(12)

Laboratorio di Probabilit` a - Variabile aleatoria normale

Le funzioni implementate in R per la variabile aleatoria con legge di normale di parametri µ, valore atteso, e σ, standard deviation, sono:

dnorm(x,mu,sigma) – pnorm (x,mu,sigma) – qnorm (a,mu,sigma) – rnorm (n,mu,sigma)

con i significati usuali: funzione densit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali. Attenzione: il secondo parametro `e la standard deviation.

ESERCIZIO SVOLTO

Costruire il grafico della densit`a Normale per diversi valori di µ, ad esempio µ = −1, 0, 5, e per diversi valori di σ, ad esempio σ = 0.5, 1, 3. Quale forma hanno le diverse funzioni di densit`a? Per gli stessi parametri costruire il grafico della funzione di distribuzioni cumulata.

mu=c(-1,0,5) sigma=c(0.5,1,3)

colore=c("red","blue","green")

###UGUALE SIGMA DIVERSE MU x=seq(-5,9,0.01)

plot(x, dnorm(x,mu[i],sigma[2]) ,type="l", ylim=c(0,.5), ylab = " ",xlab = " ",lwd=2, main=paste("Normale sigma = ", sigma[2]), col=colore[i])

abline(h=0,v=0) par(new=T) }

plot(x, pnorm(x,mu[i],sigma[2]) ,type="l", ylim=c(0,1), ylab = " ",xlab = " ",lwd=2, main=paste("Normale sigma = ", sigma[2]), col=colore[i])

abline(h=c(0,1),v=0) par(new=T)

}

###UGUALE MU DIVERSE SIGMA x=seq(-8,8,0.01)

plot(x, dnorm(x,mu[2],sigma[i]) ,type="l", ylim=c(0,.9), ylab = " ",xlab = " ",lwd=2, main=paste("Normale mu = ", mu[2]), col=colore[i])

abline(h=0,v=0) par(new=T) }

plot(x, pnorm(x,mu[2],sigma[i]) ,type="l", ylim=c(0,1), ylab = " ",xlab = " ",lwd=2, main=paste("Normale mu = ", mu[2]), col=colore[i])

abline(h=c(0,1),v=0) par(new=T)

}

−4 −2 0 2 4 6 8

0.00.10.20.30.40.5

Normale sigma = 1

−4 −2 0 2 4 6 8

0.00.10.20.30.40.5

−4 −2 0 2 4 6 8

0.00.10.20.30.40.5

−4 −2 0 2 4 6 8

0.00.20.40.60.81.0

−4 −2 0 2 4 6 8

0.00.20.40.60.81.0

−4 −2 0 2 4 6 8

0.00.20.40.60.81.0

−5 0 5

0.00.20.40.60.8

Normale mu = 0

−5 0 5

0.00.20.40.60.8

Normale mu = 0

−5 0 5

0.00.20.40.60.8

Normale mu = 0

−5 0 5

0.00.20.40.60.81.0

Normale mu = 0

−5 0 5

0.00.20.40.60.81.0

Normale mu = 0

−5 0 5

0.00.20.40.60.81.0

Normale mu = 0

ESERCIZIO

Sia X una variabile aleatoria di legge Normale con valore atteso nullo. Calcolare, per σ = 0.5, 1, 3, P(|X| > σ), P(|X| > 2σ), P(|X| > 3σ)

(13)

La legge approssimata della somma di variabili aleatorie indipendenti e identicamente distribuite (i.i.d.)

Siano X₁, . . . , X_n variabili aleatorie indipendenti e con uguale legge tali che E(Xi) = µ e V(Xi) = σ². Sia S_n la variabile aleatoria Pn

i=1X_i; si ha: E(Sn) = n µ e V(Sn) = n σ². Teorema del limite centrale:

n→∞lim P

S_n− nµ

√nσ ≤ t

= P(Z ≤ t), per ogni t ∈ R con Z ∼ N (0, 1)

Che cosa si pu`o dire della legge di S_n per n “grande”?

S_n ∼

approxN (nµ, nσ²) Xi con legge esponenziale

Se X₁, . . . , X_ni.i.d con X_i∼ E(λ), si conosce la legge esatta della somma: Sn∼ Gamma(n, λ). Confrontiamo la legge esatta con la legge approssimata per λ = 2. Osserviamo che la legge di S₁`e decisamente “asimmetrica”.

par(mfrow=c(2,2)) for (i in n)

{plot(i*x,dgamma(i*x,i,lambda),type="l",xlab=" ",ylab=" ",lwd=2, ylim=c(0,0.8), col="red", main=paste("n = ",i)) par(new=T)

plot(x*i,dnorm(i*x,(i/lambda),(sqrt(i)/lambda)),xlab=" ",ylab=" ", ylim=c(0,0.8),type="l",lwd=2, col="blue")}

par(mfrow=c(1,1))

FUNZIONE DI DENSIT `A

0.0 0.5 1.0 1.5 2.0

0.00.20.40.60.8

n = 2

0.0 0.5 1.0 1.5 2.0

0.00.20.40.60.8

0 1 2 3 4 5

0.00.20.40.60.8

n = 5

0 1 2 3 4 5

0.00.20.40.60.8

0 2 4 6 8 10

0.00.20.40.60.8

n = 10

0 2 4 6 8 10

0.00.20.40.60.8

0 5 10 20 30

0.00.20.40.60.8

n = 30

0 5 10 20 30

0.00.20.40.60.8

FUNZIONE DI DISTRIBUZIONE CUMULATA

0.0 0.5 1.0 1.5 2.0

0.00.40.8

n = 2

0.0 0.5 1.0 1.5 2.0

0.00.40.8

0 1 2 3 4 5

0.00.40.8

n = 5

0 1 2 3 4 5

0.00.40.8

0 2 4 6 8 10

0.00.40.8

n = 10

0 2 4 6 8 10

0.00.40.8

0 5 10 20 30

0.00.40.8

n = 30

0 5 10 20 30

0.00.40.8

(14)

Per confrontare meglio le diverse funzioni consideriamo la variabile aleatoria media di X1, . . . , Xn: X_n= S_n

n con E(Xn) = µ e V(Xn) = σ²/n per n ‘‘grande⁰⁰ X_n ∼

approxN (µ, σ²/n)

par(mfrow=c(2,2)) for (i in n)

{plot(x,pgamma((i*x),i,lambda),type="l",xlab=" ",ylab=" ",lwd=2, ylim=c(0,1),col="red", main=paste("n = ",i)) par(new=T)

plot(x,pnorm(x,(1/lambda),(1/(sqrt(i)*lambda))),xlab=" ",ylab=" ", ylim=c(0,1),type="l",lwd=2,col="blue")}

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 2

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 5

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 10

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 30

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

X_i con legge tempo di arrivo del primo successo

Se X₁, . . . , X_n i.i.d con X_i∼ G(p), la legge della somma `e: S_n∼ Pascal(n, p). Per p = 0.7 confrontiamo la legge esatta con la legge approssimata.

S_n assume valori interi n, n + 1, . . . con probabilit`a P(Sn= y) = _n−1^y−1pⁿ(1 − p)^(y−n). Quindi:

Xn assume valori 1, (n + 1)/n, (n + 2)/n, . . . con P(Xⁿ = y/n) = P(Sⁿ= y) =y − 1 n − 1

pⁿ(1 − p)^(y−n)

x=seq(-0.1,3.1,0.001);y=seq(0,100);n=c(2,5,10,30);p=0.6 par(mfrow=c(2,2))

for (i in n)

{plot(y/i,pnbinom(((y-i)),i,p),type="s",xlab=" ",ylab=" ",lwd=2, ylim=c(0,1), col="red", xlim=c(0.5,3), main=paste("n = ",i)) par(new=T)

plot(x,pnorm(x,(1/p),(sqrt((1-p)/i)/p)),xlab=" ",ylab=" ", xlim=c(0.5,3),ylim=c(0,1),type="l",lwd=2, col="blue")}

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 2

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 5

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 10

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 30

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

(15)

Introduzione ai test statistici - parte 2 - il caso normale

La produzione giornaliera di uova di un allevamento `e modellabile con una variabile aleatoria con legge normale, N (µ, σ²), con media 9000 uova e deviazione standard 5000 uova. Si vuole verificare se una nuova razza di galline ha una produzione media maggiore di quella dell’allevamento, supponiamo di 10000 uova. Per le galline di questa nuova razza in 81 giorni di monitoraggio si ottiene una media giornaliera di 9500 uova.

Questo valore, indicato con x, `e considerato una realizzazione di una variabile aleatoria, indicata con X, con legge normale X_n ∼ N

µ,^σ_n²

dove µ e σ sono quelli della variabile X.

A fianco sono riportati i grafici delle densit`a di probabilit`a nei due casi per

X₈₁∼ N

µ,5000² 81

mu=c(9000,10000) sigma=5000/9 x=seq(7000,12000) colore=c("red","blue") yl=c(0,.0008)

par(new=F) for (i in 1:2)

{plot(x, dnorm(x,mu[i],sigma) ,type="l", ylim=yl, ylab = " ",xlab = " ",lwd=2,

main="H0 rosso - H1 blu", col=colore[i]) abline(h=0)

par(new=T)} 7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

H0 rosso − H1 blu

7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

Come gi`a visto per il caso binomiale si procede nel seguente modo:

• Si ipotizza che la nuova razza abbia la stessa produzione giornaliera media della vecchia:

H₀: µ = 9000 ipotesi principale o ipotesi nulla e si pone come alterativa:

H1: µ = 10000 ipotesi alternativa

• Bisogna scegliere “opportunamente” una soglia s per la media ottenuta nel campione in modo tale da decidere quale delle due ipotesi `e vera.

Si rifiuta H₀ se la media ottneuta nel campione supera tale soglia e si accetta H₀ se la media

`

e minore o uguale a s.

Il valore della soglia `e determinato supponendo vera l’ipotesi principale in modo che P X81> s |µ = 9000 =0.05.

Se si ottiene un valore medio “alto” si ritiene piu probabile che questo sia la realizzazione di una variabile aleatoria con valore atteso 10000.

La probabilità 0.05 è detta probabilità di errore di prima specie e viene indicata con α; può succedere che la produzione media sia di 9000 uova ma che si ottenga una media campionaria maggiore di s; in tal caso l’ipotesi principale viene rifiutata commettendo un errore: si prende la decisione sbagliata con probabilità 0.05.

L’intervallo (s, +∞) viene detto intervallo o regione di rifiuto dell’ipotesi principale.

Con il comando R s=qnorm(0.95,mu[1],sigma);s si ottiene 9913.808.

(16)

Sotto sono indicate la soglia s, le probabilit`a α in verde e β in giallo.

s=qnorm(0.95,mu[1],sigma);#s abline(v=s)

par(new=T) x1=seq(s,max(x)) y1=dnorm(x1,mu[1],sigma)

plot(x1,y1,type="l",lwd=3, xaxt="n",#yaxt="n",

xlab=" ",ylab=" ", col=colore[1], xlim=c(min(x),max(x)),ylim=yl) polygon(c(min(x1), x1, max(x1)), c(0, y1,0), col = "green")

par(new=T) x3=seq(min(x),s) y3=dnorm(x3,mu[2],sigma)

plot(x3,y3,type="l",lwd=3, xaxt="n",#yaxt="n",

xlab=" ",ylab=" ", col=colore[2], xlim=c(min(x),max(x)),ylim=yl) polygon(c(min(x3), x3, max(x3)), c(0, y3,0), col = "yellow") pnorm(s,mu[2],sigma)

7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

0e+002e−044e−046e−048e−040e+002e−044e−046e−048e−04

Invece di calcolare la soglia s e poi verificare se il valore campionario appartiene o meno alla regione di rifiuto di H0 si calcola il cosiddetto p-value campionario. Nel nostro caso

P X81>9500|µ = 9000

e si confronta con la probabilit`a di errore di prima specie scelto; se il p-value `e minore di α l’ipotesi principale

`

e rifiutata.

Nel caso della produzione di uova con il comando 1-pnorm(9500,mu[1],sigma) si ottiene 0.1840601 . Dunque quale decisione si prende?.