• Non ci sono risultati.

Laboratorio di Probabilit`a Funzioni relative a variabili aleatorie in R

N/A
N/A
Protected

Academic year: 2021

Condividi "Laboratorio di Probabilit`a Funzioni relative a variabili aleatorie in R"

Copied!
16
0
0

Testo completo

(1)

Laboratorio di Probabilit` a

Funzioni relative a variabili aleatorie in R

In R sono implementate le seguente funzioni relative alle variabili aleatorie pi`u comuni.

• d<nome-var-al>(x,<altri parametri>) densit`a (o funzione di probabilit`a) della v. a. nel punto x

• p<nome-var-al>(x,<altri parametri>) funzione di distribuzione cumulata nel punto x

• q<nome-var-al>(a,<altri parametri>) quantile a-esimo

• r<nome-var-al>(n,<altri parametri>) campione di n elementi estratti secondo la variabile aleatoria

Variabile aleatoria binomiale

Per la variabile aleatoria con legge Binomiale di parametri (n, p)

dbinom(x,n,p) pbinom (x,n,p) qbinom (a,n,p) rbinom (N,n,p)

A fianco sono riportate rappresentazioni grafiche delle funzioni di probabilit`a e di distribuzione cumulata.

Attenzione: non sono grafici di funzione!! (come dovrebbero essere fatti propriamente?) Per`o, per comodit`a espositiva, qui e in seguito ci riferiremo a queste rappresentazioni come “grafici di”.

n=20 p=0.40 x=seq(0,n) dbinom(x,n,p) pbinom(x,n,p)

cbind(x,round(dbinom(x,n,p),6),round(pbinom(x,n,p),6)) x

[1,] 0 0.000037 0.000037 [2,] 1 0.000487 0.000524 [3,] 2 0.003087 0.003611 [4,] 3 0.012350 0.015961 [5,] 4 0.034991 0.050952 [6,] 5 0.074647 0.125599 [7,] 6 0.124412 0.250011 [8,] 7 0.165882 0.415893 [9,] 8 0.179706 0.595599 [10,] 9 0.159738 0.755337 [11,] 10 0.117142 0.872479 [12,] 11 0.070995 0.943474 [13,] 12 0.035497 0.978971 [14,] 13 0.014563 0.993534 [15,] 14 0.004854 0.998388

0 5 10 15 20

0.000.050.100.15

Binomiale n=20 p=0.4

x dbinom(x, n, p) 0.40.60.81.0

Binomiale n=20 p=0.4

(2)

0 5 10 15 20

0.000.100.200.30

Binomiale n=20 p= 0.1

0 5 10 15 20

0.000.100.200.30

Binomiale n=20 p= 0.3

0 5 10 15 20

0.000.100.200.30

Binomiale n=20 p= 0.5

0 5 10 15 20

0.000.100.200.30

Binomiale n=20 p= 0.9

Grafici della densit`a [probabilit`a] bino- miale per n=10 e per diversi valori della probabilit`a di successo

pr=c(0.10,0.30,0.50,0.90) par(mfrow=c(2,2))

for (i in pr) {

prob_bin= dbinom(x,n,i) plot(x, prob_bin ,type="h",

ylim=c(0,.3),

ylab = " ",xlab = " ",

main=paste("Binomiale n=20 p=",i)) abline(h=0)

}

par(mfrow=c(1,1))

a) Che cosa si osserva? Quale forma hanno le diverse funzioni di probabilit`a? Quale `e la moda?

b) Calcolare la media delle variabili aleatorie binomiali per i valori di probabilit`a scelti a partire dai valori tabulati precedentemente e confrontarli con quelli teorici.

media=rep(0,length(pr)) for (i in 1:length(pr)) { prob_bin= dbinom(x,n,pr[i]) media[i]=sum(prob_bin*x) }; media

c) Calcolare la mediana “teorica” delle variabili aleatorie binomiali per i valori di probabilit`a scelti.

mediana=rep(0,length(pr)) for (i in 1:length(pr))

{ mediana[i]= qbinom(0.50,n,pr[i]) } mediana

ESERCIZI DA SVOLGERE

1. Si sa che il 70% di una certa variet`a di bulbi fiorir`a. Si piantano 10 bulbi.

(a) Calcolare la probabilit`a che fioriscano: esattamente 3 bulbi; al pi`u 6 bulbi; almeno 2 bulbi.

(b) Se si piantano 100 bulbi quanto deve valere k affinch´e la probabilit`a che fioriscano almeno k bulbi sia maggiore dell’80%?

2. In una citt`a si suppone, in base ai risultati di un sondaggio, che il 35% di elettori che votano in un seggio sia favorevole al candidato A. Nel seggio votano 130 elettori.

(a) Calcolare la probabilit`a che in quel seggio il candidato A abbia non pi`u del 70% di voti. E la probabilit`a che abbia non pi`u del 30%.

(b) Qual `e il numero di voti pi`u probabile per il candidato A?

3. L’incubatrice di un allevamento di polli deve mantenere una temperatura che permetta la schiusa delle uova; per far ci`o devono funzionare contemporaneamente almeno 5 e non pi`u di 9 apposite resistenze.

Ciascuna resistenza ha una probabilit`a di essere funzionante per tutto il periodo necessario alla schiusa pari a 0.85; le resistenze funzionano l’una indipendentemente dall’altra. Supponiamo inoltre che non intervengano altri fattori che incidano sul funzionamento dell’incubatrice. Si vuole stabilire qual `e il numero minimo di resistenze che occorre attivare per avere una probabilit`a maggiore del 95% che almeno 5 resistenze restino sempre funzionanti.

(3)

Laboratorio di Probabilit` a

Introduzione ai test statistici nel caso binomiale

Un esperimento ha due possibili risultati, denominati successo, codificato con 1, e insuccesso, codificato con 0. Si sa che la probabilit`a di successo pu`o assumere i valori 0.3 e 0.7 (e solo uno di questi). Si effettuano 20 prove indipendenti dell’esperimento e sulla base dei risultati campionari si deve decidere quale delle due probabilit`a `e vera. I risultati delle 20 prove indipendenti sono modellabili con una variabile aleatoria X con legge binomiale:

X ∼ B(20, p) Si hanno due ipotesi per la probabilit`a di successo:

H0: p = 0.3 ipotesi principale o ipotesi nulla H1: p = 0.6 ipotesi alternativa

A fianco sono riportati i grafici delle funzioni di probabilit`a nei due casi (i valori sulle ascisse sono lievemente spostati a destra e a sinistra dell’intero per problemi di leggibilit`a).

x=seq(0,20)

y0=dbinom(x,20,0.3) y1=dbinom(x,20,0.7)

plot(x+0.1,y0,xlim=c(0,20),ylim=c(0,.2),type="h",lwd=3, xlab=" ",ylab=" ",col="red")

par(new=T)

plot(x-0.1,y1,xlim=c(0,20),ylim=c(0,.2),type="h",lwd=3, xlab=" ",ylab=" ")

abline(h=0)

0 5 10 15 20

0.000.050.100.150.20

0 5 10 15 20

0.000.050.100.150.20

Bisogna scegliere “opportunamente” una soglia s per i successi ottenuti nel campione in modo tale da decidere quale delle due ipotesi `e vera. Si rifiuta H0se il numero di successi supera tale soglia e si accetta H0se il numero di successi `e minore o uguale a s.

Il valore della soglia c determinato in modo che, supponendo vera l’ipotesi principale, P(X > s | p = 0.3) <0.05

Infatti se si ottiene un numero di successi “alto” si ritiene pi`u probabile che questo sia la realizzazione di una variabile aleatoria con p = 0.7.

Con il comando R s=qbinom(0.95,20,0.3);s si ottiene 9.

La regola di decisione sulla scelta delle ipotesi diventa: “se nelle 20 prove effettuate si ottengono pi`u di 9 successi, si rifiuta H0, che corrisponde a p = 0.3 (e si accetta H1, che corrisponde a p = 0.7).”

La probabilit`a di rifiutare H0quando questa `e vera, che sopra `e stata posta pari a 0.05, `e detta probabilit`a di errore di prima specie e viene indicata con α.

Pu`o succedere che nelle 20 prove si ottenga un numero di successi minore o uguale a 9 anche se la probabilit`a “vera” `e 0.7, come `e 50.2050.20

(4)

Con quale probabilit`a, essendo vera H1, cio`e p = 0.7, si accetta H0? Con il comando R pbinom(9,20,0.7) si ottiene 0.01714482 .

La probabilit`a ottenuta, di accettare H0quando `e vera H1, `e detta probabilit`a di errore di seconda specie e viene indicata con β.

Le decisioni prese sono quindi affette da errore, come `e sintetizzato nelle seguenti tabelle.

DECISIONE PROBABILIT `A

H0 accettata H0 rifiutata H0accettata H0rifiutata H1 rifiutata H1 accettata H1 rifiutata H1 accettata H0 vera

corretta sbagliata 1 − α α

H1 falsa H0 falsa

sbagliata corretta β 1 − β

H1 vera

Sotto sono riportati grafici delle distribuzioni cumulate nelle due ipotesi ed `e indicata la soglia individuata.

Indicare α e β nel grafico.

x1=seq(0,s) x2=seq(s+1,20) y0_2=dbinom(x2,20,0.3) y1_1=dbinom(x1,20,0.7)

plot(x2,y0_2,xlim=c(0,20),ylim=c(0,.2),type="h",lwd=3, xlab=" ",ylab=" ",col="red")

par(new=T) plot(x1,y1_1,xlim=c(0,20),ylim=c(0,.2),type="h", lwd=3,xlab=" ",ylab=" ")

abline(h=0) abline(v=s+.5, col="blue",lwd=3)x=seq(0,20) y0=pbinom(x,20,0.3)

y1=pbinom(x,20,0.7)

plot(x,y0,xlim=c(0,20),ylim=c(0,1),type="s",lwd=3,xlab=" ",ylab=" ", col="red")

par(new=T)

plot(x,y1,xlim=c(0,20),ylim=c(0,1),type="s",lwd=3, xlab=" ",ylab=" ") abline(h=0)

abline(h=c(pbinom(s,20,0.7),pbinom(s,20,0.3)),v=s,lwd=2,col="blue" ) 0 5 10 15 20

0.00.20.40.60.81.0

0 5 10 15 20

0.00.20.40.60.81.0

Effettuare il test invertendo le ipotesi H0 e H1. La soglia rimane la stessa?

(5)

Laboratorio di Probabilit` a Variabile aleatoria ipergeometrica

Le funzioni implementate in R per la variabile aleatoria con legge Ipergeometrica di parametri (m, n, k) dove m `e il numero di successi nella popolazione, n `e il numero di insuccessi nella popolazione, k `e il numero di estrazioni, sono:

dhyper(x, m, n, k) – phyper(q, m, n, k) – qhyper(p, m, n, k) – rhyper(nn, m, n, k)

ESERCIZI

1. Un urna contiene 500 palline di cui 200 rosse e 300 bianche. Si eseguono 10 estrazioni. Per le domande successive considerare, confrontandoli, i due casi:

• senza reinserimento

• con reinserimento

(a) Calcolare la probabilit`a di estrarre almeno quattro palline rosse (b) Costruire il grafico della densit`a di probabilit`a

(c) Costruire il grafico della distribuzione cumulata

(d) Qual `e il numero di palline rosse estratte pi`u frequente, quale `e la media e la mediana

se si vogliono disegnare su uno stesso sistema di assi due grafici fra un plot e l’altro inserire il comando par(new=T); alla fine ricordare par(new=F)

Rispondere alle domande precedenti nel caso in cui si facciano 50 estrazioni.

2. Calcolare il quadrato della somma degli errori commessi approssimando la distribuzione ipergeometrica con quella binomiale nei seguenti casi:

(m, n, k) = (200, 300, 15) (m, n, k) = (200, 300, 50) (m, n, k) = (10, 490, 15) (m, n, k) = (10, 490, 100) Commentare le differenze.

(6)

Laboratorio di Probabilit` a

Variabili aleatorie “geometrica” e “tempo di arrivo del primo successo”

Le funzioni implementate in R per la variabile aleatoria con legge Geometrica di parametro p sono:

dgeom(x,p) – pgeom(x,p) – qgeom(a,p) – rgeom(n,p)

con i significati usuali: funzione di probabilit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ATTENZIONE: La Variabile aleatoria X con legge Geometrica di parametro p implementata in R assume valori 0, 1, 2, ... e modella il numero di insuccessi prima del primo successo; la sua densit`a di probabilit`a :

P(X = x) = p(1 − p)x per x = 0, 1, 2, ...

Per ottenere la variabile aleatoria Y che modella il tempo di arrivo del primo successo, (valori 1, 2, 3...) `e necessario operare la trasformazione:

Y = X + 1 con P(Y = y) = p(1 − p)(y−1) y = 1, 2, ...

Ad esempio, se p = 0.2, per avere la probabilit`a che il primo successo arrivi alla 10-ima prova il comando `e:

dgeom(10-1, 0.2) cio`e bisogna operare la trasformazione inversa X = Y − 1.

ESERCIZIO SVOLTO

Costruire il grafico della densit`a [probabilit`a] geometrica per diversi valori della probabilit`a di successo [es. p = 0.20, 0.40, ...0.90]. Che cosa si osserva? Quale forma hanno le diverse funzioni di probabilit`a?

pr=seq(0.20,0.80,0.20) y=seq(1,10)

par(mfrow=c(2,2)) for (i in pr) {

plot(y, dgeom(y-1,i) ,type="h",

## attenzione a y e y-1 ylim=c(0,0.85), ylab = " ",xlab = " ", main=paste("Arrivo primo successo-p=",i)) abline(h=0)

}

par(mfrow=c(1,1))

2 4 6 8 10

0.00.40.8

Arrivo primo successo−p= 0.2

2 4 6 8 10

0.00.40.8

Arrivo primo successo−p= 0.4

2 4 6 8 10

0.00.40.8

Arrivo primo successo−p= 0.6

2 4 6 8 10

0.00.40.8

Arrivo primo successo−p= 0.8

ESERCIZI DA SVOLGERE

1. Calcolare la media delle variabili aleatorie geometriche per i valori di probabilit`a scelti a partire dai valori tabulati precedentemente e confrontarli con quelli teorici [attenzione le densit`a tabulate sono sono “troncate” a differenza del caso binomiale visto in precedenza]

2. Calcolare la mediana teorica del tempo di attesa del primo successo per i valori di probabilit`a scelti.

3. Paolo scommette con Chiara che lanciando un dado equilibrato, l’1 uscir`a per la prima volta prima (<) della sesta prova. Con quale probabilit`a Paolo avr`a il gelato? Quanti lanci bisogna fare per avere una probabilit`a del 90% che si verifichi la prima uscita dell’1?

4. In media una persona su 10 che passano in un viale entra in un negozio. Qual la probabilit`a che la prima persona che entra nel negozio dopo che `e aperto la mattina sia la quinta che passa nel viale? E la decima?

(7)

Laboratorio di Probabilit` a

Variabili aleatorie “binomiale negativa” e

“tempo di arrivo del k-simo successo o Pascal”

Le funzioni implementate in R per la variabile aleatoria con legge Binomiale negativa di parametro p e taglia k sono:

dnbinom(x, size, p) – pnbinom(q, size, p) – qnbinom(a, size, prob) – rnbinom(n, size, prob) con i significati usuali: funzione di probabilit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ATTENZIONE: La Variabile aleatoria X con legge Binomiale negativa di parametro p implementata in R assume valori 0, 1, 2, ... e modella il numero di insuccessi prima del k-esimo successo; la sua densit`a di probabilit`a `e:

P(X = x) =x + k − 1 k − 1



pk(1 − p)x per x = 0, 1, 2, ...

Per ottenere la variabile aleatoria Y che modella il tempo di arrivo del k-esimo successo, (valori k, k + 1, k + 2, k + 3...) `e necessario operare la trasformazione:

Y = X + k con P(Y = y) =

y − 1 k − 1



pk(1 − p)(y−k) y = k, k + 1, k + 2, k + 3 . Ad esempio, se p = 0.2, per avere la probabilit`a che il terzo successo arrivi alla 10-ima prova il comando `e:

dnbinom(10-3, 3, 0.2) cio`e bisogna operare la trasformazione inversa X = Y − 3.

ESERCIZIO SVOLTO

Costruire il grafico della densit`a (funzione di probabilit`a) Pascal per diversi valori della probabilit`a di successo e per diversi numeri di successi (es. k = 1, 5, 9, ... A che cosa corrisponde k = 1?). Quale forma hanno le diverse funzioni di probabilit`a?

Qui sotto `e riportato solo il codice per k = 5.

Attenzione alle diverse scale delle ascisse e delle ordinate per i tre gruppi di grafici riportati sotto.

pr=seq(0.20,0.80,0.20) k=5

fin=20

y=seq(k,fin+k)

par(mfrow=c(2,2)) for (i in pr) {

plot(y, dnbinom(y-k,k,i) ,type="h",

## attenzione a y e y-k ylim=c(0,0.35), ylab = " ",xlab = " ", main=paste("Arrivo", k, "successo p = ",i)) abline(h=0)

}

par(mfrow=c(1,1))

5 10 15 20

0.00.20.40.60.8

Arrivo 1 successo p = 0.2

5 10 15 20

0.00.20.40.60.8

Arrivo 1 successo p = 0.4

5 10 15 20

0.00.20.40.60.8

Arrivo 1 successo p = 0.6

5 10 15 20

0.00.20.40.60.8

Arrivo 1 successo p = 0.8

(8)

5 10 15 20 25

0.000.150.30

Arrivo 5 successo p = 0.2

5 10 15 20 25

0.000.150.30

Arrivo 5 successo p = 0.4

5 10 15 20 25

0.000.150.30

Arrivo 5 successo p = 0.6

5 10 15 20 25

0.000.150.30

Arrivo 5 successo p = 0.8

10 15 20 25

0.000.100.20

Arrivo 9 successo p = 0.2

10 15 20 25

0.000.100.20

Arrivo 9 successo p = 0.4

10 15 20 25

0.000.100.20

Arrivo 9 successo p = 0.6

10 15 20 25

0.000.100.20

Arrivo 9 successo p = 0.8

ESERCIZIO

Per uno studio si effettuano una serie di fotografie di varie cellule, ma non tutte risultano di buona qualit`a; la probabilit`a che una fotografia sia utilizzabile `e 0.8. Si supponga che le qualit`a delle immagini siano indipendenti. Per lo studio sono necessarie 8 fotografie utilizzabili. Si continuano a fare fotografie fino a quando non se ne ottengono 8 di buona qualit. Ciascuna fotografia costa 1 euro. Calcolare la probabilit`a di aver sprecato 5 euro (in fotografie di cattiva qualit`a)? Qual `a la mediana del numero di fotografie sprecate?

(9)

La v.a. di Pascal come somma di v.a. geometriche

Scegliamo k = 8. Simuliamo con R 8 realizzazioni della v.a. tempo di arrivo del primo successo con parametro p e sommiamo i risultati. Verifichiamo graficamente come la funzione di probabilit`a e di distribuzione cumulata della somma ottenuta siano legate a quelle (teoriche) di una variabile aleatoria con legge di Pascal con parametri (k, p)

Sotto sono riportati i grafici con un diverso numero di simulazioni, 100 e 1000. Attenzione alle diverse scale per le ordinate.

Histogram of Empirical_Pascal

Empirical_Pascal

Density

10 20 30 40

0.000.020.040.060.080.10

10 20 30 40

0.000.020.040.060.080.10

10 20 30 40

0.00.20.40.60.81.0

ecdf(Empirical_Pascal)

x

Fn(x)

● ●

● ●

● ●

● ●

● ●● ●

10 20 30 40

0.00.20.40.60.81.0

Histogram of Empirical_Pascal

Empirical_Pascal

Density

10 20 30 40 50 60

0.000.010.020.030.040.050.060.07

10 20 30 40 50 60

0.000.010.020.030.040.050.060.07

10 20 30 40 50 60

0.00.20.40.60.81.0

ecdf(Empirical_Pascal)

x

Fn(x)

●●●●●●

●●●●●●●●●●●●● ●●

10 20 30 40 50 60

0.00.20.40.60.81.0

(10)

Laboratorio di Probabilit` a Variabile aleatoria di Poisson

Le funzioni implementate in R per la variabile aleatoria con legge di Poisson di parametro λ, valore atteso, sono:

dpois(x, lambda) – ppois(x, lambda) – qpois(a, lambda) – rpois(n, lambda)

con i significati usuali: funzione di probabilit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ESERCIZIO SVOLTO

Costruire il grafico della densit`a (funzione di probabilit`a) di Poisson per diversi valori di λ. Quale forma hanno le diverse funzioni di probabilit`a?

Qui sotto `e riportato solo il codice R.

lambda=c(0.8, 1,4.5,10) x=seq(1,20)

par(mfrow=c(2,2)) for (i in lambda) {

plot(x, dpois(x,i) ,type="h",

ylim=c(0,0.4), ylab = " ",xlab = " ", main=paste("Poisson - lambda = ",i)) abline(h=0)

}

par(mfrow=c(1,1))

0 5 10 15 20

0.00.20.4

Poisson − lambda = 0.8

0 5 10 15 20

0.00.20.4

Poisson − lambda = 1

0 5 10 15 20

0.00.20.4

Poisson − lambda = 4.5

0 5 10 15 20

0.00.20.4

Poisson − lambda = 10

ESERCIZI

Sia X una variabile aleatoria di Poisson con parametro 3.

1. Sia Y = X + 4. Dire, se `e possibile, in che relazione stanno fra loro le mediane di X e Y e le funzioni di distribuzione cumulata di X e Y . Dopo aver dato la risposta disegnare le due funzioni di distribuzione cumulata su uno stesso sistema di assi.

2. Sia Z = X2+ 2X calcolare P(Z > 3).

Sia X una variabile aleatoria di Poisson con media 6.

1.

2. Trovare il pi`u piccolo k tale che P(X > k) ≤ 0.7 3. Trovare il pi`u piccolo h tale che P(|X − 6| < h) ≤ 0.4.

(11)

Laboratorio di Probabilit` a Variabile aleatoria esponenziale

Le funzioni implementate in R per la variabile aleatoria con legge esponenziale di parametro λ sono:

dexp(x, lambda) – pexp(q, lambda) – qexp(a, lambda) – rexp(n, lambda)

con i significati usuali: funzione di densit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali.

ESERCIZIO SVOLTO

Disegnare, su uno stesso sistema di assi, il grafico della funzione densit`a per diversi valori di λ.

Disegnare, su uno stesso sistema di assi, il grafico della funzione di distribuzione cumulata per diversi valori di λ.

lambda=c(1,5,10) x=seq(0,4,0.01)

colore=c("red","blue","green")

par(new=F) for (i in 1:3) {

plot(x, dexp(x,lambda[i]) ,type="l",

ylim=c(0,max(lambda)+1), ylab = " ",xlab = " ", main=paste("Esponenziale"),

col=colore[i]) abline(h=0,v=0) par(new=T) }

par(new=F) for (i in 1:3) {

plot(x, pexp(x,lambda[i]) ,type="l", ylim=c(0,1), ylab = " ",xlab = " ", main=paste("Esponenziale"),

col=colore[i]) abline(h=c(0,1),v=0) par(new=T)

}

0 1 2 3 4

0246810

Esponenziale

0 1 2 3 4

0246810

Esponenziale

0 1 2 3 4

0246810

Esponenziale

0 1 2 3 4

0.00.20.40.60.81.0

Esponenziale

0 1 2 3 4

0.00.20.40.60.81.0

Esponenziale

0 1 2 3 4

0.00.20.40.60.81.0

Esponenziale

ESERCIZIO

Un impianto ha registrato, a partire da un tempo determinato, guasti alle ore 7 8 23 24 25 27 44 49 52 58 82 92 123 125 134 Considerare i tempi fra due guasti successivi nel campione considerato.

(12)

Laboratorio di Probabilit` a - Variabile aleatoria normale

Le funzioni implementate in R per la variabile aleatoria con legge di normale di parametri µ, valore atteso, e σ, standard deviation, sono:

dnorm(x,mu,sigma) – pnorm (x,mu,sigma) – qnorm (a,mu,sigma) – rnorm (n,mu,sigma)

con i significati usuali: funzione densit`a nel punto x, funzione di distribuzione cumulata nel punto x, quantile a-esimo, generazione di n numeri casuali. Attenzione: il secondo parametro `e la standard deviation.

ESERCIZIO SVOLTO

Costruire il grafico della densit`a Normale per diversi valori di µ, ad esempio µ = −1, 0, 5, e per diversi valori di σ, ad esempio σ = 0.5, 1, 3. Quale forma hanno le diverse funzioni di densit`a? Per gli stessi parametri costruire il grafico della funzione di distribuzioni cumulata.

mu=c(-1,0,5) sigma=c(0.5,1,3)

colore=c("red","blue","green")

###UGUALE SIGMA DIVERSE MU x=seq(-5,9,0.01)

par(new=F) for (i in 1:3) {

plot(x, dnorm(x,mu[i],sigma[2]) ,type="l", ylim=c(0,.5), ylab = " ",xlab = " ",lwd=2, main=paste("Normale sigma = ", sigma[2]), col=colore[i])

abline(h=0,v=0) par(new=T) }

par(new=F) for (i in 1:3) {

plot(x, pnorm(x,mu[i],sigma[2]) ,type="l", ylim=c(0,1), ylab = " ",xlab = " ",lwd=2, main=paste("Normale sigma = ", sigma[2]), col=colore[i])

abline(h=c(0,1),v=0) par(new=T)

}

###UGUALE MU DIVERSE SIGMA x=seq(-8,8,0.01)

par(new=F) for (i in 1:3) {

plot(x, dnorm(x,mu[2],sigma[i]) ,type="l", ylim=c(0,.9), ylab = " ",xlab = " ",lwd=2, main=paste("Normale mu = ", mu[2]), col=colore[i])

abline(h=0,v=0) par(new=T) }

par(new=F) for (i in 1:3) {

plot(x, pnorm(x,mu[2],sigma[i]) ,type="l", ylim=c(0,1), ylab = " ",xlab = " ",lwd=2, main=paste("Normale mu = ", mu[2]), col=colore[i])

abline(h=c(0,1),v=0) par(new=T)

}

−4 −2 0 2 4 6 8

0.00.10.20.30.40.5

Normale sigma = 1

−4 −2 0 2 4 6 8

0.00.10.20.30.40.5

Normale sigma = 1

−4 −2 0 2 4 6 8

0.00.10.20.30.40.5

Normale sigma = 1

−4 −2 0 2 4 6 8

0.00.20.40.60.81.0

Normale sigma = 1

−4 −2 0 2 4 6 8

0.00.20.40.60.81.0

Normale sigma = 1

−4 −2 0 2 4 6 8

0.00.20.40.60.81.0

Normale sigma = 1

−5 0 5

0.00.20.40.60.8

Normale mu = 0

−5 0 5

0.00.20.40.60.8

Normale mu = 0

−5 0 5

0.00.20.40.60.8

Normale mu = 0

−5 0 5

0.00.20.40.60.81.0

Normale mu = 0

−5 0 5

0.00.20.40.60.81.0

Normale mu = 0

−5 0 5

0.00.20.40.60.81.0

Normale mu = 0

ESERCIZIO

Sia X una variabile aleatoria di legge Normale con valore atteso nullo. Calcolare, per σ = 0.5, 1, 3, P(|X| > σ), P(|X| > 2σ), P(|X| > 3σ)

(13)

La legge approssimata della somma di variabili aleatorie indipendenti e identicamente distribuite (i.i.d.)

Siano X1, . . . , Xn variabili aleatorie indipendenti e con uguale legge tali che E(Xi) = µ e V(Xi) = σ2. Sia Sn la variabile aleatoria Pn

i=1Xi; si ha: E(Sn) = n µ e V(Sn) = n σ2. Teorema del limite centrale:

n→∞lim P

 Sn− nµ

√nσ ≤ t



= P(Z ≤ t), per ogni t ∈ R con Z ∼ N (0, 1)

Che cosa si pu`o dire della legge di Sn per n “grande”?

Sn

approxN (nµ, nσ2) Xi con legge esponenziale

Se X1, . . . , Xni.i.d con Xi∼ E(λ), si conosce la legge esatta della somma: Sn∼ Gamma(n, λ). Confrontiamo la legge esatta con la legge approssimata per λ = 2. Osserviamo che la legge di S1`e decisamente “asimmetrica”.

par(mfrow=c(2,2)) for (i in n)

{plot(i*x,dgamma(i*x,i,lambda),type="l",xlab=" ",ylab=" ",lwd=2, ylim=c(0,0.8), col="red", main=paste("n = ",i)) par(new=T)

plot(x*i,dnorm(i*x,(i/lambda),(sqrt(i)/lambda)),xlab=" ",ylab=" ", ylim=c(0,0.8),type="l",lwd=2, col="blue")}

par(mfrow=c(1,1))

FUNZIONE DI DENSIT `A

0.0 0.5 1.0 1.5 2.0

0.00.20.40.60.8

n = 2

0.0 0.5 1.0 1.5 2.0

0.00.20.40.60.8

0 1 2 3 4 5

0.00.20.40.60.8

n = 5

0 1 2 3 4 5

0.00.20.40.60.8

0 2 4 6 8 10

0.00.20.40.60.8

n = 10

0 2 4 6 8 10

0.00.20.40.60.8

0 5 10 20 30

0.00.20.40.60.8

n = 30

0 5 10 20 30

0.00.20.40.60.8

FUNZIONE DI DISTRIBUZIONE CUMULATA

0.0 0.5 1.0 1.5 2.0

0.00.40.8

n = 2

0.0 0.5 1.0 1.5 2.0

0.00.40.8

0 1 2 3 4 5

0.00.40.8

n = 5

0 1 2 3 4 5

0.00.40.8

0 2 4 6 8 10

0.00.40.8

n = 10

0 2 4 6 8 10

0.00.40.8

0 5 10 20 30

0.00.40.8

n = 30

0 5 10 20 30

0.00.40.8

(14)

Per confrontare meglio le diverse funzioni consideriamo la variabile aleatoria media di X1, . . . , Xn: Xn= Sn

n con E(Xn) = µ e V(Xn) = σ2/n per n ‘‘grande00 Xn

approxN (µ, σ2/n)

par(mfrow=c(2,2)) for (i in n)

{plot(x,pgamma((i*x),i,lambda),type="l",xlab=" ",ylab=" ",lwd=2, ylim=c(0,1),col="red", main=paste("n = ",i)) par(new=T)

plot(x,pnorm(x,(1/lambda),(1/(sqrt(i)*lambda))),xlab=" ",ylab=" ", ylim=c(0,1),type="l",lwd=2,col="blue")}

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 2

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 5

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 10

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

n = 30

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Xi con legge tempo di arrivo del primo successo

Se X1, . . . , Xn i.i.d con Xi∼ G(p), la legge della somma `e: Sn∼ Pascal(n, p). Per p = 0.7 confrontiamo la legge esatta con la legge approssimata.

Sn assume valori interi n, n + 1, . . . con probabilit`a P(Sn= y) = n−1y−1pn(1 − p)(y−n). Quindi:

Xn assume valori 1, (n + 1)/n, (n + 2)/n, . . . con P(Xn = y/n) = P(Sn= y) =y − 1 n − 1



pn(1 − p)(y−n)

x=seq(-0.1,3.1,0.001);y=seq(0,100);n=c(2,5,10,30);p=0.6 par(mfrow=c(2,2))

for (i in n)

{plot(y/i,pnbinom(((y-i)),i,p),type="s",xlab=" ",ylab=" ",lwd=2, ylim=c(0,1), col="red", xlim=c(0.5,3), main=paste("n = ",i)) par(new=T)

plot(x,pnorm(x,(1/p),(sqrt((1-p)/i)/p)),xlab=" ",ylab=" ", xlim=c(0.5,3),ylim=c(0,1),type="l",lwd=2, col="blue")}

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 2

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 5

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 10

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

n = 30

0.5 1.0 1.5 2.0 2.5 3.0

0.00.20.40.60.81.0

(15)

Introduzione ai test statistici - parte 2 - il caso normale

La produzione giornaliera di uova di un allevamento `e modellabile con una variabile aleatoria con legge normale, N (µ, σ2), con media 9000 uova e deviazione standard 5000 uova. Si vuole verificare se una nuova razza di galline ha una produzione media maggiore di quella dell’allevamento, supponiamo di 10000 uova. Per le galline di questa nuova razza in 81 giorni di monitoraggio si ottiene una media giornaliera di 9500 uova.

Questo valore, indicato con x, `e considerato una realizzazione di una variabile aleatoria, indicata con X, con legge normale Xn ∼ N

µ,σn2

dove µ e σ sono quelli della variabile X.

A fianco sono riportati i grafici delle densit`a di probabilit`a nei due casi per

X81∼ N



µ,50002 81



mu=c(9000,10000) sigma=5000/9 x=seq(7000,12000) colore=c("red","blue") yl=c(0,.0008)

par(new=F) for (i in 1:2)

{plot(x, dnorm(x,mu[i],sigma) ,type="l", ylim=yl, ylab = " ",xlab = " ",lwd=2,

main="H0 rosso - H1 blu", col=colore[i]) abline(h=0)

par(new=T)} 7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

H0 rosso − H1 blu

7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

H0 rosso − H1 blu

Come gi`a visto per il caso binomiale si procede nel seguente modo:

• Si ipotizza che la nuova razza abbia la stessa produzione giornaliera media della vecchia:

H0: µ = 9000 ipotesi principale o ipotesi nulla e si pone come alterativa:

H1: µ = 10000 ipotesi alternativa

• Bisogna scegliere “opportunamente” una soglia s per la media ottenuta nel campione in modo tale da decidere quale delle due ipotesi `e vera.

Si rifiuta H0 se la media ottneuta nel campione supera tale soglia e si accetta H0 se la media

`

e minore o uguale a s.

Il valore della soglia `e determinato supponendo vera l’ipotesi principale in modo che P X81> s |µ = 9000 =0.05.

Se si ottiene un valore medio “alto” si ritiene piu probabile che questo sia la realizzazione di una variabile aleatoria con valore atteso 10000.

La probabilit`a 0.05 `e detta probabilit`a di errore di prima specie e viene indicata con α; pu`o succedere che la produzione media sia di 9000 uova ma che si ottenga una media campionaria maggiore di s; in tal caso l’ipotesi principale viene rifiutata commettendo un errore: si prende la decisione sbagliata con probabilit`a 0.05.

L’intervallo (s, +∞) viene detto intervallo o regione di rifiuto dell’ipotesi principale.

Con il comando R s=qnorm(0.95,mu[1],sigma);s si ottiene 9913.808.

(16)

Sotto sono indicate la soglia s, le probabilit`a α in verde e β in giallo.

s=qnorm(0.95,mu[1],sigma);#s abline(v=s)

par(new=T) x1=seq(s,max(x)) y1=dnorm(x1,mu[1],sigma)

plot(x1,y1,type="l",lwd=3, xaxt="n",#yaxt="n",

xlab=" ",ylab=" ", col=colore[1], xlim=c(min(x),max(x)),ylim=yl) polygon(c(min(x1), x1, max(x1)), c(0, y1,0), col = "green")

par(new=T) x3=seq(min(x),s) y3=dnorm(x3,mu[2],sigma)

plot(x3,y3,type="l",lwd=3, xaxt="n",#yaxt="n",

xlab=" ",ylab=" ", col=colore[2], xlim=c(min(x),max(x)),ylim=yl) polygon(c(min(x3), x3, max(x3)), c(0, y3,0), col = "yellow") pnorm(s,mu[2],sigma)

7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

H0 rosso − H1 blu

7000 8000 9000 10000 11000 12000

0e+002e−044e−046e−048e−04

H0 rosso − H1 blu

0e+002e−044e−046e−048e−040e+002e−044e−046e−048e−04

Invece di calcolare la soglia s e poi verificare se il valore campionario appartiene o meno alla regione di rifiuto di H0 si calcola il cosiddetto p-value campionario. Nel nostro caso

P X81>9500|µ = 9000

e si confronta con la probabilit`a di errore di prima specie scelto; se il p-value `e minore di α l’ipotesi principale

`

e rifiutata.

Nel caso della produzione di uova con il comando 1-pnorm(9500,mu[1],sigma) si ottiene 0.1840601 . Dunque quale decisione si prende?.

Riferimenti

Documenti correlati

3) la derivata di f si annulla in almeno un punto 4) non esiste una

abbiamo quindi un’espressione com- posta di

[r]

1. Quattro rilevazioni di una certa variabile danno i seguenti risultati: 0, −3, 1, x, dove x ` e un valore incognito.. Si vuole capire quale di due farmaci sia pi` u efficace

(a) Enunciare il teorema di Fermat (relativo alla derivata di una funzione nei punti di massimo o minimo).. Enunciare, in modo completo e preciso, il teorema

della funzione F, gli intervalli in cui e’ crescente o decrescente e i suoi even- tuali punti di massimo o minimo locali, gli intervalli sui quali ha concavita’.. rivolta verso l’alto

Supponiamo che il numero m delle equazioni sia molto superiore al numero delle incognite, e che il sistema non abbia alcuna soluzione (questa e’ una situazione molto comune in

Osserviamo che la funzione proposta ` e continua nell’intervallo (0, 1]; pertanto, per stabilire se essa ` e im- propriamente integrabile in tale intervallo, ` e sufficiente studiarne