• Non ci sono risultati.

Parametri d’interesse

N/A
N/A
Protected

Academic year: 2021

Condividi "Parametri d’interesse"

Copied!
19
0
0

Testo completo

(1)

Parametri d’interesse

IUT Nice – Côte d’Azur Département STID

6 Janvier 2006

Sondages

Corso di campionamento

(2)

Nomenclatura

Indicheremo con U una popolazione, con N la sua numerosità, con k la sua etichetta e con lettere maiuscole i valori di interesse (Yk)

Se Y è un carattere quantitativo sono di interesse il totale, la media aritmetica e la varianza

Se Y è qualitativo interessano le proporzioni degli elementi suddivise per ogni modalità

Indicheremo con c un campione, con n la sua numerosità, con i la sua etichetta, con Yi* la variabile aleatoria continua associata e con le lettere maiuscole le realizzazioni campionarie (yi)

(3)

Stimatori

La struttura di un generico stimatore lineare è una funzione delle variabile aleatoria continua

c i

i iY a * ˆ

dove ai rappresenta un coefficiente o un peso Le proprietà più importanti di uno stimatore che permettono di valutarne la qualità sono:

 Correttezza: valore atteso di * è uguale a 

 Consistenza: limite n p(n*) converge a 

Efficienza: l’errore quadratico medio di *, ossia E(* - )2, tende alla varianza di *

*

(4)

Disposizioni con ripetizione

Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni sono “ordinati”

Gli elementi dell’insieme  sono:

(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)

 è formato da 16 punti campione: Nⁿ = 2n = 16 Notare che (1,1), (2,2), (3,3), (4,4) derivano dall’aver “pescato” due volte lo stesso elemento

(5)

Disposizioni senza ripetizione

Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni sono sempre “ordinati”

Gli elementi dell’insieme  sono:

(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)

 è formato adesso da 12 punti campione, cioè (N)n = N (N-1) (N-2) ….. (N-n+1) = 4 · 3 = 12 Notare che l’elemento (i, j) è distinto da (j, i)

(6)

Combinazioni con ripetizione

Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni non tengono conto dell’ordine Gli elementi dell’insieme  sono:

(1,1) (1,2) (1,3) (1,4) (2,2) (2,3) (2,4) (3,3) (3,4) (4,4)  è formato da 10 punti campione:

2 10 20 )

1 2 3 ( ) 1 2 (

1 2 3 4 5 2

5 2

1 2

4

1













n n N

(7)

Combinazioni senza ripetizione

Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni non tengono conto dell’ordine e non possono essere ripetuti

Gli elementi dell’insieme  sono:

(1,2) (1,3) (1,4) (2,3) (2,4) (3,4)

 è formato da 6 punti campione:

2 6 12 1

2 1 2

1 2 3 4 2

4









n N

(8)

Esempio 1

Consideriamo una popolazione

X={1, 2, 3, 4, 5} in cui ogni elemento ha

probabilità 0.2

e una popolazione Y={1, 2, 3, 4, 5} con elementi aventi

probabilità p(Y) = (0.4, 0.2, 0.2, 0.1, 0.1)

(9)

Valori della popolazione

Media e varianza della popolazione X è:

E(X) = X = k=1…N xk p(xk) = 3

Var(X) = X2 = k=1…N (xk – E(X))2 / N = 2

Il problema è quello di stimare i parametri  e  della popolazione usando i dati del campione

Media e varianza della popolazione Y è:

E(Y) = Y = k=1…N xk p(yk) = 2.3

Var(Y) = Y2 = k=1…N (yk – E(Y))2 / N = 1.81

(10)

Campioni di numerosità 2

(11)

Alcuni casi

Caso (2, 1)

p(X) = 0.2 · 0.2 = 0.04 p(Y) = 0.4 · 0.2 = 0.08

media stimata = (2 + 1) / 2 = 1.5

varianza stimata = [(2-1.5)2 + (1-1.5)2] / 2 = 0.25 Caso (4, 3)

p(X) = 0.2 · 0.2 = 0.04 p(Y) = 0.1 · 0.2 = 0.02

media stimata = (4 + 3) / 2 = 3.5

varianza stimata = [(4-3.5)2 + (3-3.5)2] / 2 = 0.25

(12)

Distribuzioni parametri

x 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 p(x) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04

y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 p(y) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01

var(x) 0 0.25 1 2.25 4

p(var(x)) 0.20 0.32 0.24 0.16 0.08

var(y) 0 0.25 1 2.25 4

p(var(y)) 0.26 0.30 0.24 0.12 0.08

(13)

Conclusioni

Considerando le variabili aleatorie X e Y

E(var(X))= i=1,N var(xi) p(var(xi)) = 1

(0 · 0.20 + 0.25 · 0.32 + 1 · 0.24 + 2.25 · 0.16 + 4 · 0.08)

E(var(Y))= i=1,N var(yi) p(var(yi)) = 0.905

(0 · 0.26 + 0.25 · 0.30 + 1 · 0.24 + 2.25 · 0.12 + 4 · 0.08)

La varianza della distribuzione delle medie ha valore quello della varianza della popolazione divisa per la numerosità del campione

E(X ) = 3 = µX E(Y ) = 2.3 = µY

(14)

Valore medio della media

In generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e var(X) = 2 sconosciuta

= n / n

Se x1, x2, …, xn è un campione estratto da X si considerano X1, X2, …, Xn variabili aleatorie con la stessa legge (uguale media e varianza) di X

La media del valore di X risulta

= ( +  + …. + ) / n =

= [E(X1) + E(X2) + …. + E(Xn)] / n = E(X) = E((X1 + X2 + …. + Xn) / n) =

= 

(15)

Varianza della media

= n2 / n2

= (2 + 2 + …. + 2) / n2 =

= [var(X1) + var(X2) + …. + var(Xn)] / n2 = var(X) = var((X1 + X2 + …. + Xn) / n) =

=  / n

In conclusione la distribuzione delle medie ha la medesima media della distribuzione della popolazione ma dispersione minore (2/n)

Questa quantità è chiamata errore standard della media (mean standard error, MSE) e viene indicata con x =  / n

(16)

Stima

Uno degli scopi della statistica inferenziale è quello di ottenere informazioni circa i parametri di una popolazione (considerati fissi) a partire da valori determinati in base al campione

I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono

Si cercano indicazioni il più possibile precise sui parametri ignoti di una popolazione (media e

varianza) attraverso i valori campionari (processo di stima)

(17)

Stimatore

La stima dei parametri di una popolazione si

effettua attraverso uno stimatore che fornisce un valore approssimato del parametro

lo stimatore è una funzione T(X1, X2, ...., Xn) del campione

la stima è il risultato dello studio: t(x1, x2, ...., xn)

Siano X1, X2, ...., Xn n variabili aleatorie indipendenti con la legge uguale a X

siano x1, x2, ...., xn i valori assunti dalle n variabili aleatorie nella realizzazione dello studio

(18)

Processo di stima

Lo stimatore T è quindi una regola che si utilizza per determinare il possibile valore del parametro incognito (media, varianza)

Quando la regola è stata stabilita saranno i valori del campione a determinare la stima t del parametro.

Se una caratteristica X (variabile aleatoria) della popolazione ha legge f(x) significa che ciascun elemento del campione X1, X2, ...., Xn è a sua volta una variabile aleatoria di legge f(x) ed è quindi possibile determinare f(x1), f(x2), ...., f(xn)

(19)

Determinare la “norma”

Risulta sempre nota la legge di X ma non sono noti (incognite) uno o più parametri della sua distribuzione

Ad esempio:

X ha legge Binomiale [X~B(n,p)]: p è sconosciuto X ha legge di Poisson [X~P(k)]: k è sconosciuto

X ha legge di Gaussiana [X~N(µ,)]: µ e/o  sono sconosciuti

Riferimenti

Documenti correlati

• Il prototipo prototipo di una funzione è una dichiarazione di funzione antecedente alla sua definizione: permette al compilatore di compiere il controllo sui tipi degli argomenti

Riportiamo qui per convenien- za le ipotesi di applicabilità della regola di derivazione sotto il segno di integrale per questo tipo di integrali (vedi De Marco [1, pagina

Dato che la funzione norma `e convessa (si veda il Riquadro 1), che il quadrato di una funzione non-negativa convessa `e convesso (si veda il Riquadro 2) e che la somma di fun-

ORGANO SUBCOMMESSURALE: cellule ependimali neurosecretorie rilascio di vari neuropeptidi nel liquido cefalorachidiano..

questo parametro viene definito errore standard (E.S.) ed è una misura della precisione della stima campionaria della media aritmetica della popolazione (misura dell'errore

Poiché i momenti della popolazione sono funzione dei parametri, basta considerare tanti momenti quanti sono i parametri da stimare e risolvere un sistema di r equazioni

Ogni qualvolta abbiamo necessità di studiare un carattere di una popolazione ampia (per esempio l’altezza dei diciottenni italiani) ricorriamo a delle metodologie che ci consentano

Durante i numerosi sopralluoghi effettuati sia in occasione dei rilievi della rete che durante alcuni eventi meteorici, oltre che dalla verifica della rete con il metodo