non si possono fare generalizzazioni assolutamente certe, si possono fare inferenze incerte e misurare il grado di incertezza in termini di probabilit` a.

(1)

10 Campionamento

Gli statistici si basano sulle leggi fondamentali della probabilit` a e dell’inferenza statistica per giungere a conclusioni sui sistemi scientifici studiati. L’obiettivo `e generalizzare l’esperimento singolo alla classe di tutti gli esperimenti simili, operando un’estensione dal particolare al generale, detta INFERENZA IN- DUTTIVA.

L’inferenza induttiva `e perci` o un processo d’azzardo:

non si possono fare generalizzazioni assolutamente certe, si possono fare inferenze incerte e misurare il grado di incertezza in termini di probabilit` a.

DEFINIZIONE: La totalit` a delle osservazioni a cui siamo interessati `e detta POPOLAZIONE OBIET- TIVO (il numero delle osservazioni pu` o essere finito o infinito).

Essendo poco pratico esaminare l’intera popolazione, si pu` o esaminare una sua parte e fare inferenza sulla popolazione obiettivo.

DEFINIZIONE: Un sottoinsieme della popolazione

`e detta CAMPIONE.

Perch`e il campione sia rappresentativo della popola-

(2)

zione `e necessario che il campionamento sia casuale.

Nel campionamento casuale semplice ogni campione di una determinata dimensione ha la stessa probabilit` a di essere selezionato di qualsiasi altro campione della stessa dimensione (campionamenti indipendenti).

Supponiamo che la popolazione sia caratterizzata da una certa funzione di densit` a f (x). Scegliendo un campione casuale di dimensione n dalla popolazione f (x), definiamo la variabile casuale X

_i

, i = 1, ..., n per rappresentare la i−esima misura del campione che si osserva.

X

₁

, ..., X

_n

sono un campione casuale semplice otte- nuto da f (x) se le misure sono state ottenute ripe- tendo l’esperimento n volte in modo indipendente e alle stesse condizioni ⇒ X

₁

, ..., X

_n

sono n variabili casuali indipendenti con la stessa densit` a di probabilit` a f (x).

DEFINIZIONE: Siano X

₁

, ..., X

_n

n variabili casuali indipendenti con funzione di densit` a f (x). X

₁

, ..., X

_n

`e detto CAMPIONE CASUALE di dimensione n se

f

_X₁_,...,X_n

(x

₁

, ..., x

_n

) = f (x

₁

) . . . f (x

_n

)

(3)

(la funzione di densit` a congiunta `e uguale al prodotto delle funzioni di densit` a marginali).

DEFINIZIONE: Il campione casuale viene chiamato POPOLAZIONE CAMPIONATA.

La distribuzione congiunta

f

_X₁_,...,X_n

(x

₁

, ..., x

_n

) = f (x

₁

) . . . f (x

_n

)

`e detta DISTRIBUZIONE CAMPIONARIA del campione X

₁

, ..., X

_n

.

Lo scopo principale nel selezionare campioni casuali

`e quello di ottenere informazioni riguardo alcuni pa- rametri sconosciuti della popolazione obiettivo. Cio`e

`e nota la forma di f (·, θ), ma f contiene un parametro incognito θ.

PROCEDIMENTO: Si estrae un campione casuale X

₁

, ..., X

_n

di dimensione n dalla densit` a f (·, θ) e si stima il parametro incognito θ con il valore di una qualche funzione t(X

₁

, ..., X

_n

). Infine si determina quale tra queste funzioni sia la migliore per stimare il parametro θ.

DEFINIZIONE: Una funzione t delle variabili casua-

li X

₁

, ..., X

_n

che costituiscono il campione casuale `e

detta STATISTICA.

(4)

La statistica t(X

₁

, ..., X

_n

) `e a sua volta una variabile casuale che NON contiene alcun parametro incogni- to.

Esempi di statistiche utilizzate per misurare il centro di una serie di dati sono la media, la mediana e la moda, qui di seguito definite.

Dato un campione casuale X

₁

, ..., X

_n

di dimensione n, si definiscono:

− MEDIA CAMPIONARIA X

_n

= 1

n

X

i=1

X

_i

− MEDIANA CAMPIONARIA X = ˜







X

ⁿ⁺¹

2

se n `e dispari ,

1 2

X

ⁿ

2

+ X

ⁿ

2+1

se n `e pari ,

− MODA CAMPIONARIA

E il valore del campione che si presenta pi` ` u fre- quentemente.

Altre importanti statistiche sono le seguenti:

DEFINIZIONE: Dato X

₁

, ..., X

_n

campione casuale

di dimensione n estratto da una popolazione con

(5)

densit` a f (·) si definisce MOMENTO CAMPIONA- RIO DI ORDINE r (ASSOLUTO) la quantit` a

M

_r⁰

= 1 n

n

X

i=1

X

_i^r

OSSERVAZIONE: Se r = 1 M

₁⁰

= X

_n

.

DEFINIZIONE: Dato X

₁

, ..., X

_n

campione casuale di dimensione n estratto da una popolazione con densit` a f (·) si definisce MOMENTO CAMPIONA- RIO DI ORDINE r RISPETTO A X

_n

la quantit` a

M

_r

= 1 n

n

X

i=1

(X

_i

− X

_n

)

^r

Nota bene: se r = 1 M

₁

= 0.

OSSERVAZIONE: I momenti campionari assoluti ri- specchiano i momenti della popolazione, cio`e vale il seguente

Teorema 1: Dato X

₁

, ...X

_n

campione casuale di di-

mensione n estratto da una popolazione con densit` a

(6)

f (·) si ha:

E[M

_r⁰

] = µ

⁰_r

dove µ

⁰_r

sono i momenti di ordine r della popolazione.

Dimostrazione E[M

_r⁰

] = E

"

1 n

n

X

i=1

X

_i^r

#

= 1 n E

"

_n

X

i=1

X

_i^r

#

=

= 1 n

n

X

i=1

E[X

_i^r

] =

X_ihanno f.d. f

|{z}

1 n

n

X

i=1

µ

⁰_r

= 1

n · nµ

⁰_r

= µ

⁰_r

Teorema 1 bis: Dato X

₁

, ..., X

_n

campione casuale di dimensione n estratto da una popolazione con densit` a f (·) si ha:

var[M

_r⁰

] = 1

n µ

⁰_2r

− (µ

⁰_r

)

²

Dimostrazione

var[M

_r⁰

] = var

"

1 n

n

X

i=1

X

_i^r

#

=

= 1

n

²

var

"

_n

X

i=1

X

_i^r

#

=

X_i

|{z}

indip.nti

1 n

²

n

X

i=1

var[X

_i^r

].

(1)

(7)

A questo punto notiamo che se W `e una variabile casuale

var[W ] = E[W

²

] − E[W ]

²

,

quindi possiamo continuare l’equazione (1) con var[M

_r⁰

] = 1

n

²

n

X

i=1

n

E[X

_i^2r

] − (E[X

_i^r

])

²

o

= 1 n

²

n

nE[X

^2r

] − n (E[X

^r

])

²

o

= 1

n [µ

⁰_2r

− (µ

⁰_r

)

²

] OSSERVAZIONE

Se r = 1 E[M

₁⁰

] = E[X

_n

] = µ

⁰₁

= µ

dove µ `e la media della popolazione. Inoltre:

var[M

₁⁰

] = var[X

_n

] = 1

n [µ

⁰₂

− (µ

⁰₁

)

²

] = σ

²

n

dove σ

²

= µ

⁰₂

−(µ

⁰₁

)

²

`e la varianza della popolazione.

Quindi:

E[X

_n

] = µ, var[X

_n

] = σ

²

n

Una misura di posizione, o tendenza centrale, in un

campione non fornisce da sola una chiara indicazio-

ne sulla natura del campione. Deve essere sempre

(8)

considerata anche una misura di variabilit` a del campione. Riguardo al momento campionario di ordine r rispetto alla media campionaria si ha

se r = 2 M

₂

= 1 n

n

X

i=1

X

_i

− X

_n

²

Anzich`e utilizzare M

₂

si preferisce usare la varianza campionaria che ora definiamo.

DEFINIZIONE: Dato X

₁

, ..., X

_n

campione casuale di dimensione n estratto da una popolazione con densit` a f (·) si definisce VARIANZA CAMPIONA- RIA la quantit` a

S

²

= 1 n − 1

n

X

i=1

X

_i

− X

_n

²

Nota bene: se n `e molto grande non c’`e differenza tra S

²

e M

₂

.

OSSERVAZIONE: Si usa S

²

anzich`e M

₂

come misura della variabilit` a del campione perch`e vale il seguente

TEOREMA 2: Dato X

₁

, ..., X

_n

campione casuale

di dimensione n estratto da una popolazione con

(9)

funzione di densit` a f (·) si ha:

E[S

²

] = σ

²

dove σ

²

`e la varianza della popolazione.

Dimostrazione (facoltativa)

n

X

i=1

(X

_i

− X

_n

)

²

=

n

X

i=1

(X

_i²

− 2X

_i

X

_n

+ X

²_n

) =

=

n

X

i=1

X

_i²

− 2X

_n

n

X

i=1

X

_i

| {z }

nX_n

+nX

²_n

=

n

X

i=1

X

_i²

− nX

²_n

Perci` o S

²

= 1

n − 1

n

X

i=1

X

_i

− X

_n

²

= 1

n − 1

n

X

i=1

X

_i²

− nX

²_n

!

Passando al valore atteso (n − 1)E[S

²

] = E

(

_n

X

i=1

X

_i²

− nX

²_n

)

=

= E

"

_n

X

i=1

X

_i²

#

− nE[X

²_n

] =

n

X

i=1

E[X

_i²

] − nE[X

²_n

]

(10)

Ma dalla definizione di varianza abbiamo che ∀ variabile casuale W vale

var[W ] = E[W

²

] − E[W ]

²

e quindi

E[W

²

] = var[W ] + E[W ]

²

e possiamo scrivere

(n − 1)E[S

²

] =

n

X

i=1

var[X

_i

] + E[X

_i

]

²

+

− n var[X

_n

] + E[X

_n

]

²

=

= n var[X] + nE[X]

²

− n σ

²

n + µ

²

dove abbiamo utilizzato il fatto che tutte le X

_i

hanno la stessa funzione di densit` a. Quindi

(n − 1)E[S

²

] = nσ

²

+

^Z^Z_Z

Z

nµ

²

−

n

σ

²

n

−

^Z^Z_Z

Z

nµ

²

= (n − 1)σ

²

da cui

E[S

²

] = σ

²

Calcoliamo adesso E[M

₂

]. Dalla definizione di M

₂

e

(11)

di S

²

si ha:

S

²

= n

n − 1 M

₂

Infatti

S

²

= 1 n − 1

n

X

i=1

X

_i

− X

_n

²

=

= n

n − 1

"

1 n

n

X

i=1

X

_i

− X

_n

²

#

=

= n

n − 1 M

₂

=⇒ M

₂

= n − 1 n S

²

da cui

E[M

²

] = n − 1

n E[S

²

] = n − 1

n σ

²

6= σ

²

Questo `e il motivo per cui si usa la varianza campionaria al posto del momento campionario di ordine 2 rispetto alla media campionaria come statistica per stimare la varianza della popolazione σ

²

.

Riassumendo

M

_r⁰

stima µ

⁰_r

; X

_n

stima µ; S

²

stima σ

²

(12)

OSSERVAZIONE

Il Teorema 1 per r = 1 ci dice che la media campionaria X

_n

in media `e uguale al parametro µ della popolazione (E[X

_n

] = µ), cio`e la distribuzione di X

_n

`e CENTRATA attorno a µ.

Invece var[X

_n

] =

^σ_n²

prova che la dispersione dei valori di X

_n

intorno a µ `e piccola se n, l’ampiezza del campione, `e grande.

LA LEGGE DEI GRANDI NUMERI IN FORMA DEBOLE

La legge debole dei grandi numeri, che si dimostra usando la disuguaglianza di Chebyshev, afferma che si possono fare inferenze attendibili per la media µ di una popolazione attraverso un numero finito di valori (campione casuale di dimensione n) di X.

E possibile determinare un intero positivo n tale che, `

se si prende un campione casuale di dimensione ≥ n

da una popolazione di densit` a f (·) con media µ, la

probabilit` a che la differenza tra la media campiona-

ria X

_n

e la media µ della popolazione sia minore di

una quantit` a fissata piccola a piacere, `e vicina ad 1

quanto si vuole.

(13)

In formule

∀ > 0 e 0 < δ < 1 ∃ n >

^σ²

²δ

:

P |X

_n

− µ| < ≥ 1 − δ

con µ e σ

²

rispettivamente media e varianza della densit` a f (·) della popolazione.

Dimostrazione

Ricordiamo la disuguaglianza di Markov:

P [g(x) ≥ r] ≤ E[g(x)]

r , ∀r > 0 e g(x) ≥ 0, ∀x ∈ R e la formulazione analoga

P [g(x) < r] ≥ 1 − E[g(x)]

r . Scelti g(x) = (x

_n

− µ)

²

ed r =

²

P |X

_n

− µ| < = P (X

_n

− µ)

²

<

²

≥ 1 − E (X

_n

− µ)

²

ma dalla definizione di varianza

var[X] = E[(X − µ

_X

)

²

]

(14)

poich`e E[X

_n

] = µ ⇒ E (X

_n

− µ)

²

= var[X

_n

], quindi

P |X

_n

− µ| < ≥ 1 − var[X

_n

]

²

= 1 − σ

²

n

²

≥ 1 − δ per δ >

_n^σ²₂

oppure n >

_δ^σ²₂

.

Esempi

1) Data una popolazione con media µ incognita e varianza σ

²

= 1, calcolare la dimensione del campione casuale estratto affinch`e sia almeno del 95% la probabilit` a che la media campionaria disti meno di 0.5 dalla media della popolazione

P [|X

_n

−µ| < ] ≥ 1−δ ⇒ P [|X

_n

−µ| < 0.5] ≥ 0.95

= 0.5 δ = 0.05 ⇒

⇒ n >

_δ^σ²₂

=

(0.05)·(0.5)¹ ²

= 80 Nota bene σ

²

`e nota.

2) Quanto deve essere grande un campione casuale

per essere sicuri al 99% che la media campionaria

disti meno di 0.5σ dalla media µ della popolazione?

(15)

P [|X

_n

− µ| < ] = 0.99 ⇒ δ = 0.01

= 0.5σ σ `e incognita

n >

_δ^σ²₂

=

(0.01)·(0.5σ^σ² ²)

=

(0.01)·(0.5)¹ ²

= 400

IL TEOREMA DEL LIMITE CENTRALE

Sia X

_n

la media campionaria di un campione casuale di dimensione n estratto da una popolazione avente funzione di densit` a f (·) INCOGNITA, con media µ e varianza finita σ

²

. Sia Z

_n

la variabile casuale definita da:

Z

_n

= X

_n

− E[X

_n

] q

var[X

_n

]

= X

_n

− µ

√σ n

Allora la distribuzione di Z

_n

tende alla distribuzione normale standard N (0, 1) quando n → ∞.

Z

_n

∼ N (0, 1) ˙ ∼ approssimativamente ˙

Problema del TLC: quanto deve essere grande il campione affinch`e l’approssimazione sia valida?

Regola empirica → n ≥ 30

(16)

OSSERVAZIONE

Se la densit` a della popolazione f (·) `e NORMALE allora ogni elemento X

_i

di X

_n

`e normale e quindi Z

_n

∼ N (0, 1) ∼ esattamente

indipendentemente dalla numerosit` a n del campione.

Le uguaglianze



 

 

 

 

E[Z

_n

] =

√ n

σ E[X

_n

− µ] =

√ n

σ (µ − µ) = 0 var[Z

_n

] = n

σ

²

var[X

_n

− µ] = n

σ

²

var[X

_n

]

= n

σ

²

· σ

²

n = 1 valgono sempre.

Esempio

Si considerino delle sbarre di lunghezza data, carat-

terizzate da una f (·) incognita con σ

²

= 0.04m

²

.

Scelto un campione casuale di dimensione n, calco-

lare n in modo che la media campionaria X

_n

disti

dalla media della popolazione µ per meno di un cen-

timetro, con una probabilit` a maggiore del 97%.

(17)

1

^◦

metodo: LGN

1cm = 0.01m ⇒ = 0.01 σ

²

= 0.04m

²

⇒ σ = 0.2m.

P [|X

_n

− µ| < ] > 1 − δ δ > σ

²

nδ

²

⇒ n > σ

²

δ

²

δ = 0.03 ⇒ n >

(0.03)·(0.01)^0.04 ²

= 1.3 · 10

⁴

∼ 13.333 2

^◦

metodo: TLC

|X

_n

− µ| < 0.01 ⇔ −0.01

√σ n

< X

_n

− µ

√σ n

< 0.01

√σ n

⇔ |Z

_n

| <

√ n 20

P [|X

_n

−µ| < 0.01] > 0.97 ⇒ P [|Z

_n

| <

√n

20

| {z }

=z_α

] > 0.97

P [|Z

_n

| < z

_α

] = 2 [P [Z

_n

< z

_α

] − 0.5] = 2P [Z

_n

< z

_α

]−1

Dalla tabella della N (0, 1) z

_α

= 2.17 ⇒

⇒

√n

20

= 2.17 ⇒ n = 1.883, 56 ⇒ n = 1.884

(18)

CAMPIONAMENTO DA DISTRIBUZIONI NORMALI

Da una popolazione con funzione di densit` a normale N (µ, σ

²

) segue che la distribuzione della media campionaria X

_n

`e ESATTAMENTE N (µ,

^σ_n²

) e quindi Z

_n

`e ESATTAMENTE N (0, 1).

Per ogni X

_i

elemento di un campione casuale di dimensione n si ha X

_i

∼ N (µ, σ

²

) da cui segue che Z

_i

=

^Xⁱ_σ^−µ

∼ N (0, 1).

Definiamo la funzione U ˙ =

n

X

i=1

Z

_i²

=

n

X

i=1

X

_i

− µ σ

²

= 1 σ

²

n

X

i=1

(X

_i

− µ)

²

(somma di quadrati di normali standard)

Si pu` o provare:

TEOREMA 3

U ∼ χ

²_n CHI QUADRO con n gradi di libert`a

Il “grado di libert` a” `e il numero di quadrati indipendenti nella sommatoria (ricordiamo che χ

²

`e una funzione GAMMA con λ = 1/2 ed r = n/2).

Poich`e Z

_n

=

^Xⁿσ^−µ

n

∼ N (0, 1), in base al Teorema 3 si ha

Z

_n²

∼ χ

²₁ CHI QUADRO con n = 1 gradi di libert`a

(19)

Definiamo la funzione:

V ˙ = n − 1

σ

²

S

²

= 1 σ

²

n

X

i=1

X

_i

− X

_n

²

=

n

X

i=1

Z

_i²

− Z

_n²

= U

|{z}

∼χ²_n

− Z

_n²

|{z}

∼χ²₁

L’uguaglianza in verde verr` a giustificata pi` u avanti.

Si pu` o provare:

TEOREMA 4

V ∼ χ

²_n−1 CHI QUADRO con (n − 1) gradi di libert`a

In analogia a X

_n

=

_n¹

n

P

i=1

X

_i

`e possibile definire Z

_n

= 1

n

X

i=1

Z

_i

= 1 n

n

X

i=1

X

_i

− µ σ

= 1

nσ (nX

_n

− nµ) = X

_n

− µ

σ ⇒

⇒

n

X

i=1

Z

_i

− Z

_n

= 0

^VINCOLO che abbassa il grado della libert`a.

(20)

Definiamo la funzione:

T ˙ = X

_n

− µ

√S n

=

X_n−µ σ/√

n S σ

= Z

_n

q

V

n−1

Poich`e X

_n

e S

²

sono statistiche indipendenti `e possibile dimostrare che Z

_n

e V sono indipendenti.

Si pu` o provare:

TEOREMA 5

T ∼ t

_n−1 t di STUDENT con (n − 1) gradi di libert`a

Giustifichiamo adesso l’uguaglianza in verde intro- dotta prima del Teorema 4. Abbiamo:

1 σ

²

n

X

i=1

(X

_i

− X

_n

)

²

= 1 σ

²

n

X

i=1

(X

_i

− µ) − (X

_n

− µ)

²

= 1 σ

²

n

X

i=1

(X

_i

− µ)

²

− 2

σ

²

(X

_n

− µ)

n

X

i=1

(X

_i

− µ)

| {z }

n(X_n−µ)

+

+ n

σ

²

(X

_n

− µ)

²

=

n

X

i=1

X

_i

− µ σ

2

− n

σ

²

(X

_n

− µ)

²

(21)

Ma

_σⁿ₂

(X

_n

− µ)

²

=

X_n−µ σ/√

n

2

, quindi 1

σ

²

n

X

i=1

(X

_i

− X

_n

)

²

=

n

X

i=1

Z

_i²

− nZ

²_n

=

n

X

i=1

Z

_i

− Z

_n²

TAVOLA RIASSUNTIVA

− Z

_n

`e la statistica in grado di fare inferenza sulla media µ della popolazione quando σ

²

`e nota.

− T `e la statistica in grado di fare inferenza sulla media µ della popolazione quando σ

²

`e incognita.

− V `e la statistica in grado di fare inferenza sulla varianza σ

²

della popolazione quando µ `e incognita.

− U `e la statistica in grado di fare inferenza sulla

varianza σ

²

della popolazione quando µ `e nota.

(22)

Esempio

Si vuole localizzare un oggetto nello spazio, ma il processo di misurazione porta un errore (in ognuna delle 3 dimensioni x, y, z) che si distribuisce come una variabile casuale normale N (µ = 0, σ = 2m).

Supponendo i 3 errori indipendenti, calcolare la probabilit` a che la distanza tra posizione misurata e posizione reale sia maggiore di 3 metri.

P (x, y, z) reale P (x ˜

₁

, y

₁

, z

₁

) misurata

x

₁

= x +

₁

y

₁

= y +

₂

z

₁

= z +

₃

₁

,

₂

,

₃

errori

D = distanza tra P e P ˜ D

²

= P ˜ P

²

= (x − x

₁

)

²

+ (y − y

₁

)

²

+ (z − z

₁

)

²

=

²₁

+

²₂

+

²₃

_i

∼ N (0, 2) Z ˆ

_i

=

_i

− µ

σ =

_i

2 ∼ N (0, 1) Y =

3

P

i=1

Z ˆ

_i²

= somma di quadrati di normali stan-

(23)

dard ⇒ per il Teorema 3: Y ∼ χ

²_n=3

P [D > 3] = P [D

²

> 9] = P [

²₁

+

²₂

+

²₃

> 9] =

= P [ ˆ Z

₁²

+ ˆ Z

₂²

+ ˆ Z

₃²

> 9/4] = P [Y > 9/4] =

= 1 − P [Y ≤ 9/4]

| {z }

'0.4778

' 0.5222

Se il problema della localizzazione avviene nel piano allora abbiamo la posizione reale P (x, y) e quella misurata ˜ P (x

₁

, y

₁

).

D

²

=

²₁

+

²₂

⇒ Y ∼ χ

²_n=2

Ma χ

²_n=2

= Γ (λ = 1/2, r = n/2 = 1) = Γ(1/2, 1) = exp(λ = 1/2)

Quindi Y ∼ exp(λ = 1/2) cio`e:

f (y) = λe

^−λy

se y ≥ 0, F (y) = 1 − e

^−λy

.

Allora

P [D > 3] = P [D

²

> 9] = P [Y > 9/4] = 1 − P [Y ≤ 9/4] = 1 − F (9/4) = e

^−λy

λ=2,y=9/4

=

e

^−9/8

' 0.3247

non si possono fare generalizzazioni assolutamente certe, si possono fare inferenze incerte e misurare il grado di incertezza in termini di probabilit` a.

10 Campionamento

L’inferenza induttiva `e perci` o un processo d’azzardo: