• Non ci sono risultati.

In queste definizioni ho N variabili indipendenti, nessun vincolo e quindi N coincide con i “gradi di libertà”

N/A
N/A
Protected

Academic year: 2021

Condividi "In queste definizioni ho N variabili indipendenti, nessun vincolo e quindi N coincide con i “gradi di libertà”"

Copied!
13
0
0

Testo completo

(1)

Definizione della variabile c2 Distribuzione della variabile c2

In queste definizioni ho N variabili indipendenti, nessun vincolo e quindi N coincide con i

“gradi di libertà”

(2)

In un sistema fisico dove il numero di gradi di libertà è legato al numero di vincoli (ricordatevi Il fattore N-1 nella deviazione standard) allora vale la solita definizione:

gradi di libertà (n) = numero misure indipendenti (N) – numero di vincoli (c) n= N - C

Valgono le seguenti affermazioni

3) Per valori di n > 2 la distribuzione assume il valore massimo in corrispondenza di n-2

(3)

In figura sono mostrate le fk(c2) per k = 1,2,3,4,6,9 (in questa figura i grado di libertà sono indicate come k). Si osservi che per k ≤ 2 la funzione fk(c2) decresce in modo monotono al crescere del valore di c2 . Inoltre per k = 1 è divergente per c2  0 e per k = 2 diventa la funzione esponenziale negativa

c2

(4)

 )

2 ,

1

2

2

c

i N

xi

x

ha come funzione di distribuzione la fnc2) con n = N-1 gradi di libertà. Infatti il valore medio è calcolato dai dati e quindi è un vincolo.

(5)

Risulta che il c2 è un indicatore dell’accordo fra i valori osservati ed i valore attesi.

Se c2  0 l’accordo è perfetto ma è una situazione irrealistica poiché sarebbe assente l’errore statistico.

Se l’accordo è buono (ovvero il valore osservato è entro una deviazione standard dal valore atteso ) allora c2  N

(6)

Test del c2 per la verifica di una distribuzione attesa

(cap. 11 Cannelli)

Si supponga di avere un campione x1,x2, … xN di N variabili casuali e ci si ponga il problema di trovare la distribuzione di probabilità da cui proviene.

Il test del c2 è uno dei test di verifica di ipotesi di distribuzione attesa. Questo test può essere applicato sia ad una distribuzione discreta sia ad una distribuzione continua.

Si supponga che gli N valori della variabile possano essere divisi in n intervalli o classi mutuamente esclusivi in ciascuno dei quali cada un numero fk (k = 1, .. n) di valori.

Vale la relazione :

Siano pk le probabilità, calcolate sulla base della distribuzione ipotizzata, assegnate al k-esimo intervallo. Si noti che la variabile fk è una variabile binomiale con valore atteso Npk e varianza Npk(1- pk). Infatti fk indica la misura del numero di volte in cui xi cade nell’intervallo k-esimo.

In termini binomiali ho N tentativi e pk probabilità di successo.

Esempio:

Tiro un dado equiprobabile a 6 facce. La probabilità di avere “1” è pk =1/6.

Facendo N=60 tiri mi aspetto di ottenere Npk = 10 volte la faccia “1”. Il valore che osservo tirando effettivamente il dado 60 volte è fk che, il più delle volte, è diverso da 10.

Riassumendo: Npk è il valore atteso fk è il risultato della misura !

n

k fk N

1

(7)

Per controllare se l’insieme delle probabilità teoriche pk è compatibile con l’insieme delle frequenze osservate fk, si costruisce la variabile (introdotta nel 1900 da K.Pearson) chiamata c2. A priori non è il c2 precedentemente definito, infatti bisogna dimostrarlo !!

) )

n k

k n

k k

k k

Atteso Valore

Atteso Valore

f Np

Np f

, 1

2

, 1

2

c2

La variabile c2 così definita ha una funzione di distribuzione fn(c2) a n = n-1 gradi di libertà perché nel calcolo statistico viene usato N =  fk (k=1, .. n) come vincolo.

Si tratta di giustificare la definizione della

come una variabile c2 definita nei lucidi precedenti.

All’aumentare di N, è possibile suddividere il campo di variabilità della variabile casuale in un numero di intervalli abbastanza grandi in modo che la probabilità pk associata al generico di questi sia piccola (pk <<

1). Cosi la variabile binomiale f tende ad assumere il comportamento di una poissoniana con media e varianza Npk.

In altre parole si dimostra che questo c2 è sostanzialmente identico al c2 dei lucidi precedenti con questo ragionamento: aumentando il numero di misure, per mantenere finito il prodotto Npk, la probabilità pk deve ridursi sempre di più (il passo della distribuzione deve diventare sempre più piccolo) quindi si arriva alle ipotesi per cui una binomiale può essere approssimata ad un Poissoniana e quindi alla relazione 2 = Npk

)

n

k k

k k

Np Np f

, 1

2

(8)

Generalmente, una indicazione di massima suggerisce che la scelta degli intervalli in cui raggruppare i valori sia fatta in modo tale che in ciascun intervallo non cadano meno di 5 valori ATTESI

Quindi, il test del c2 su una distribuzione statistica ha senso solo se il numero di conteggi attesi in un una cella sia abbastanza grande. In generale, se ci sono pochi conteggi attesi non è formalmente corretto fare il test del c2

(9)
(10)

In questa figura con n=10 gradi di libertà si è ottenuto un c20 = 16.

Guardando le tavole di c2 questo significa che, se la distribuzione ipotizzata è quella vera, esiste il Pn(c2>c20) =10% di probabilità di osservare una distribuzione sperimentale meno compatibile di quella ottenuta

effettivamente.

Convenzionalmente si pone la soglia di accettazione al 5%.

In altre parole dato un esperimento che segue la distribuzione statistica ipotizzata allora facendo 100 esperimenti che producono 100 distribuzioni statistiche sperimentali, in 5 casi rigetterò (erroneamente) l’ipotesi (giusta).

(11)

Si è convenuto che la soglia di accettazione sia il 5% ovvero:

Si accetta l’ipotesi che la distribuzione osservata sia compatibile con la distribuzione attesa se Pn(c2>c20) ≥ 5% .

Si rigetta l’ipotesi se Pn(c2>c20) < 5%

Il calcolo di Pn(c2>c20)si ottiene dalle tabelle in fondo al libro (pg. 409 (AIV) per il c2 e pg 410 (AV) per il c2 ridotto del Cannelli oppure tabella D pag 295 del Taylor).

Ricordate che

La ragione per cui si calcola il c2 ridotto è solo di comodità in quando la tabella risulta essere più compatta

(12)

Riassunto

l test del c2 per una distribuzione procede con questi passaggi:

1. Si ipotizza una distribuzione F(x) per una certa variabile aleatoria x che viene più volte misurata.

2. I parametri della distribuzione F(x) possono essere a loro volta ipotizzati o estratti dai dati sperimentali (questo andrà a modifica il numero di gradi di libertà finali)

3. Si calcola il c2 come spiegato nei lucidi precedenti, un c2 piccolo implica una migliore compatibilità, viceversa un c2 elevato suggerisce che la distribuzione ipotizzata F(x) non segua l’andamento

sperimentale e quindi non descriva correttamente i dati sperimentali.

Come quantificare questo ? Quanto "elevato" deve essere di c2 calcolato (piccolo e grande non vogliono dire nulla) ?

4a. Se la distribuzione ipotizzata F(x) descrive correttamente i dati, il c2 calcolato si deve distribuire come la distribuzione di c2 mostrata all’inizio di questi lucidi (tenendo conto dei gradi di libertà). Con questa assunzione si calcola la probabilità di ottenere un c2 ≥ del c2 osservato (si può usare il c2 o ilc2 ridotto sulla base delle tabelle disponibili).

Ad esempio se questa probabilità è pari a 0.05 allora ho il 5% di probabilità che la distribuzione ipotizzata descriva correttamente i dati. In altra parole se la distribuzione ipotizzata F(x) descrive correttamente i dati, facendo 100 misure, 7 darebbero un c2 uguale o superiore a quello da noi trovato. Quindi 5 volte su 100 affermerei (erroneamente) che la distribuzione ipotizzata NON descrive correttamente i dati.

5. Il test del c2 consente di escludere delle ipotesi, ma non di verificarle.

(13)

NOTE Importanti:

Sia Pn(c2>c20) la probabilità di ottenere un c2 ≥ del c2 osservato

Allora Pn(c2>c20) rappresenta la probabilità di rigettare erroneamente una ipotesi

‘corretta’

Una soglia di accettazione molto piccola per Pn(c2>c20) (es. Pn(c2>c20) > 1 %) è meno soggetta ad errori (in altre parole è meno probabile rigettare una ipotesi corretta) ma

significa accettare anche c2 alti, quindi accettare anche possibili ipotesi sbagliate (cioè si è meno restrittivi)

Il test del c2 consente di escludere delle ipotesi, ma non di verificarle.

Se ipotizzo una F(x) e ottengo Pn(c2>c20) < 5 % escludo F(x) che non passa il test.

Se ipotizzo una F(x) e ottengo Pn(c2>c20) > 5 %, F(x) passa il test ma nulla esclude che anche un'altra distribuzione G(x) possa passare il test del c2 .

In questo caso entrambe F(x) e G(x) sarebbero compatibili con i dati.

Riferimenti

Documenti correlati

Indichiamo con N il numero di litri d’acqua venduti da un supermercato in un giorno, numero aleatorio, di solito molto elevato. Ignorando approssimativamente per semplicit`a il

Cercare di usare ragionamenti il più possibile strutturali e non solo calcoli

1. Quattro rilevazioni di una certa variabile danno i seguenti risultati: 0, −3, 1, x, dove x ` e un valore incognito.. Si vuole capire quale di due farmaci sia pi` u efficace

Determinare i punti di minimo assoluto e il punto di massimo relativo di f in

[r]

[r]

lineare ed uniforme di carica elettrica mediante il teorema di Gauss. 3) Calcolare il campo elettrostatico di una distribuzione piana ed uniforme di carica elettrica mediante

Polinomi ciclotomici, campi finiti.. Sia R un