DDiissttrriibbuuzziioonnee tt ddii SSttuuddeenntt AAppppeennddiiccee

(1)

A

p

_p

p

_p

e

_e

n

_n

d

_d

i

_i

c

_c

e

_e

D

i

s

t

r

i

b

u

z

i

o

n

e

t

d

i

S

t

u

d

e

n

t

Quando la media della popolazione (

µ

) non è nota, di norma anche la sua

varianza (

σ

2_{) è ignota; di conseguenza, occorre utilizzare un sostituto della}

varianza della popolazione e la varianza del campione (

S

2_{) ne rappresenta}

la stima più logica ed attendibile. Con

σ

ignota ed il ricorso all’uso di

S

in sua sostituzione, la distribuzione non è più fornita dalla distribuzione

normale

Z

ma da quella del t, detta di Student, dallo pseudonimo di

William Sealy Gosset. Usando campioni ridotti, Gosset studiò lo scarto tra le medie dei campioni estratti dalla stessa popolazione e la media dell’universo, in rapporto all’errore standard. Ne derivò una distribuzione che è diversa dalla normale nel caso di piccoli campioni.

In una sperimentazione statistica elementare, nella quale si voglia ripetere l’esperienza di Gosset, la distribuzione t può essere ottenuta, con un campione costante di dati (n), dalle variazioni determinate dal rapporto:

n

S

X

t

=

−

µ

(2)

dove :

X è la media del campione;

µ è la media della popolazione;

n S

è l’errore standard del campione.

Per una maggiore comprensione dei concetti fondamentali ed una corretta applicazione dei test che ne sono derivati, è importante evidenziare le caratteristiche specifiche che differenziano questa distribuzione dalla gaussiana:

la distribuzione normale considera la variazione di

campionamento della sola media (x);

la distribuzione t di Student tiene conto anche della variazione di

campionamento della deviazione standard (

S

).

Per attuare una inferenza (che può essere definita come la capacità di trarre conclusioni generali, sulla popolazione od universo, utilizzando solo un numero limitato di dati variabili) sulla media di una popolazione, partendo da dati campionari, occorre pertanto considerare allo stesso tempo:

sia la variazione di x come stima di

µ

; sia la variazione di

S

come stima di

σ

.

(3)

praticamente identici. Di conseguenza si può affermare che all’aumentare di n si ha la convergenza dei valori della distribuzione t di Student verso la

distribuzione normale standardizzata

Z

. Mentre è trascurabile oltre qualche

decina di osservazioni, nel caso di piccoli campioni, la differenza tra il

valore del t di Student ed il corrispondente valore di

Z

alla stessa

probabilità.

I metodi che utilizzano il test t si riferiscono esclusivamente a piccoli campioni, spesso con una decina o meno di osservazioni.

In figura 1 è riportato il grafico della distribuzione normale standardizzata (linea continua) e quello della distribuzione t di Student (linea tratteggiata):

(4)

La distribuzione t di Student è una distribuzione di probabilità teorica, con un’area totale uguale al 100%, se espressa in percentuale, oppure uguale a 1, se espressa in valori unitari.

Ha la forma di una campana simmetrica come la normale, ma con una dispersione maggiore. Non esiste una sola curva t, a differenza della gaussiana, ma esiste un’intera famiglia di distribuzioni t, una per ogni grado di libertà.

Per un valore di gdl infinito (in pratica, invece, per un numero di dati di

poco superiore al centinaio) la curva dei valori di t e quella di

Z

coincidono. Dal punto di vista matematico, significa che la distribuzione normale rappresenta il limite della distribuzione t, quando i gdl aumentano. Viceversa, al diminuire dei gdl la distribuzione t è progressivamente sempre più dispersa.

Le condizioni di validità della distribuzione t di Student, e quindi dei test che la utilizzano, sono:

la distribuzione dei dati deve essere normale;

le osservazioni devono essere raccolte in modo indipendente. La distribuzione t è molto robusta; un test viene definito robusto rispetto ad una condizione di validità, quando i risultati possono essere accertati anche se l’assunzione di validità non è verificata in modo rigoroso.

Nella statistica applicata, il test t è utilizzato per il confronto tra:

la media di un campione e la media dell’universo (o una generica media attesa);

(5)

le medie di due campioni indipendenti.

Per ognuno dei tre casi sulle medie (media di un campione, media delle differenze tra due campioni dipendenti e differenza tra le medie di due campioni indipendenti) è possibile ricavare l’intervallo fiduciale. Per definire questo intervallo è necessario considerare che dalla media x , di

un campione, è possibile dedurre qual è la media

µ

della popolazione. In

questo caso l’inferenza classica non risponde con una sola misura (quella fornita da uno stimatore puntuale) ma fornisce due valori (indicati con L1 e

L2), che determinano un intervallo, entro il quale si trova il valore del

parametro alla probabilità α prescelta. I due valori estremi sono detti

limiti fiduciali e comprendono l’intervallo fiduciale.

Il metodo dell’intervallo fiduciale rappresenta un’alternativa ai test inferenziali corrispondenti che fornisce esattamente le stesse conclusioni.