A
A
p
p
p
p
e
e
n
n
d
d
i
i
c
c
e
e
D
D
i
i
s
s
t
t
r
r
i
i
b
b
u
u
z
z
i
i
o
o
n
n
e
e
t
t
d
d
i
i
S
S
t
t
u
u
d
d
e
e
n
n
t
t
Quando la media della popolazione (
µ
) non è nota, di norma anche la suavarianza (
σ
2) è ignota; di conseguenza, occorre utilizzare un sostituto dellavarianza della popolazione e la varianza del campione (
S
2) ne rappresentala stima più logica ed attendibile. Con
σ
ignota ed il ricorso all’uso diS
in sua sostituzione, la distribuzione non è più fornita dalla distribuzionenormale
Z
ma da quella del t, detta di Student, dallo pseudonimo diWilliam Sealy Gosset. Usando campioni ridotti, Gosset studiò lo scarto tra le medie dei campioni estratti dalla stessa popolazione e la media dell’universo, in rapporto all’errore standard. Ne derivò una distribuzione che è diversa dalla normale nel caso di piccoli campioni.
In una sperimentazione statistica elementare, nella quale si voglia ripetere l’esperienza di Gosset, la distribuzione t può essere ottenuta, con un campione costante di dati (n), dalle variazioni determinate dal rapporto:
n
S
X
t
=
−
µ
dove :
X è la media del campione;
µ è la media della popolazione;
n S
è l’errore standard del campione.
Per una maggiore comprensione dei concetti fondamentali ed una corretta applicazione dei test che ne sono derivati, è importante evidenziare le caratteristiche specifiche che differenziano questa distribuzione dalla gaussiana:
la distribuzione normale considera la variazione di
campionamento della sola media (x);
la distribuzione t di Student tiene conto anche della variazione di
campionamento della deviazione standard (
S
).
Per attuare una inferenza (che può essere definita come la capacità di trarre conclusioni generali, sulla popolazione od universo, utilizzando solo un numero limitato di dati variabili) sulla media di una popolazione, partendo da dati campionari, occorre pertanto considerare allo stesso tempo:
sia la variazione di x come stima di
µ
; sia la variazione diS
come stima diσ
.praticamente identici. Di conseguenza si può affermare che all’aumentare di n si ha la convergenza dei valori della distribuzione t di Student verso la
distribuzione normale standardizzata
Z
. Mentre è trascurabile oltre qualchedecina di osservazioni, nel caso di piccoli campioni, la differenza tra il
valore del t di Student ed il corrispondente valore di
Z
alla stessaprobabilità.
I metodi che utilizzano il test t si riferiscono esclusivamente a piccoli campioni, spesso con una decina o meno di osservazioni.
In figura 1 è riportato il grafico della distribuzione normale standardizzata (linea continua) e quello della distribuzione t di Student (linea tratteggiata):
La distribuzione t di Student è una distribuzione di probabilità teorica, con un’area totale uguale al 100%, se espressa in percentuale, oppure uguale a 1, se espressa in valori unitari.
Ha la forma di una campana simmetrica come la normale, ma con una dispersione maggiore. Non esiste una sola curva t, a differenza della gaussiana, ma esiste un’intera famiglia di distribuzioni t, una per ogni grado di libertà.
Per un valore di gdl infinito (in pratica, invece, per un numero di dati di
poco superiore al centinaio) la curva dei valori di t e quella di
Z
coincidono. Dal punto di vista matematico, significa che la distribuzione normale rappresenta il limite della distribuzione t, quando i gdl aumentano. Viceversa, al diminuire dei gdl la distribuzione t è progressivamente sempre più dispersa.
Le condizioni di validità della distribuzione t di Student, e quindi dei test che la utilizzano, sono:
la distribuzione dei dati deve essere normale;
le osservazioni devono essere raccolte in modo indipendente. La distribuzione t è molto robusta; un test viene definito robusto rispetto ad una condizione di validità, quando i risultati possono essere accertati anche se l’assunzione di validità non è verificata in modo rigoroso.
Nella statistica applicata, il test t è utilizzato per il confronto tra:
la media di un campione e la media dell’universo (o una generica media attesa);
le medie di due campioni indipendenti.
Per ognuno dei tre casi sulle medie (media di un campione, media delle differenze tra due campioni dipendenti e differenza tra le medie di due campioni indipendenti) è possibile ricavare l’intervallo fiduciale. Per definire questo intervallo è necessario considerare che dalla media x , di
un campione, è possibile dedurre qual è la media
µ
della popolazione. Inquesto caso l’inferenza classica non risponde con una sola misura (quella fornita da uno stimatore puntuale) ma fornisce due valori (indicati con L1 e
L2), che determinano un intervallo, entro il quale si trova il valore del
parametro alla probabilità α prescelta. I due valori estremi sono detti
limiti fiduciali e comprendono l’intervallo fiduciale.
Il metodo dell’intervallo fiduciale rappresenta un’alternativa ai test inferenziali corrispondenti che fornisce esattamente le stesse conclusioni.