IL METODO DI KOLMOGOROV-SMIRNOV PER UN CAMPIONE, CON DATI ORDINALI DISCRETI E CON DATI CONTINUI

σ diventa uguale a 28,89 mentre,

ESEMPIO 1. Peter Armitage e Geoffry Berry nel loro testo del 1994 (Statistical Methods in

7.15. IL METODO DI KOLMOGOROV-SMIRNOV PER UN CAMPIONE, CON DATI ORDINALI DISCRETI E CON DATI CONTINUI

2 1 , 10 8 , 29 2 = = = X s I uguale a 2,95

Per decidere se la varianza calcolata è significativamente maggiore (ma in un test bilaterale, in quanto prima del conteggio in questo caso non era supposto il tipo di aggregazione), il test chi quadrato con

ν

= 7 65 , 20 7 1 , 10 8 , 29 2 2 = ⋅

ν

= ⋅ =

χ

_ν X s risulta

χ

₇² = 20,65.

Nella tabella dei valori critici con gdl = 7 alla probabilità α = 0.005 si trova 2 7

χ

= 20,278.

Di conseguenza si può rifiutare l’ipotesi nulla (la distribuzione è casuale) e accettare l’ipotesi alternativa che non la sia.

Riportato nel grafico, il punto con coordinate 2 7

χ

= 20,65 e

ν

= 7 indica che l’infestazione di questo parassita è di tipo aggregato.

7.15. IL METODO DI KOLMOGOROV-SMIRNOV PER UN CAMPIONE, CON DATI ORDINALI DISCRETI E CON DATI CONTINUI

Come ripetutamente evidenziato nel capitolo sul χ2 parlando delle condizioni di validità, quando il numero totale di osservazioni è ridotto, convenzionalmente inferiore a 30, e/o le frequenze attese di almeno due gruppi sono inferiori a 5, non è possibile utilizzare il test

χ

E’ tuttavia ugualmente possibile verificare la concordanza tra fatto ed ipotesi, cioè tra una

distribuzione osservata e la corrispondente attesa, ricorrendo al test per un campione di Kolmogorov-Smirnov, due matematici russi quasi coetanei, Andrei Nikolaevich Kolmogorov

(1903-1987) e Nikolai Vasil’evich Smirnov (1900-1966).

Soprattutto, come verrà evidenziato ulteriormente con una dimostrazione sperimentale semplice, il test è più potente di quello del

χ

2, in particolare quando si utilizza una scala continua. Il test non è limitato al caso di piccoli campioni, ma è estensibile anche a grandi campioni, sebbene all’aumentare del numero dei dati diminuisca il suo vantaggio in potenza sui corrispondenti test χ2 e test G; oltre i

100 dati, la differenza è minima.

Proposto da A. Kolmogorov nel 1933 per il confronto tra un campione ed una distribuzione teorica (con l’articolo in italiano Sulla determinazione empirica di una legge di distribuzione, sulla rivista

Giornale dell’Istituto Italiano degli Attuari Vol. 4 pp. 1-11) di solito rettangolare o uniforme, è

stato sviluppato e poi esteso al caso di due campioni indipendenti nel 1939 da N. V. Smirnov con due articoli (il primo in francese, Sur les écarts de la courbe de distribution empirique, pubblicato su

Recueil Mathématiques N. S. 6:, pp. 3-26; il secondo in russo ma divulgato successivamente in

inglese, On the estimation of the discrepancy between empirical curves of distribution for two

independent samples, pubblicato su Bull. Moscow Univ. Intern. Ser. (Math) Vol. 2, pp.3-16).

Nel 1948 Smirnov ha fornito una tabella dei valori critici (con l’articolo in inglese Table for

estimating the goodness of fit of empirical distribution, pubblicato su Ann. Math Stat. vol. 19, pp.

279-281).

Successivamente, anche in tempi recenti, sono state proposte diverse altre tabelle; tra esse si distinguono per completezza dei parametri considerati quelle di A. N. Pettitt e M. A. Stephens del 1977 per dati raggruppati (The Kolmogorov-Smirnov goodness-of-fit statistic with discrete and

grouped data. Technometrics Vol 19, pp. 205–210) e le proposte di H. J. Khamis del 1990 per dati

continui (The δ corrected Kolmogorov-Smirnov test for goodnes of fit, pubblicato su Journal Statist.

Plan. Infer. Vol. 24, pp. 317- 335).

Tuttavia, su vari testi di statistica applicata spesso sono utilizzate quelle proposte inizialmente. Sono più semplici anche se più approssimate.

In queste dispense sono riportate quelle proposte da L. H. Miller nel 1956 (con l’articolo Table of

pencentage points of Kolmogorov statistics, pubblicato su Journal of the American Statistical

Association Vol. 51, pp. 111 – 121). Proposte per una scala continua, sono utilizzate in vari testi di

statistica applicata anche per dati raggruppati, a motivo della buona approssimazione che esse forniscono.

Il test di Kolmogorov-Smirnov per la bontà dell’adattamento (Kolmogorov-Smirnov goodness of

fit test), per la sua ampia utilizzazione è proposto su molti testi di statistica applicata. Esso può essere

utilizzato

- sia per dati misurati su una scala ordinale discreta o dati continui raggruppati in classi,

- sia per dati continui, che possono essere misurati con una scala di rapporti oppure a intervalli

88 PER DATI DISCRETI O RAGGRUPPATI

Tra i testi internazionali, questo metodo è riportato in

- Siegel Sidney e N. John jr. Castellan del 1988 (Nonparametric Statistics for the Behavioral

Sciences, (McGraw-Hill, London), tradotto in italiano nel 1992 Statistica non parametrica 2° ed.,

McGraw-Hill Libri Italia, Milano, 472 pp.)

- Zar Jerrold H. del 1999 (Biostatistical Analysis, fourth ed., Prentice Hall, Englewood Cliffs, New Jersey, USA, pp.663 + 203 app.)

A essi si rinvia per ulteriori approfondimenti e per l’uso di tabelle dei valori critici che sono più estese di quelle riportate in queste dispense.

In questo test, si richiede una condizione aggiuntiva, rispetto al test chi quadrato: i gruppi non

possono essere qualitativi, ma devono essere ordinati secondo una scala di tipo almeno ordinale.

L’ipotesi nulla è ancora

H0: la distribuzione osservata e quella attesa sono uguali

contro l’ipotesi alternativa

H1: le due distribuzioni divergono,

senza per questa indicare quale possa essere la distribuzione teorica più vicina alla distribuzione osservata.

Il confronto viene realizzato mediante il valore di massima divergenza tra le due distribuzioni cumulate. Successivamente, la tabella dei valori critici indica la probabilità di trovare una divergenza pari o superiore a quella calcolata, qualora fosse vera l’ipotesi nulla.

Il test si fonda sulla logica che, se un campione fosse estratto da una determinata distribuzione teorica o attesa, la sommatoria della distribuzione osservata dovrebbe discostarsi dalla sommatoria della distribuzione attesa solo per fattori casuali, di piccola entità.

Indicando con

- O(Xi) ogni valore della sommatoria dei dati osservati e con - A(Xi) ogni valore della sommatoria dei dati attesi,

la deviazione massima D’ è

D’ = max | O(Xi) - A(Xi)|

Per l’uso delle tabelle, come la prossima riportata, alcuni testi propongono di rendere D’ indipendente dal numero di osservazioni mediante la trasformazione

benché la sua significatività dipenda dalla dimensione (N) del campione.

La tavola presenta i valori critici per un test a 2 code e a 1 coda, in rapporto alla dimensione (N) del campione e al livello di significatività α prefissata.

Ad esempio, per apprenderne l’uso, alla probabilità α = 0.05 bilaterale

- con 5 dati (N = 5) è significativa una differenza uguale o superiore (D ≥ ) a 0,563 - con 6 dati è significativa una differenza di 0,519

- con 7 dati una differenza di 0,483, ecc.

Alla probabilità α = 0.01 per un test unilaterale sono rispettivamente significativi valori di D uguali o superiori

- a 0,627 (per N = 5) - a 0,577 (per N = 6) - a 0,538 (per N = 7).

La tavola riporta i valori critici fino ad N uguale a 40. Con N maggiore di 40, per test bilaterali sono significativi - alla probabilità α = 0.05 valori di

D ≥ 1,36 /

N

- alla probabilità α = 0.01 valori di

D ≥ 1,63 /

N

Con N maggiore di 40, per test unilaterali sono significativi - alla probabilità α = 0.05 valori di

D ≥ 1,22 /

N

- alla probabilità α = 0.01 valori di

D ≥ 1,52 /

N

Il ricorso al test di Kolmogorov-Smirnov permette di formare un numero molto alto di gruppi, ognuno con poche osservazioni attese, mentre il test chi-quadrato impone un loro raggruppamento, per non avere frequenze attese inferiori a 5.

Il test di Kolmogorov-Smirnov è più potente del test χ2

( g. d. l. ), in particolare quando il campione non è grande.

simili.

Per illustrane l’applicazione in modo semplice, è utile seguire un esempio in tutti i suoi passaggi logici, dalla presentazione del problema scientifico alla risposta conclusiva.

1) Si assuma che in dieci ore di osservazione, dalle ore 7 alle 17, un ricercatore di etologia abbia avvistato 15 uccelli della stessa specie dal suo luogo di appostamento, con la seguente cadenza oraria:

Ore 7-8 9-10 11-12 13-14 15-16

Uccelli avvistati 0 1 1 9 4

Egli intende verificare se

- si tratta di una distribuzione approssimativamente uniforme, cioè se le differenze osservate rispetto a tale ipotesi possono essere considerate entro i limiti delle variazioni accidentali (H₀),

- oppure se sia più attendibile pensare ad una incidenza effettiva dell’ora sul numero di avvistamenti (H₁) e quindi se le frequenze nelle diverse fasce orarie seguono una legge diversa (non nota, ma differente da quella di uniformità).

2 – La prima operazione da effettuare è la stima della distribuzione attesa, nella condizione che

l’ipotesi nulla sia vera.

Se l’ora non incidesse sulla frequenza di volo degli uccelli, il ricercatore avrebbe dovuto avvistarne un numero costante per ogni intervallo unitario di tempo; con 15 uccelli osservati in 5 intervalli di tempo, il ricercatore avrebbe dovuto osservarne 3 ogni 2 ore, con la seguente cadenza

Ore 7-8 9-10 11-12 13-14 15-16 Distribuzione attesa 3 3 3 3 3

Il confronto a coppie tra le due distribuzioni cumulate permette di calcolare le differenze tra coppie di frequenze e di trovare facilmente la differenza assoluta massima:

Valori critici di Dmax nel test di Kolmogorov-Smirnov

per la bontà dell’adattamento con dati continui e raggruppamenti in classi Test unilaterali e test bilaterali

con N da 5 a 24 (Proposti da Miller, 1956)

Nel documento 7. METODI NON PARAMETRICI PER UN CAMPIONE (pagine 87-92)