Lezione 25
In molte situazioni reali lo scopo di un’indagine statistica consiste nel confronto fra due o più popolazioni considerate in tempi o in situazioni diverse. Considerate due sole popolazioni, si confrontano generalmente i valori medi di una variabile o la proporzione di unità con una certa caratteristica.
VERIFICA DELL’UGUAGLIANZA FRA DUE VALORI MEDI Per la verifica di una ipotesi del tipo
H0 : 1 = 2
si estrae un campione da ciascuna popolazione e si calcolano le due medie campionarie per verificare se la differenza fra le stime così ottenute è abbastanza piccola da poter essere imputata all’effetto dei soli fattori casuali o se è così elevata da portare al rifiuto dell’ipotesi nulla di uguaglianza dei valori dei parametri che caratterizzano le due popolazioni.
I campioni considerati sono ovviamente indipendenti fra di loro, in quanto estratti da popolazioni diverse.
si utilizza, per esempio, per confrontare l’effetto di due fertilizzanti o di due medicinali, il rendimento di due titoli, i risultati ottenuti da studenti che hanno utilizzato due testi differenti, la durata di funzionamento di prodotti ottenuti con due macchinari diversi.
Come nel caso della verifica di ipotesi su un singolo parametro , anche in questa situazione si utilizzano statistiche test diverse in base alla conoscenza della distribuzione della Z nelle due popolazioni e a seconda delle numerosità 𝑛1 e 𝑛2 dei campioni estratti.
In ogni caso la verifica dell’ipotesi nulla si basa sul valore assunto dalla differenza delle due medie campionarie 𝑋̄1 e 𝑋̄2. Tanto più questa differenza è piccola in valore assoluto, tanto più l’ipotesi nulla sembra verosimile, mentre diventa via via più improbabile al crescere del suo valore.
Se la numerosità dei due campioni è sufficientemente elevata da poter utilizzare il teorema limite centrale, la distribuzione di probabilità delle due medie campionarie è approssimata da
𝑋̄1~𝑁 (𝜇1,𝜎12 𝑛1) 𝑋̄2~𝑁 (𝜇2,𝜎22
𝑛2)
1) Popolazioni di varianza nota
Tenendo conto che 𝑋̄1 e 𝑋̄2 sono variabili casuali indipendenti, la distribuzione approssimata della loro differenza è ancora una normale di parametri
𝑋̄1− 𝑋̄2~𝑁 (𝜇1− 𝜇2,𝜎12 𝑛1 +𝜎22
𝑛2)
per cui la corrispondente variabile differenza standardizzata è
𝑋̄1− 𝑋̄2− (𝜇1− 𝜇2)
√𝜎12 𝑛1 +𝜎22
𝑛2
~𝑁(0,1)
e la statistica test, sotto ipotesi nulla, assume la forma seguente
|
| 𝑋̄1− 𝑋̄2
√𝜎12 𝑛1 +𝜎22
𝑛2
|
|
Se
|
| 𝑋̄1 − 𝑋̄2
√𝜎12 𝑛1 +𝜎22
𝑛2
|
|
≤ 𝑧1−𝛼
2 non si ha motivo di rifiutare H0
Se
|
| 𝑋̄1 − 𝑋̄2
√𝜎12 𝑛1 +𝜎22
𝑛2
|
|
> 𝑧1−𝛼
2 si rifiuta H0
Di solito le varianze 𝜎12 e 𝜎22 delle due popolazioni non sono note, ma possono essere stimate in modo corretto e coerente mediante le varianze campionarie corrette. Occorre però distinguere due diversi casi:
- si ipotizza che le popolazioni abbiano varianza diversa (popolazioni eteroschedastiche)
- si ipotizza che le popolazioni abbiano una stessa varianza (popolazioni omoschedastiche)
2) Popolazioni eteroschedastiche di varianza non nota
Quando le varianze delle due popolazioni non sono note è possibile stimarle mediante le due varianze campionarie corrette. Per la verifica dell’ipotesi nulla, se le numerosità campionarie sono abbastanza elevate da poter utilizzare il teorema limite fondamentale, si utilizza quindi la seguente variabile
𝑋̄1− 𝑋̄2− (𝜇1− 𝜇2)
√𝑆1𝑐2
𝑛1 +𝑆2𝑐2 𝑛2
~𝑁(0,1)
che, sotto l’ipotesi nulla, assume la forma
𝑋̄1 − 𝑋̄2
√𝑆1𝑐2
𝑛1 +𝑆2𝑐2 𝑛2
~𝑁(0,1)
Se
|
| 𝑋̄1− 𝑋̄2
√𝑆1𝑐2
𝑛1 +𝑆2𝑐2 𝑛2
|
|
≤ 𝑧1−𝛼
2 non si ha motivo di rifiutare H0
Se
|
| 𝑋̄1− 𝑋̄2
√𝑆1𝑐2
𝑛1 +𝑆2𝑐2 𝑛2
|
|
> 𝑧1−𝛼
2 si rifiuta H0
ESEMPIO
Due diversi fertilizzanti sono stati utilizzati su due campioni di piante di numerosità 𝑛1=400 e 𝑛2=100 ottenendo i seguenti risultati:
𝑥̄1 = 2.5 𝑠1𝑐2 = 4 𝑥̄2 = 3.4 𝑠2𝑐2 = 8
Si vuole verificare l’ipotesi che i due fertilizzanti non diano risultati significativamente diversi fra loro al livello di significatività =0.10.
La statistica test assume il seguente valore
|| 2.5 − 3.4
√ 4400+ 8 100
|| = 3 > 𝑧0.95 = 1.645
per cui l’ipotesi va rifiutata.
Il p-valore associato alla statistica test è
2[1 − Φ(3)] = 2 × (1 − 0.9987) = 0.0026
per cui l’ipotesi di uguaglianza fra valori attesi va rifiutata per tutti i valori di comunemente utilizzati.
3) Popolazioni omoschedastiche di varianza non nota
Se si assume la cosiddetta ipotesi di omoschedasticità secondo cui le varianze delle due popolazioni sono uguali fra loro e quindi entrambe uguali a 2, la verifica dell’ipotesi nulla si basa sulla statistica
𝑋̄1− 𝑋̄2 − (𝜇1− 𝜇2)
√𝜎2 𝑛1 +𝜎2
𝑛2
=𝑋̄1− 𝑋̄2− (𝜇1− 𝜇2)
√𝜎2𝑛1 + 𝑛2 𝑛1𝑛2
= 𝑋̄1− 𝑋̄2− (𝜇1− 𝜇2) 𝜎√𝑛1+ 𝑛2
𝑛1𝑛2
In genere il valore del parametro 2 è ignoto, ma può essere stimato in modo corretto mediante la cosiddetta varianza campionaria pooled 𝑆𝑝2 che assume la forma seguente
𝑆𝑝2 = (𝑛1− 1)𝑆1𝑐2 + (𝑛2− 1)𝑆2𝑐2 𝑛1 + 𝑛2− 2
e che corrisponde alla media delle due varianze campionarie corrette ponderate con le rispettive numerosità campionarie diminuite di 1.
Per la verifica dell’ipotesi nulla si utilizza quindi la seguente statistica test
𝑋̄1− 𝑋̄2 − (𝜇1− 𝜇2) 𝑆𝑝√𝑛1+ 𝑛2
𝑛1𝑛2
~𝑡𝑛1+𝑛2−2
che, sotto l’ipotesi nulla. assume la forma
𝑋̄1− 𝑋̄2 𝑆𝑝√𝑛1+ 𝑛2
𝑛1𝑛2
~𝑡𝑛1+𝑛2−2
Se || 𝑋̄1− 𝑋̄2 𝑆𝑝√𝑛1+ 𝑛2
𝑛1𝑛2
|| ≤ 𝑡𝑛1+𝑛2−2,1−𝛼/2 non si ha motivo di rifiutare H0
Se || 𝑋̄1− 𝑋̄2 𝑆𝑝√𝑛1+ 𝑛2
𝑛1𝑛2
|| > 𝑡𝑛1+𝑛2−2,1−𝛼/2 si rifiuta H0
ESEMPI
1) Su due campioni casuali rispettivamente di numerosità n1=7 e n2=15 provenienti da due popolazioni normali e omoschedastiche sono stati ottenuti i seguenti risultati relativi alla media e alla varianza corretta
𝑥̄1 = 2, 𝑠1𝑐2 = 4.4 𝑥̄2 = 3.2, 𝑠2𝑐2 = 5.2
Verificare l’ipotesi di uguaglianza dei valori medi al livello di significatività 0.05
Sulla base dei dati forniti dal testo la varianza pooled risulta 𝑠𝑝2 =6 × 4.4 + 14 × 5.2
20 = 4.96
per cui la statistica test risulta pari a
|| 2 − 3.2
√4.967 + 15 105
|| ≈ 1.1771
Tenendo presente che 𝑡20,0.975 = 2.086, non si ha motivo di rifiutare H0
Esempio 2
Si considerino i seguenti dati relativi a due campioni casuali provenienti da popolazioni normali e omoschedastiche e si verifichi l’ipotesi H0:1=2 al livello di significatività =0.01.
Campione 1: 2 3 5 2 4 4 6 6 5 7 Campione 2: 5 7 5 5 6 7 7 6
Sulla base dei dati forniti dal testo si ottengono i seguenti risultati 𝑛1 = 10 𝑥̄1 = 4.4 𝑠1𝑐2 = 2.93̄
𝑛2 = 8 𝑥̄2 = 6 𝑠2𝑐2 = 0.85714
La varianza pooled risulta quindi pari a
𝑠𝑝2 =9 × 2.93̅ + 7 × 0.85714
16 = 2.025
La statistica test è quindi
|| 4.4 − 6
√2.02510 + 8 80
|| = 2. 370̅̅̅̅̅
Tenendo presente che 𝑡16,0.995 = 2.921, non si ha motivo di rifiutare H0
Esempio 3
Su due campioni casuali rispettivamente di numerosità n1=20 e n2=30 provenienti da due popolazioni normali e omoschedastiche sono stati ottenuti i seguenti risultati relativi alla media e alla varianza corretta
𝑥̄1 = 8, 𝑠1𝑐2 = 9 𝑥̄2 = 6.5, 𝑠2𝑐2 = 10.2
Verificare l’ipotesi di uguaglianza dei valori medi mediante il calcolo del p-valore
Sotto ipotesi di omoschedasticità, lo stimatore della varianza comune è la varianza pooled che assume il valore
𝑠𝑝2 = 19 × 9 + 29 × 10.2
48 = 9.725
La statistica test è pari a
|| 8 − 6.5
√9.72520 + 30 600
|| ≈ 1.6662
In questo caso il numero dei gradi di libertà della t è superiore a 30, per cui i suoi quantili sono approssimati dai quantili della normale standard e il p-valore richiesto risulta pari a
2[1 − Φ(1.67)] = 2 × (1 − 0.9525) = 0.095
L’ipotesi nulla verrebbe rifiutata per =0.10, ma non si rifiuterebbe per un qualsiasi valore <0.095
VERIFICA DELL’UGUAGLIANZA FRA DUE PROPORZIONI Se Z ha una distribuzione Zero-Uno, la verifica dell’ipotesi
H0: 𝜋1 = 𝜋2 = 𝜋0
dove 𝜋0 indica il valore ignoto della proporzione comune nelle due popolazioni, equivale a verificare l’uguaglianza della distribuzione di Z nelle due popolazioni.
Se le numerosità campionarie n1 e n2 sono sufficientemente elevate le due proporzioni campionarie hanno distribuzione
𝑃̂1~𝑁 (𝜋1,𝜋1(1 − 𝜋1) 𝑛1 ) 𝑃̂2~𝑁 (𝜋2,𝜋2(1 − 𝜋2)
𝑛2 )
e, considerata la loro indipendenza, la differenza fra tali proporzioni ha la seguente distribuzione
𝑃̂1− 𝑃̂2~𝑁 (𝜋1− 𝜋2,𝜋1(1 − 𝜋1)
𝑛1 +𝜋2(1 − 𝜋2) 𝑛2 )
Effettuando la standardizzazione risulta
𝑃̂1− 𝑃̂2 − (𝜋1− 𝜋2)
√𝜋1(1 − 𝜋1)
𝑛1 +𝜋2(1 − 𝜋2) 𝑛2
~𝑁(0,1)
e, assumendo come vera l’ipotesi nulla, si ha
𝑃̂1− 𝑃̂2
√𝜋0(1 − 𝜋0)
𝑛1 +𝜋0(1 − 𝜋0) 𝑛2
= 𝑃̂1− 𝑃̂2
√𝜋0(1 − 𝜋0) (1 𝑛1 + 1
𝑛2)
~𝑁(0,1)
Per la stima di 𝜋0 si utilizza la media delle due proporzioni campionarie ponderata con le numerosità campionarie, ossia lo stimatore seguente
𝜋̂0 = 𝑃̂0 = 𝑛1𝑃̂1 + 𝑛2𝑃̂2 𝑛1+ 𝑛2
Per la verifica dell’ipotesi nulla si utilizza la statistica
𝑃̂1− 𝑃̂2
√𝑃̂0(1 − 𝑃̂0) (1 𝑛1+ 1
𝑛2)
~𝑁(0,1)
presa in valore assoluto.
Se || 𝑃̂1− 𝑃̂2
√𝑃̂0(1 − 𝑃̂0) (1 𝑛1 + 1
𝑛2)
|| ≤ 𝑧1−𝛼 2⁄ non si ha motivo di rifiutare H0
Se || 𝑃̂1− 𝑃̂2
√𝑃̂0(1 − 𝑃̂0) (1 𝑛1 + 1
𝑛2)
|| > 𝑧1−𝛼 2⁄ si rifiuta H0
ESEMPIO
Un’azienda vuole confrontare le caratteristiche di due diversi macchinari rispetto alla proporzione di articoli difettosi prodotti. Sapendo che su 500 articoli provenienti dalla produzione del macchinario A i difettosi sono 22, mentre su 1500 articoli provenienti dal macchinario B i difettosi sono 48, si verifichi l’ipotesi di uguaglianza della proporzione di articoli difettosi prodotti dai due macchinari attraverso il calcolo del p-valore
Le due proporzioni campionarie risultano
𝑝̂1 = 22
500= 0.044 𝑝̂2 = 48
1500 = 0.032
per cui lo stimatore della proporzione comune è data da 𝑝̂0 = 500 × 0.044 + 1500 × 0.032
2000 = 0.035
La statistica test risulta
|| 0.044 − 0.032
√0.035(1 − 0.035) ( 1
500+ 1 1500)
|| ≈ 1.2644
e il p-valore associato è pari a
2[1 − Φ(1.26)] = 2 × (1 − 0.8962) = 0.2076
L’ipotesi di uguaglianza fra le due proporzioni non va quindi rifiutata per gli usuali livelli di significatività utilizzati.